Većina je ljudi za DeepSeek prvi put čula u siječnju, kad se njegov sustav umjetne inteligencije (UI) otvorenog kȏda počeo uspoređivati s modelima OpenAI-ja i Googlea, iako je navodno razvijen uz puno manja ulaganja.
Korisnici stranice Chatbot Arena u tom su trenutku vjerojatno zakolutali očima s obzirom na to da su već mjesecima pratili i ocjenjivali modele umjetne inteligencije tog kineskog poduzeća.
Portal Chatbot Arena osnovan je početkom 2023., uslijed euforije koju je izazvao OpenAI lansiranjem sustava ChatGPT. Portal je počeo kao istraživački projekt unutar kabineta za računalstvo Sky na Kalifornijskom sveučilištu u Berkeleyju, a danas predstavlja niz vrhunskih modela UI-ja koje posjetitelji mogu testirati i ocjenjivati. „Neovisna treća strana kojoj je cilj iskreno ocjenjivanje napretka u području UI-ja imat će presudnu ulogu“, smatra Wei-Lin Chiang, istraživač na postdoktoratu na Kalifornijskom sveučilištu u Berkeleyju i jedan od voditelja Chatbot Arene. „Svi tvrde da je njihov model najbolji. Tu puno pomažu transparentnost i neovisnost.“
Chatbot Arena brzo je postala popularno okupljalište za pionire na polju UI-ja i vodeći pokazatelj unutar brzorastućeg područja ocjenjivanja umjetne inteligencije. Mjesečno privlači milijun posjetitelja. Na stranici svoje modele testiraju kako vodeća poduzeća za razvoj UI-ja tako i novi igrači koji razvijaju modele otvorenog kȏda. Neke kompanije svoje modele prvo objavljuju na Chatbot Areni prije predstavljanja široj javnosti (to je bio slučaj i s modelom GPT-4o prošlog proljeća).
Kad sve ide po planu, rezultati s Chatbot Arene povod su za slavlje, a mogu donijeti i globalni publicitet, kao u slučaju DeepSeeka. Korisnici Chatbot Arene već su testirali više modela otvorenog kȏda tog kineskog poduzeća, a svaki novi model dobiva sve bolje ocjene. Najnoviji kineski modeli objavljeni na Chatbot Areni krajem prosinca i u siječnju već se nalaze pri vrhu ljestvice. Riječ je o velikom jezičnom modelu V3 koji je sličan ChatGPT-ju te o modelu R1 koji dulje „razmišlja“ o odgovoru prije nego što ga prikaže.
R1 je skočio na treće mjesto nekoliko dana nakon predstavljanja, prestigavši OpenAI-jev model koji se temelji na duljem promišljanju, o1. DeepSeekova aplikacija za chat ubrzo nakon toga zasjela je na vrh ljestvica trgovina mobilnih aplikacija, uključujući Appleov App Store u SAD-u i trgovinu Google Play. Istaknute osobe poput ulagača rizičnog kapitala Marca Andreessena i izvršnog direktora OpenAI-ja Sama Altmana pohvalile su model. Samo nekoliko dana poslije tržišna vrijednost dionica američkih i europskih tehnoloških kompanija pala je za gotovo bilijun američkih dolara (oko bilijun eura) s obzirom na to da su zbog DeepSeeka mnogi posumnjali da tehnološki sektor troši previše novca za razvoj UI infrastrukture.
No, Chiang i njegov kolega na postdoktoratu i drugi voditelj Chatbot Arene Anastasios Angelopoulos nisu bili iznenađeni. „Iskreno, nije nas previše iznenadilo da se model poput toga popeo na vrh“, izjavio je Angelopoulos. „Ekosustav će se nastaviti razvijati. Za mjesec na vrhu više neće biti DeepSeek-R1, nego neki drugi model.“
Chatbot Arena nije jedini projekt koji objavljuje javno dostupne rang-ljestvice modela umjetne inteligencije. Stranice SWE-Bench i Humanity’s Last Exam, primjerice, ocjenjuju kako modeli UI-ja rješavaju razne zadatke, od matematičkih problema i pisanja kȏda do traženja odgovora na najteža pitanja čovječanstva. Međutim, sustavi ocjenjivanja nisu standardizirani te ne postoji službeno tijelo za nadzor metodologije testiranja. Napredak u području UI-ja toliko je brz da postojeći kriteriji ocjenjivanja zastarijevaju kad god izađe neki novi model (sjećate li se Turingova testa?).
Chatbot Arena ispituje što korisnici misle o funkcionalnosti modela UI-ja. „Neki bi to mogli nazvati intuicija, ali zapravo je riječ o testiranju upotrebe u stvarnim uvjetima“, napominje Chiang. „Ako radite za OpenAI i gradite ChatGPT, onda vam je stalo do toga što korisnici misle.“
Do početka veljače na Chatbot Areni testirano je više od 200 modela UI-ja, uključujući proizvode kompanija Anthropic, Google, Meta, OpenAI i xAI, a 90 ih je još dostupno za testiranje. Kompanije obično surađuju s Chatbot Arenom kako bi se njihovi modeli objavili na platformi, a zatim pokrivaju troškove testiranja. Budući da je riječ o projektu otvorenog kȏda, odnosno da su podaci i kȏd javno dostupni, financira se i vanjskim potporama, uključujući tvrtke rizičnog kapitala Andreessen Horowitz i Sequoia Capital. Kako je riječ o akademskom projektu, većinu posla obavljaju studenti s Kalifornijskog sveučilišta u Berkeleyju.
Po ulasku na mrežnu stranicu posjetiteljima se prikazuje upozorenje da je riječ o istraživačkom projektu. Posjetitelji mogu postaviti pitanja dvama anonimnim chatbotovima, a zatim biraju koji je dao bolje odgovore. Imena modela otkrivaju se nakon glasanja. Modeli dobivaju bodove na temelju glasovanja, a sustav rangiranja temelji se na Elovu sustavu izračuna snage pojedinca koji se primjenjuje u šahu, pri čemu se ocjene dobivaju na temelju rezultata međusobnih dvoboja.
Korisnici su dosad ostavili više od 2,6 milijuna glasova. Budući da ne postoji sustav prijave, Chatbot Arena ne prati podatke o korisnicima, ali analizira vrste upita koje korisnici najčešće postavljaju. Najpopularnija su pitanja iz računalnog programiranja i kreativnog pisanja, primjerice: „Napiši pjesmu u dvostihu u kojoj prijelomi stihova služe kako bi se stvorio osjećaj pokreta i napetosti; tema neka budu jabuke.“
Rang-ljestvica na Chatbot Areni doima se vrlo konačno, ali ona zapravo mjeri nešto vrlo specifično: reakciju korisničke baze (koja uglavnom dolazi iz akademskih krugova i zanimaju je teme poput strojnog učenja). Sustav rangiranja „jako je cool i rado se njime vodimo, ali on ne pokazuje je li model funkcionalan ni može li se lako prilagoditi za poslovnu primjenu“, smatra Nick Frosst, suosnivač Cohere, tvrtke za razvoj modela UI-ja za poslovnu primjenu.
Neki ističu problem moguće manipulacije rang-ljestvicom. U novom istraživanju objavljenom na Arxivu, javnom repozitoriju radova koji nisu prošli stručnu recenziju, istraživači su simulirali lažiranje glasova kako bi ilustrirali potencijalne nedostatke sustava. Angelopoulos i Chiang tvrde da Chatbot Arena ima brojne zaštite za slučajeve takve zloupotrebe. Angelopoulos isto tako navodi da nema dokaza da je stranica pretrpjela uspješan napad.
Chiang, Angelopoulos i suradnici zasad se bave poboljšanjem zajednice koja sudjeluje u Chatbot Areni i širenjem načina testiranja. Stranica odnedavno podupire druge vrste modela UI-ja, uključujući generatore slika. No, s obzirom na interes javnosti, ne isključuju mogućnost da Chatbot Arena jednog dana postane komercijalni projekt. „Definitivno razmišljamo o tome“, priznaje Chiang.