Kontekst

Portal Chatbot Arena najavio je uspon DeepSeeka prije svih drugih

Izvor: Rachel Metz/Bloomberg Businessweek

11. travanj 2025, 09:26

To je stranica na kojoj korisnici ocjenjuju chatbote

Tamo stručnjaci za umjetnu inteligenciju dobivaju informacije o najboljim modelima

Portal Chatbot Arena najavio je uspon DeepSeeka prije svih drugih

Patrik Mollwing za Bloomberg Businessweek

Većina je ljudi za DeepSeek prvi put čula u siječnju, kad se njegov sustav umjetne inteligencije (UI) otvorenog kȏda počeo uspoređivati s modelima OpenAI-ja i Googlea, iako je navodno razvijen uz puno manja ulaganja.

Korisnici stranice Chatbot Arena u tom su trenutku vjerojatno zakolutali očima s obzirom na to da su već mjesecima pratili i ocjenjivali modele umjetne inteligencije tog kineskog poduzeća.

Portal Chatbot Arena osnovan je početkom 2023., uslijed euforije koju je izazvao OpenAI lansiranjem sustava ChatGPT. Portal je počeo kao istraživački projekt unutar kabineta za računalstvo Sky na Kalifornijskom sveučilištu u Berkeleyju, a danas predstavlja niz vrhunskih modela UI-ja koje posjetitelji mogu testirati i ocjenjivati. „Neovisna treća strana kojoj je cilj iskreno ocjenjivanje napretka u području UI-ja imat će presudnu ulogu“, smatra Wei-Lin Chiang, istraživač na postdoktoratu na Kalifornijskom sveučilištu u Berkeleyju i jedan od voditelja Chatbot Arene. „Svi tvrde da je njihov model najbolji. Tu puno pomažu transparentnost i neovisnost.“

Chatbot Arena brzo je postala popularno okupljalište za pionire na polju UI-ja i vodeći pokazatelj unutar brzorastućeg područja ocjenjivanja umjetne inteligencije. Mjesečno privlači milijun posjetitelja. Na stranici svoje modele testiraju kako vodeća poduzeća za razvoj UI-ja tako i novi igrači koji razvijaju modele otvorenog kȏda. Neke kompanije svoje modele prvo objavljuju na Chatbot Areni prije predstavljanja široj javnosti (to je bio slučaj i s modelom GPT-4o prošlog proljeća).

Kad sve ide po planu, rezultati s Chatbot Arene povod su za slavlje, a mogu donijeti i globalni publicitet, kao u slučaju DeepSeeka. Korisnici Chatbot Arene već su testirali više modela otvorenog kȏda tog kineskog poduzeća, a svaki novi model dobiva sve bolje ocjene. Najnoviji kineski modeli objavljeni na Chatbot Areni krajem prosinca i u siječnju već se nalaze pri vrhu ljestvice. Riječ je o velikom jezičnom modelu V3 koji je sličan ChatGPT-ju te o modelu R1 koji dulje „razmišlja“ o odgovoru prije nego što ga prikaže.

R1 je skočio na treće mjesto nekoliko dana nakon predstavljanja, prestigavši OpenAI-jev model koji se temelji na duljem promišljanju, o1. DeepSeekova aplikacija za chat ubrzo nakon toga zasjela je na vrh ljestvica trgovina mobilnih aplikacija, uključujući Appleov App Store u SAD-u i trgovinu Google Play. Istaknute osobe poput ulagača rizičnog kapitala Marca Andreessena i izvršnog direktora OpenAI-ja Sama Altmana pohvalile su model. Samo nekoliko dana poslije tržišna vrijednost dionica američkih i europskih tehnoloških kompanija pala je za gotovo bilijun američkih dolara (oko bilijun eura) s obzirom na to da su zbog DeepSeeka mnogi posumnjali da tehnološki sektor troši previše novca za razvoj UI infrastrukture.

No, Chiang i njegov kolega na postdoktoratu i drugi voditelj Chatbot Arene Anastasios Angelopoulos nisu bili iznenađeni. „Iskreno, nije nas previše iznenadilo da se model poput toga popeo na vrh“, izjavio je Angelopoulos. „Ekosustav će se nastaviti razvijati. Za mjesec na vrhu više neće biti DeepSeek-R1, nego neki drugi model.“

Vašu prijavu nije moguće sačuvati. Molimo vas, pokušajte ponovo.

Uspešno ste se prijavili.

Chatbot Arena nije jedini projekt koji objavljuje javno dostupne rang-ljestvice modela umjetne inteligencije. Stranice SWE-Bench i Humanity’s Last Exam, primjerice, ocjenjuju kako modeli UI-ja rješavaju razne zadatke, od matematičkih problema i pisanja kȏda do traženja odgovora na najteža pitanja čovječanstva. Međutim, sustavi ocjenjivanja nisu standardizirani te ne postoji službeno tijelo za nadzor metodologije testiranja. Napredak u području UI-ja toliko je brz da postojeći kriteriji ocjenjivanja zastarijevaju kad god izađe neki novi model (sjećate li se Turingova testa?).

Chatbot Arena ispituje što korisnici misle o funkcionalnosti modela UI-ja. „Neki bi to mogli nazvati intuicija, ali zapravo je riječ o testiranju upotrebe u stvarnim uvjetima“, napominje Chiang. „Ako radite za OpenAI i gradite ChatGPT, onda vam je stalo do toga što korisnici misle.“

Do početka veljače na Chatbot Areni testirano je više od 200 modela UI-ja, uključujući proizvode kompanija Anthropic, Google, Meta, OpenAI i xAI, a 90 ih je još dostupno za testiranje. Kompanije obično surađuju s Chatbot Arenom kako bi se njihovi modeli objavili na platformi, a zatim pokrivaju troškove testiranja. Budući da je riječ o projektu otvorenog kȏda, odnosno da su podaci i kȏd javno dostupni, financira se i vanjskim potporama, uključujući tvrtke rizičnog kapitala Andreessen Horowitz i Sequoia Capital. Kako je riječ o akademskom projektu, većinu posla obavljaju studenti s Kalifornijskog sveučilišta u Berkeleyju.

Po ulasku na mrežnu stranicu posjetiteljima se prikazuje upozorenje da je riječ o istraživačkom projektu. Posjetitelji mogu postaviti pitanja dvama anonimnim chatbotovima, a zatim biraju koji je dao bolje odgovore. Imena modela otkrivaju se nakon glasanja. Modeli dobivaju bodove na temelju glasovanja, a sustav rangiranja temelji se na Elovu sustavu izračuna snage pojedinca koji se primjenjuje u šahu, pri čemu se ocjene dobivaju na temelju rezultata međusobnih dvoboja.

Korisnici su dosad ostavili više od 2,6 milijuna glasova. Budući da ne postoji sustav prijave, Chatbot Arena ne prati podatke o korisnicima, ali analizira vrste upita koje korisnici najčešće postavljaju. Najpopularnija su pitanja iz računalnog programiranja i kreativnog pisanja, primjerice: „Napiši pjesmu u dvostihu u kojoj prijelomi stihova služe kako bi se stvorio osjećaj pokreta i napetosti; tema neka budu jabuke.“

Rang-ljestvica na Chatbot Areni doima se vrlo konačno, ali ona zapravo mjeri nešto vrlo specifično: reakciju korisničke baze (koja uglavnom dolazi iz akademskih krugova i zanimaju je teme poput strojnog učenja). Sustav rangiranja „jako je cool i rado se njime vodimo, ali on ne pokazuje je li model funkcionalan ni može li se lako prilagoditi za poslovnu primjenu“, smatra Nick Frosst, suosnivač Cohere, tvrtke za razvoj modela UI-ja za poslovnu primjenu.

Neki ističu problem moguće manipulacije rang-ljestvicom. U novom istraživanju objavljenom na Arxivu, javnom repozitoriju radova koji nisu prošli stručnu recenziju, istraživači su simulirali lažiranje glasova kako bi ilustrirali potencijalne nedostatke sustava. Angelopoulos i Chiang tvrde da Chatbot Arena ima brojne zaštite za slučajeve takve zloupotrebe. Angelopoulos isto tako navodi da nema dokaza da je stranica pretrpjela uspješan napad.

Chiang, Angelopoulos i suradnici zasad se bave poboljšanjem zajednice koja sudjeluje u Chatbot Areni i širenjem načina testiranja. Stranica odnedavno podupire druge vrste modela UI-ja, uključujući generatore slika. No, s obzirom na interes javnosti, ne isključuju mogućnost da Chatbot Arena jednog dana postane komercijalni projekt. „Definitivno razmišljamo o tome“, priznaje Chiang.

Bloomberg Businessweek Adria chatbot deepseek chatbot arena umjetna inteligencija

U fokusu

24 AI startupa čiji rad treba pratiti u 2026. godini

Sve veći broj startupa vrijednih milijarde dolara pokušava unaprijediti svaki segment gospodarstva umjetnom inteligencijom, na ove trebate obratiti pažnju.

02.12.2025

Kontekst

Je li umjetna inteligencija novi dot-com balon?

Tijekom kraha dot-com tvrtki, tehnološka industrija izgubila je 500 milijardi dolara, a više od 200 tvrtki je bankrotiralo.

28.11.2025

Kompanije

Perplexity je novi pit bull umjetne inteligencije

Najnovije dvije tužbe samo su se pridružile već dugom popisu nezadovoljnika načinom na koji Perplexity prikuplja sadržaj.

11.11.2025

Ulaganja u umjetnu inteligenciju mjere se u milijardama, a chatbotovi nam lažu

Studija Europske radiodifuzijske unije (EBU) otkrila je zabrinjavajuće stope pogrešaka među popularnim AI chatbotovima. Vjerovali ili ne, jedan od tri odgovora je izmišljen.

10.11.2025

Autor: Marija Veljković

Sve vijesti iz rubrike Businessweek Adria

Pod lupom

BYD vodi u globalnoj utrci za izradu jeftinijih električnih vozila

Kinesko poduzeće preplavljuje tržišta svojim automobilima dok SAD čini sve što može kako bi ova brzorastuća marka ostala izvan njegovih granica.

09.01.2025

Top25

Ljudi koji su obilježili 2024. i koji će utjecati na 2025. godinu

Bloomberg Businessweek Adria bira osobe i ideje koje su obilježile tekuću godinu i koje će imati utjecaja u idućoj.

30.12.2024

Autor: Bloomberg Adria

Za kraj

Budućnost brze hrane mogla bi biti zdrava hrana

Najhrabriji potez koji poduzeće za proizvodnju konzervirane hrane može povući bio bi prelazak s konzervansa na prirodni uzgoj.

18.10.2024

Glavna tema

Tata, vrijeme je za mirovinu!

Obiteljske tvrtke su bile svjetionici izdržljivosti svih ovih godina. Je li došlo vrijeme za promjene?

26.09.2024

Autor: Nataša Hadžispirkoska Stefanova

Inspiracija

Kako će milenijski val promijeniti luksuz

Do 2030. godine na iduću generaciju prijeći će čak 15 trilijuna dolara.

05.10.2023

Autor: Natasha Davidov

Businessweek Adria

U fokusu

24 AI startupa čiji rad treba pratiti u 2026. godini

Sve veći broj startupa vrijednih milijarde dolara pokušava unaprijediti svaki segment gospodarstva umjetnom inteligencijom, na ove trebate obratiti pažnju.

02.12.2025