Četiri glavna chatbota za umjetnu inteligenciju: OpenAI-jev ChatGPT, Alphabetov Google Gemini, Anthropicov Claude i xAI-jev Grok muče se s točnim odgovorima na pitanja o izborima i geopolitici, prema novoj studiji Foruma AI.
Istraživači su četiri chatbota pitali više od 3100 pitanja o širokom rasponu vijesti, poput politike, zdravstva i vanjskih poslova. Otkrili su da su kolektivni odgovori o izborima, posebno, "90 posto vremena zakazali u pogledu točnosti, pristranosti ili odabira izvora".
Gotovo 36 posto odgovora na pitanja o izborima sadržavalo je barem jednu činjeničnu pogrešku; Grok - najteži prekršitelj - vratio je pogrešku gotovo 52 posto vremena. Kada su ChatGPT, Claude i Gemini vratili pristrane odgovore, svrstali su se uz političku ljevicu, a Grok se prvenstveno naginjao u korist političke desnice.
Sva četiri modela također su se rutinski oslanjala na strane, državne medije kao pouzdane izvore informacija. U 35 posto odgovora na pitanja o vanjskoj politici, chatbotovi su citirali izvore pod državnom kontrolom poput kineskog Global Timesa ili CGTN-a ili ruskog RT-a. ChatGPT i Grok bili su najgori prekršitelji, citirajući državne medije u 51 odnosno 44 posto vremena.
U mnogim slučajevima, chatbotovi su vraćali pristrane ili netočne informacije s još više obmanjujućim samopouzdanjem, pokazalo je istraživanje. "Najprofesionalniji odgovori, potkrijepljeni najjačim citatima, također su najvjerojatnije sadržavali skrivene činjenične pogreške", rekao je Forum u srijedu u izjavi, nazivajući to jednim od "najoštrijih nalaza studije".
Chatbotovi se često bore s točnošću vijesti, posebno kod najnovijih vijesti gdje su na internetu dostupne ograničene informacije. Modeli umjetne inteligencije koji pokreću chatbotove često su obučeni na širokom rasponu podataka pronađenih na otvorenom webu, notorno nepouzdanom izvoru činjenica.
Campbell Brown, glavna izvršna direktorica Foruma AI i bivša voditeljica odjela za partnerstva u vijestima u Meta Platforms, rekla je da je posebno zabrinuta zbog rezultata studije s obzirom na nadolazeći ciklus izbora na sredini mandata. Malo ljudi danas koristi chatbotove za vijesti, ali taj će se broj nesumnjivo s vremenom povećati jer će nastaviti preusmjeravati upite koji su prije išli na Googleovu tražilicu.
Brown je provela studiju u nadi da će od kreatora modela tražiti veću odgovornost. Borba s točnošću vijesti mogla bi ih potaknuti da daju prioritet ovim vrstama upita na isti način na koji stavljaju interakcije usmjerene na matematiku ili kodiranje na prvo mjesto, rekla je.
Nijedan od ostala tri kreatora modela nije komentirao ovu priču.
"Neovisna evaluacija je važna", rekla je Brown, koja je prošle godine suosnovala Forum AI. Startup je koristio vlastiti AI model za ocjenjivanje kreatora chatbotova, gradeći ga uz doprinos niza stručnjaka iz industrije koji su desetljećima proučavali vanjske poslove i geopolitiku.
"Tvrtke koje su model u biti ocjenjuju vlastitu domaću zadaću", nastavila je Brown. "I stvarno je važno da postoje tvrtke izvan tvrtki koje su model koje rade ovaj posao i dijele rezultate."
Velike društvene platforme poput Mete i Googleovog YouTubea povijesno su se klonile provjere činjenica, posebno za teme koje su široko polarizirajuće i politički nabijene, tvrdeći da ne žele biti arbitri istine za ostatak interneta.
Brown vjeruje da će AI tvrtke biti drugačije.
"U Meti optimizirate za angažman. A ako optimizirate za angažman, teško je optimizirati i za točnost", rekla je. AI tvrtke koje prodaju svoje modele poslovnim klijentima nalaze se u drugačijoj situaciji, dodala je Brown. Ti kupci koji plaćaju očekivat će točnost kao osnovnu vrijednost.
"Mislim da je to na kraju dana potpuno drugačiji proizvod", rekla je.
— Uz pomoć Vlada Savova