Inovacije

Budućnost UI-ja oslanja se na besplatnu bazu podataka jednog učitelja

Izvor: Marissa Newman i Aggi Cantrill/Bloomberg

30. travanj 2023, 11:07

LAION je baza podataka slika i tekstualnih opisa koja se koristi za razvoj UI-ja

Christoph Schuhmann je s timom volontera stvorio besplatnu bazu

Sadržaj baze otvara mnoga pravna i etička pitanja

Budućnost UI-ja oslanja se na besplatnu bazu podataka jednog učitelja

Christoph Schuhmann, srednjoškolski učitelj fizike i informatike iz Hamburga, tvorac baze LAION

Bloomberg

Na poštanskom sandučiću ispred kuće u predgrađu Hamburga stoji olovkom napisana riječ – "LAION". To je jedini znak da kuća pripada čovjeku koji se nalazi iza golemog projekta prikupljanja podataka ključnog za nagli skok umjetne inteligencije (UI) koji je u fokusu svjetske pažnje.

Čovjek o kojem pričamo srednjoškolski je učitelj Christoph Schuhmann, a LAION, skraćenica za Large-scale AI Open Network, njegova je strast. Kad Schuhmann njemačke srednjoškolce ne podučava fizici i informatici, on s malom skupinom volontera radi na kreiranju najveće besplatne svjetske baze podataka za vježbanje umjetne inteligencije kojom se već koriste alati za pretvaranje teksta u slike, poput Stable Diffusiona i Googleova Imagena.

Baze podataka poput LAION-a ključne su za alate umjetne inteligencije koji tekst pretvaraju u slikovne prikaze, a koji se oslanjaju na enormne količine vizualnih materijala u tim bazama za dekonstrukciju i stvaranje novih slika. Pojava tih alata krajem prošle godine bila je revolucionarni događaj: hladni rat tehnološkog sektora u umjetnoj inteligenciji skočio je u hiperbrzinu i otvorila se sva sila etičkih i legalnih dilema. U samo nekoliko mjeseci podignute su tužbe protiv tvrtki za generativnu umjetnu inteligenciju Stability AI i Midjourney zbog povrede autorskih prava, a kritičari su podigli glas zbog nasilnih, seksualiziranih i drugih problematičnih slika unutar njihovih baza za koje se drži da su uvele predrasude koje je gotovo nemoguće ukloniti.

Čitaj više

Inovacije

Futurist Ian Beacraft: Bez brige, UI će nas sve zamijeniti

Futurist Ian Beacraft zaključio je da je dobro što će nas umjetna inteligencija zamijeniti.

22.04.2023

Autor: Nikolina Oršulić

Inovacije

ChatGPT ima svijetlu budućnost, ljudi vole razgovarati

Ljepota ChatGPT-a je u tome što može razumjeti prirodni jezični unos korisnika i pružiti im relevantne odgovore.

20.04.2023

Autor: Edita Vlahović Žuvela

Inovacije

ChatGPT razumije jezik bankara i po naslovima može predvidjeti kretanje dionica

Korištenje tzv. obrade prirodnih jezika nije novo u financijama, ali ga umjetna inteligencija podiže na novu razinu.

18.04.2023

Inovacije

Bivši šef Googlea protiv pauze u razvoju AI-ja, Kinezi bi dobili prednost

Bivši izvršni direktor Googlea Eric Schmidt smatra da šestomjesečna pauza u razvoju AI-ja ne bi bila od pomoći.

07.04.2023

No sve to ne brine Schuhmanna. On samo želi besplatne podatke.

Četrdesetogodišnji učitelj i diplomirani glumac je prije dvije godine viseći na Discord serveru za ljubitelje umjetne inteligencije pomogao u kreiranju LAION-a. Tada je tek izašla prva verzija modela Dall-E tvrtke OpenAI, alata za dubinsko učenje koji digitalne slike kreira temeljem tekstualnih uputa – primjerice, sliku ružičaste kokoši koja sjedi na kauču kao odgovor na takav zahtjev – i Schuhmann je dobio inspiraciju, ali je istovremeno bio zabrinut da će to potaknuti velike tehnološke kompanije na još širu zaštitu podataka. "Odmah sam shvatio da će to, ako se centralizira na jednu, dvije ili tri kompanije, imati vrlo loše posljedice po društvo", kazao je Schuhmann.

Vašu prijavu nije moguće sačuvati. Molimo vas, pokušajte ponovo.

Uspešno ste se prijavili.

Kao odgovor, on i ostali članovi sa servera odlučili su kreirati bazu podataka s otvorenim pristupom kako bi se stvorila podloga za vježbanje alatima koji pretvaraju slike u tekst. Takav proces traje mjesecima i sličan je tome da se nekoga podučava novom stranom jeziku korištenjem milijuna slika. Grupa je iskoristila sirovi HTML kôd koji je prikupila kalifornijska neprofitna organizacija Common Crawl kako bi locirali slike diljem interneta i povezali ih s opisnim tekstom. Prilikom toga se ne koristi nikakva ručna ili ljudska obrada.

Čudak iz hedge fonda

U roku od nekoliko tjedana, Schuhmann i njegovi kolege imali su oko tri milijuna parova slike i teksta. Nakon tri mjeseca otvorili su pristup bazi podataka s 400 milijuna parova. Ta je brojka dosad premašila pet milijardi, čime je LAION postao najveća besplatna baza podataka slika i njihovih opisa.

Uz rast popularnosti LAION-a, tim je nastavio raditi besplatno, s time da su 2021. dobili jednokratnu donaciju iz tvrtke za strojno učenje Hugging Face. Tada se jednog dana na Discord serveru pojavio menadžer hedge fonda.

Emad Mostaque se obavezao da će, bez ikakvih uvjeta, pokrivati troškove rada računala. Htio je lansirati vlastiti biznis generativnog UI-ja s otvorenim pristupom i želio je pristup LAION-u kako bi na njemu vježbao svoj proizvod. Tim je prvotno na ponudu reagirao s prezirom, smatrajući ga čudakom.

"Na početku smo bili vrlo skeptični", kazao je Schuhmann, "ali nakon četiri tjedna ili tako nešto, dobili smo pristup grafičkim procesorima, što bi inače stajalo između devet i deset tisuća dolara".

Kad je Mostaque 2022. godine lansirao tvrtku Stability AI, iskoristio je LAION bazu za Stable Diffusion, njen ključni UI generator slika, i zaposlio dvojicu istraživača iz grupe. Godinu dana nakon toga, kompanija se nada vlastitoj valuaciji od četiri milijarde dolara, velikim dijelom zahvaljujući podacima koje je omogućio LAION. Što se njega samog tiče, Schuhmann od LAION-a nije zaradio ništa i kaže da ga zarada ne interesira. "Ja sam još uvijek srednjoškolski učitelj. Odbio sam ponude za posao iz raznih kompanija jer sam želio da ovo ostane neovisno", kazao je.

Mnogo slika i linkova u bazama podataka poput LAION-a bili su, ponekad i desetljećima, slobodno dostupni na internetu. Bio je potreban procvat umjetne inteligencije kako bi se otkrila njihova stvarna vrijednost, jer što je veća i raznolikija baza podataka i što je viša kvaliteta slika u njoj, to će jasnije i preciznije biti slike koje umjetna inteligencija generira.

Vašu prijavu nije moguće sačuvati. Molimo vas, pokušajte ponovo.

Uspešno ste se prijavili.

Ta je spoznaja zauzvrat podigla brojna pravna i etička pitanja oko toga bi li se slobodno raspoloživi materijali uopće smjeli koristiti za punjenje baza podataka – i ako je tako, bi li stvaratelje trebalo platiti.

Kako bi izgradili LAION, osnivači su povukli slikovne podatke kompanija poput Pinteresta, Shopifyja i Amazon Web Servicesa – koji nisu komentirali krši li LAION korištenjem njihovih sadržaja uvjete upotrebe njihovih usluga – kao i sličice s Youtubea, slike s platformi koje se koriste za prikaze stvaralačkih portfelja radova poput DeviantArta i EyeEma, fotografije s državnih internetskih stranica, uključujući američko ministarstvo obrane, i sadržaje s medija, poput The Daily Maila i The Suna.

Ako upitate Schuhmanna, on kaže da se može koristiti sve što je besplatno dostupno na internetu. No trenutno u Europskoj uniji ne postoji regulativa oko umjetne inteligencije, a najavljeni zakon o umjetnoj inteligenciji čiji će se sadržaj finalizirati početkom ljeta neće ulaziti u to smiju li se podaci zaštićeni autorskim pravima koristiti u velikim bazama podataka. Umjesto toga, pisci zakona razmatraju trebaju li ubaciti pravila o tome da kompanije koje stoje iza UI alata moraju otkriti koje su podatke za vježbanje njihovi proizvodi koristili i time stvarateljima tih podataka dati mogućnost da reagiraju.

Osnovna ideja iza tog prijedloga, rekao je za Bloomberg zastupnik u Europskom parlamentu Dragoș Tudorache, jednostavna je: "Kao razvojna kompanija generativne umjetne inteligencije, imate obavezu dokumentirati i biti transparentni oko podataka zaštićenih autorskim pravima koje ste koristili u vježbanju svojih algoritama."

Takva regulativa ne bi bila problem za Stability AI, ali bi mogla biti problem za druge generatore slika iz teksta. "Nitko ne zna što je Open AI stvarno koristio za vježbanje alata Dall-E 2", kazao je Schuhmann, navodeći primjer kako tehnološke kompanije zaključavaju javne podatke. Regulativa bi poremetila sadašnji status quo u prikupljanju podataka.

"Unutar polja je postao običaj da samo pretpostavite da ne trebate dopuštenje ili ne morate informirati autore ili oni toga čak ne trebaju biti svjesni. Postoji osjećaj prava da što god je na internetu možete slobodno skinuti i staviti u svoju bazu podataka", kazala je Abeba Birhane, viša znanstvenica tvrtke Trustworthy AI unutar fondacije Mozilla koja je proučavala LAION.

Mali istraživački brod

Mada još nitko nije podigao tužbu izravno protiv LAION-a, projekt je spomenut u dvije tužbe: jednoj koja je podignuta protiv tvrtki Stability i Midjourney zbog korištenja materijala zaštićenih autorskim pravima prilikom vježbanja njihovih modela, i drugoj koju je Getty Images pokrenuo protiv Stabilityja, u kojoj se tvrdi da je LAION obuhvatio 12 milijuna njihovih fotografija i da su se koristile prilikom vježbanja Stable Diffusiona.

Kako je LAION otvorena baza, nije moguće znati koliko i koje su druge kompanije koristile bazu. Google je dao do znanja da su koristili LAION kako bi se vježbali njihovi alati Imagen i Parti AI za pretvaranje teksta u slike. Schuhmann vjeruje da su i druge velike kompanije potiho radile isto, ali to nisu dosad priznale.

Sjedeći u svojoj dnevnoj sobi u trenutku dok njegov sin igra Minecraft, Schuhmann je LAION usporedio s "malim istraživačkim brodom" na vrhu "visokog tsunamija informatičke tehnologije" koji uzima uzorke iz onoga što je ispod njega kako bi to pokazao svijetu.

"Radi se o maloj količini onoga što je javno dostupno na internetu", opisao je bazu podataka LAION. "Vrlo je to lako prikupiti jer smo čak i mi, s proračunom od možda deset tisuća donatorskih dolara, to uspjeli napraviti", dodao je.

No ono što je javno dostupno nije uvijek ono što javnost želi – ili smije vidjeti. Uz slike mačaka i vatrogasnih vozila, LAION sadrži i milijune pornografskih slika, prikaza nasilja, nage djece, rasističkih slika, simbola mržnje, zaštićenih umjetničkih radova i slika prikupljenih s internetskih stranica privatnih kompanija. Schuhmann je rekao da ne zna za primjere bilo kakvih slika nage djece među podacima LAION-a, ali priznaje da nije dubinski provjeravao podatke. Ako ga se obavijesti o takvom sadržaju, kazao je, odmah bi uklonio linkove na nj.

Schuhmann se posavjetovao s pravnicima i koristio automatski alat kako bi filtrirao nelegalne sadržaje prije nego što je podigao bazu, ali njega manje interesira čišćenje sadržaja LAION-a od učenja na njemu. "Iz podataka koje smo otvorili, mogli smo filtrirati nasilje", kazao je, "ali smo odlučili to ne napraviti je će ubrzati razvoj softvera za detekciju nasilja". LAION omogućava podnošenje zahtjeva za uklanjanje fotografija, ali sadržaj baze se već preuzeo tisućama puta.

Nasilni sadržaji

Nasilni sadržaj iz LAION-a se izgleda koristio u Stable Diffusionu, gdje je usprkos nedavno postroženim filterima, vrlo lako stvoriti lažne slike odrubljivanja ljudskih glava u tzv. Islamskoj državi ili holokausta. Dio stručnjaka vjeruje da bi takav sadržaj mogao čak stvoriti predrasude u samom generatoru UI-ja: alati poput Dall-E 2 i Stable Diffusiona već su bili metom kritika zbog reproduciranja rasnih stereotipa čak i kad tekstualna uputa za stvaranje slike ne navodi podatak o rasi subjekta.

Takve predrasude bile su razlog zašto je Google odlučio ne lansirati Imagen, koji je vježbao na LAION-u.

Vašu prijavu nije moguće sačuvati. Molimo vas, pokušajte ponovo.

Uspešno ste se prijavili.

Kad smo ih zamolili za komentar, iz tvrtke Stability AI rekli su da je Stable Diffusion vježbao na probranom dijelu podataka LAION-ove baze. Kompanija je htjela "modelu dati puno raznolikiju i širu osnovu nego što je to imao originalni SD", napisali su u poruci i dodali da su pokušali ukloniti "sadržaj za odrasle koristeći LAION-ov filter".

Čak i zagovornici otvorenih modela UI-ja upozoravaju na posljedice vježbanja UI-ja na nefiltriranim bazama podataka. Yacine Jernite, koji se nalazi na čelu tima za strojno učenje i društvo tvrtke Hugging Face, smatra da će generativni alati UI-ja bazirani na ukaljanim podacima odražavati njihove predrasude. "Model je izravni odraz onoga na čemu je vježbao", kazao je.

Uvođenje zaštite tek nakon što je projekt pušten u upotrebu nije dovoljno, dodao je Jernite, jer će korisnici uvijek pronaći način kako zaobići sigurnosne mjere. "To je ono što se desi kad uzmete model napravljen kako bi simulirao što ljudi općenito rade na internetu i onda kažete 'dobro, ali nemoj to raditi'. Ljudi će uvijek naći načina kako da ga natjeraju da to radi", kazao je.

Gil Elbaz, osnivač neprofitne organizacije za podatke Common Crawl, sumnja u to "postoji li ravna linija koju možete povući od baza za vježbanje prema onome što se na kraju proizvede" i umjesto toga je proces usporedio s umjetnikom koji hoda po muzejima tražeći inspiraciju, ali mu nije dozvoljeno napraviti replike umjetnina. Umjesto toga, kazao je, "važno je da društvo odluči koji su slučajevi korištenja legalni, a koji nisu".

Najgori scenarij

To neće biti ostavljeno samo društvu. Kako regulatori u Europi pišu regulativu koja će upravljati korištenjem umjetne inteligencije, suočavaju se s činjenicom da su se podaci koji se sada koriste za aktualni procvat UI-ja godinama stvarali u pravno sivoj zoni koja tek sad dolazi na ozbiljniju provjeru. "Bez godina prikupljanja podataka, UI na ovoj razini kompleksnosti ne bi bio moguć", kazao je Tudorache, zastupnik u Europskom parlamentu.

No Schuhmann ne drži da bi trebalo nadzirati baze podataka. U njegovim očima, najgori mogući scenarij za UI je onaj u kojem velike tehnološke kompanije mogu istisnuti male programere i tvrtke nudeći njihove alate regulatornom okviru. "Ako pokušamo usporiti razvoj i preregulirati ga", upozorio je, "postoji velika opasnost da će si na kraju samo nekoliko velikih korporativnih igrača moći priuštiti ispunjavanje svih formalnih uvjeta", zaključio je.

UI umjetna inteligencija IKT LAION

Hrvatska

Ivana Jakir-Bajo ponovno izabrana za viceguvernerku HNB-a, ostali kandidati bez podrške

Hrvatski sabor ponovno je imenovao Ivanu Jakir-Bajo za viceguvernerku HNB-a, dok su preostala dva viceguvernerska mjesta zasad ostala nepopunjena jer ostali kandidati nisu dobili podršku.

prije 17 minuta

Autor: Bloomberg Adria

Burze

Wall Street titani ostvarili goleme rezultate u trgovanju dionicama. Vrijeme je za zabrinutost

Iako su vodeće američke investicijske banke ostvarile povijesne prihode od trgovanja dionicama, visoka razina financijske poluge na tržištu budi opravdanu opreznost unatoč općem valu optimizma.

prije 1 sat

Hrvatska

Hrvatski LNG terminal kreće u proširenje koje bi moglo pomoći Ukrajini

Hrvatska početkom 2027. godine planira proširiti kapacitet LNG terminala na Krku za gotovo 30 posto, čime bi se osigurali dodatni energetski izvori za opskrbu istočne Europe i Ukrajine.

prije 2 sata

Biznis

Rivalstvo koje je promijenilo nogomet: kakvu ostavštinu ostavljaju Messi i Ronaldo?

Lionel Messi i Cristiano Ronaldo u posljednjim su desetljećima stvorili najveće nogometno rivalstvo suvremenog doba.

prije 4 sata

Autor: Mihael Šmirmaul

Sve vijesti iz rubrike Tehnologija

Svijet na raskrižju - hoće li nas AI odvesti u prosperitet ili digitalni darvinizam?

Novo istraživanje BCG-a donosi četiri radikalno različita scenarija globalne budućnosti do 2050. godine, u kojima regulacija umjetne inteligencije drži ključ utrostručenja svjetske ekonomije, ali i opstanka Adria regije.

19.05.2026

Autor: Ivan Vrdoljak

Između inovacije i rizika: što kada zaposlenici koriste neodobreni AI?

Cyber Pulse izvješće: Gotovo trećina zaposlenika za svakodnevni rad koristi neodobrene AI alate.

08.05.2026

Autor: Nataša Belančić

Inovacije

Misija Artemis II: Hoće li povratak čovječanstva na Mjesec vrijedan 90 milijardi dolara biti uspješan?

Čovječanstvo se danas u sklopu NASA-ine misije koja će obići Mjesec nakon više od pola stoljeća sprema vratiti u duboki svemir.

01.04.2026

Autor: Aleš Kovačič

Inovacije

Revolucija ili iluzija? EU obećava osnivanje tvrtke u 48 sati za niti 100 eura

Uredba EU Inc. bi trebala omogućiti osnivanje tvrtke online u bilo kojoj članici EU.

23.03.2026

Autor: Nataša Belančić

Tvrtke u Hrvatskoj tek na početku AI puta - regulativa usporava ključne investicije

Samo 12 posto predsjednika uprava na globalnoj razini vidi konkretne učinke od uvođenja AI-ja.

11.02.2026

Autor: Nataša Belančić

Tehnologija

Inovacije

ECB odabrao partnere za testiranje digitalnog eura, u projektu sudjeluje i Hrvatska

Europska središnja banka odabrala je prve partnere, među kojima su Revolut i UniCredit, za testiranje beta verzije digitalnog eura, a u tom velikom pilot-projektu sudjelovat će i Hrvatska narodna banka.

14.07.2026

AI ruši poslovni model industrije memorijskih čipova

Procvat umjetne inteligencije stavlja proizvođače memorijskih čipova pred novi izazov koji donosi veći tehnološki rizik, ali i potpunu promjenu načina na koji poslovanje u ovoj industriji funkcionira.

14.07.2026

Big Tech udvostručio dug na 350 milijardi dolara u jeku bjesomučne potrošnje na AI

Najveći američki tehnološki divovi udvostručili su svoj dug u posljednjih pet godina kako bi financirali masovnu izgradnju infrastrukture za umjetnu inteligenciju, što među investitorima otvara sve više pitanja o dugoročnoj isplativosti i rizicima tako agresivne potrošnje.

13.07.2026

JPMorgan razvio AI agente koji su u povijesnim testovima nadmašili portfelj 60/40

JPMorgan je uspješno testirao napredne sustave umjetne inteligencije za samostalno upravljanje investicijama, no rezultati ovog eksperimenta istovremeno su otvorili važna pitanja o budućnosti i stabilnosti globalnih financijskih tržišta.

13.07.2026

Kako je nekadašnji gubitaš SK Hynix postao kompanija vrijedna bilijun dolara

Južnokorejski SK Hynix ostvario je povijesni tržišni uspon zahvaljujući ključnoj ulozi u opskrbi industrije umjetne inteligencije naprednim memorijskim čipovima, što je tvrtku dovelo do statusa tehnološkog diva i širenja na globalno tržište kapitala.

11.07.2026

sve vijesti iz rubrike Tehnologija

Registrirajte se da biste nastavili sa čitanjem. Registrirajte se

Nastavite čitati odabirom jedne od opcija u nastavku.

BESPLATAN RAČUN

Pročitajte ovaj i još 3 članka (ne odnosi se na PREMIUM članke)

Besplatni newsletter

Registracija

Pretplata

Neograničen pristup premium sadržaju na svih 5 portala

Neograničen pristup TV i video sadržaju

Ekskluzivne priče i analize iz Businessweek Adria

Istraži ponude

Aktivirajte još 1 besplatni članak i nastavite čitati.

Otključajte sada

Iskoristili ste 3 besplatna članka.

Cijenimo vaš interes za pouzdane informacije. Aktivirajte još 1 članak besplatno i nastavite čitati.

Otključajte sada

Iskoristite ekskluzivnu ponudu danas!

Osigurajte si neograničen pristup već odmah

PREPORUČAMO

Godišnja Pretplata

€27,49 godišnje Otkažite bilo kada.

Mjesečna Pretplata

€4.99 mjesečno Otkažite bilo kada.

Nastaviti

Iskoristite ekskluzivnu ponudu danas!

Istraži ponude

Sadržaj koji ide dublje od vijesti

Pretplatite se i otključajte pouzdane analize, kontekst i regionalne perspektive.

Otključaj sadržaj

Podijeli vijest

Budućnost UI-ja oslanja se na besplatnu bazu podataka jednog učitelja

Podijeli vijest

Čitaj više

Čudak iz hedge fonda

Mali istraživački brod

Nasilni sadržaji

Najgori scenarij

Registriraj se besplatno i čitaj sadržaj koji čini razliku!

Nastavite čitati odabirom jedne od opcija u nastavku.

BESPLATAN RAČUN

Pretplata

Cijenimo vaš interes za pouzdane informacije. Aktivirajte još 1 članak besplatno i nastavite čitati.

Sadržaj koji ide dublje od vijesti

Prijavi se

Odaberite drugu opciju za prijavu

Dobrodošli na

Bloomberg Adria

Pretplata

Neophodno je da popunite lične podatke radi dostave Bloomberg Businessweek-a

Registracija

Odaberite drugu opciju za prijavu

Promjena lozinke

Premašen je maksimalan broj uređaja. Ako ste vlasnik računa, kliknite na "Pošalji prijavu e-poštom" kako biste primili e-poštu s linkom za prijavu. Slijedite link i moći ćete upravljati uređajima povezanim s vašim računom.

E-mail s poveznicom za prijavu je poslan na vašu adresu.

Blokirali smo zahtjeve s ovog uređaja zbog neobične aktivnosti. Pokušajte ponovo kasnije.

Poveznica za aktivaciju računa je poslana na vašu e-mail adresu!

Račun nije aktiviran!

Poveznica za poništavanje lozinke poslana je na vašu e-mail adresu!

Pobrinimo se za postavke.

Posljednji korak!

Pokloni članak