Microsoft je predstavio BitNet b1.58, novi open-source veliki jezični model (LLM), optimiziran za učinkovitost umjesto za veličinu. U industriji kojom već dugo dominiraju sve veći AI modeli, BitNet najavljuje novu fazu natjecanja: učiniti više s manje. BitNet b1.58 koristi kombinaciju ternarne kvantizacije težina (izražene nulom i dvama jedinicama, pozitivnom i negativnom) i osmobitne kvantizacije aktivacija, što značajno smanjuje računalne zahtjeve modela. Umjesto standardnih 16-bitnih ili 32-bitnih zapisa s pomičnim zarezom, BitNet koristi kompaktnije reprezentacije, omogućujući tako učinkovito izvođenje i na osnovnom potrošačkom hardveru.
"Učenje velikih jezičnih modela s pomoću niskorezolucijskih težina važan je smjer za veću učinkovitost, kako pri učenju tako i pri izvođenju", zapisao je Microsoftov istraživački tim na svojoj stranici na Hugging Faceu. "Naš rad pokazuje da modeli s jednim do dvaju bita mogu postići usporedivu učinkovitost s potpuno preciznim modelima."
S otprilike dvije milijarde parametara, istreniranih na četiri bilijuna tekstualnih jedinica, BitNet b1.58 postiže konkurentne rezultate uz znatno manju potrošnju memorije i energije. Prema Microsoftu, BitNet troši do 96 posto manje energije od tradicionalnih modela iste klase.
Čitaj više

Šefovanje AI agentima - nova moć na radnom mjestu
Pojedinci razvijaju i upravljaju AI alatima te im dodjeljuju zadatke radi povećanja produktivnosti.
28.04.2025

Bivši direktor u Googleu: 'Tvrtke ulaze u AI na pogrešan način i to ih skupo košta'
U intervjuu za Bloomberg Adriju Brett StClair govori o najčešćim greškama koje tvrtke rade s AI-jem.
25.04.2025

Prestanite zahvaljivati ChatGPT-u. Vaša ljubaznost košta ga milijune
Sam Altman istaknuo da pisanje "molim" i "hvala" u ChatGPT kompaniju košta desetke milijuna dolara.
23.04.2025
Izazov vodećim divovima
Microsoftov potez izravno se suprotstavlja trendu među najvećim razvojnim timovima umjetne inteligencije. OpenAI-jev GPT-4, Googleov Gemini 1.5 i Metin Llama 3 nastavljaju se širiti, što zahtijeva sve snažnije podatkovne centre, GPU-ove i visoke operativne troškove. Nasuprot tome, BitNet radi na procesorima sa skromnim memorijskim zahtjevima. Testiranja pokazuju da može raditi na prijenosnom računalu s Appleovim čipom M2 koristeći samo 0,4 gigabajta RAM-a, što je djelić u usporedbi sa zahtjevima uobičajenih modela.
Prateća infrastruktura, nazvana bitnet.cpp, dizajnirana je za maksimalnu optimizaciju performansi procesora. Microsoft navodi da model postiže i do 6,17 puta veću brzinu na standardnim procesorima x86 i smanjuje potrošnju energije u radu za 82 posto u usporedbi s modelima FP16.
Taj fokus na energetsku učinkovitost dolazi u trenutku kada rastu kritike o ekološkom otisku umjetne inteligencije. Primjerice, za treniranje modela GPT-3 potrošeno je više od 1287 megavatsati električne energije, što odgovara godišnjoj potrošnji stotina kućanstava. BitNetov otisak osmišljen je da bude neusporedivo manji.
Nova prilika za tržišta u razvoju
Za tržišta u razvoju BitNet donosi više od tehničke inovacije i predstavlja pomak prema široj dostupnosti umjetne inteligencije. U regijama gdje je pristup vrhunskoj računalnoj infrastrukturi ograničen, mogućnost izvođenja naprednih modela na lokalno dostupnoj opremi može značajno ubrzati razvoj AI rješenja. Budući da je BitNet open-source i objavljen pod licencom MIT-a, programerima i istraživačima nudi potpunu slobodu prilagodbe bez licencnih ograničenja ili visokih troškova.
"Takva dostupnost ključna je za demokratizaciju umjetne inteligencije", izjavio je Linas Beliūnas, stručnjak za umjetnu inteligenciju, koji je na LinkedInu istaknuo izlazak BitNeta. "Za rad s velikim jezičnim modelima više vam ne treba superračunalo."
Širi značaj
BitNet nije bez ograničenja. Njegova lagana arhitektura teže se nosi sa složenim logičkim pitanjima ili kreativnim zadacima, gdje su opsežniji modeli u prednosti. Microsoft priznaje da je BitNet b1.58 primarno istraživački model, namijenjen dokazivanju da je ekstremna kvantizacija moguća, a ne nužno zamjena za sve vrste zadataka. Ipak, strateške implikacije su jasne: s porastom regulacije umjetne inteligencije i sve višim troškovima rada, učinkoviti modeli mogli bi uskoro postati nova norma.