
Deceniul Agenților AI: Karpathy despre calendarul AGI
Explorează perspectiva nuanțată a lui Andrej Karpathy asupra calendarului AGI, agenților AI și de ce următorul deceniu va fi critic pentru dezvoltarea inteligen...

Descoperă cum Thinking Machines Lab, condus de Mira Murati, rezolvă problema nedeterminismului în modelele lingvistice mari, permițând obținerea unor rezultate AI reproductibile și transformând modul în care avem încredere și audităm sistemele AI.
Criza de reproductibilitate din inteligența artificială este de mult timp o piatră de poticnire pentru cercetători, ingineri și companiile care se bazează pe modele lingvistice mari. Când adresezi aceeași întrebare de două ori către ChatGPT, rar obții răspunsuri identice—un fenomen care subminează rigoarea științifică și fiabilitatea practică. Recent, Mira Murati, fosta CTO OpenAI, a lansat Thinking Machines Lab cu o misiune îndrăzneață: să rezolve una dintre cele mai fundamentale probleme ale AI-ului—nedeterminismul în inferența LLM-urilor. Prin intermediul blogului lor de cercetare, Connectionism, au publicat lucrări revoluționare despre învingerea nedeterminismului, dezvăluind nu doar cauzele de bază ale acestei inconsistențe, ci și soluții practice care ar putea transforma modul în care construim și avem încredere în sistemele AI. Acest articol explică concluziile lor, mecanismele tehnice din spatele variabilității LLM-urilor și explorează implicațiile pentru viitorul fiabilității AI.
Nedeterminismul în modelele lingvistice mari este un concept aparent simplu, dar cu implicații profunde. Când oferi exact același prompt unui LLM de mai multe ori, primești răspunsuri diferite—uneori subtil diferite, alteori dramatic diferite. Această inconsistență încalcă unul dintre principiile fundamentale ale metodologiei științifice: reproductibilitatea. Reproductibilitatea este considerată piatra de temelie a progresului științific, însă rămâne remarcabil de dificil de atins cu modelele lingvistice moderne. Problema nu este doar un inconvenient; ea reprezintă o vulnerabilitate critică în implementarea sistemelor AI în industrii unde consistența și fiabilitatea sunt esențiale. Fie că folosești un LLM pentru suport în diagnostic medical, analiză de documente juridice, prognoze financiare sau cercetare științifică, incapacitatea de a reproduce rezultatele creează un lanț de probleme care afectează încrederea, validarea și conformitatea cu reglementările.
Manifestarea nedeterminismului este vizibilă și frustrantă. Rulează același prompt de zece ori printr-un LLM și poți obține zece răspunsuri diferite. Chiar și atunci când încerci să elimini aleatoriul setând parametrul de temperatură la zero—care teoretic ar trebui să producă rezultate deterministe—modelul tot generează rezultate diferite. Această persistență a variabilității chiar și în condiții teoretic deterministe i-a nedumerit pe cercetători ani la rând. Înțelepciunea convențională sugera că așa funcționează pur și simplu modelele lingvistice, o caracteristică inerentă a tehnologiei. Totuși, cercetarea Thinking Machines arată că această presupunere era incompletă. Cauzele reale ale nedeterminismului sunt mult mai specifice și, important, pot fi adresate prin intervenții tehnice țintite.
Importanța învingerii nedeterminismului depășește sfera interesului academic. În termeni practici, reproductibilitatea este esențială pentru construirea unor sisteme AI în care organizațiile pot avea încredere și pe care le pot implementa cu siguranță în producție. Când un LLM produce rezultate inconsistene, devine aproape imposibil să depanezi problemele eficient. Dacă un model generează un răspuns incorect sau nociv, inginerii nu pot reproduce problema pentru a înțelege ce nu a mers bine. Astfel, identificarea cauzei—model, prompt, date sau alt factor—devine un joc de noroc, nu un proces sistematic.
Dincolo de depanare, reproductibilitatea este crucială pentru auditare și verificare. Organismele de reglementare, responsabilii de conformitate și echipele de securitate trebuie să înțeleagă cum iau decizii sistemele AI. Când rezultatele nu sunt deterministe, auditarea devine un coșmar. Nu poți urmări cu certitudine un anumit rezultat până la cauzele sale. Acest lucru este deosebit de problematic în industrii reglementate precum sănătatea, finanțele sau dreptul, unde explicabilitatea și auditabilitatea sunt cerințe legale. De asemenea, testarea comparativă devine nesigură când intrările și ieșirile nu sunt deterministe. Dacă compari două modele sau două versiuni ale aceluiași model, ai nevoie de rezultate stabile, reproductibile pentru comparații relevante. Nedeterminismul introduce zgomot în benchmark-uri, făcând dificilă distincția între diferențele reale de performanță și artefactele aleatorii.
Din perspectiva încrederii utilizatorilor, reproductibilitatea este la fel de importantă. Utilizatorii vor să știe că, atunci când întreabă un sistem AI, vor primi un răspuns consistent și fiabil. Dacă aceeași întrebare produce răspunsuri radical diferite, încrederea în sistem scade. Acest aspect contează cu atât mai mult în aplicațiile unde AI-ul este folosit pentru suport decizional sau extragere de informații. În plus, reproductibilitatea permite o mai bună optimizare și inginerie a prompturilor. Dacă nu poți reproduce rezultatele, nu poți îmbunătăți sistematic prompturile sau evalua care variante funcționează mai bine.
Ipoteza convențională pentru nedeterminismul LLM-urilor s-a concentrat pe doi factori tehnici: neasociativitatea aritmeticii cu virgulă mobilă și execuția concurentă pe GPU-uri. Înțelegerea acestor concepte necesită o scurtă incursiune în fundamentele matematice și computaționale ale rețelelor neuronale. Numerele cu virgulă mobilă sunt standardul prin care calculatoarele reprezintă zecimalele—valori precum 5,23 sau 3,14159. Totuși, calculatoarele nu pot stoca precizie infinită. La un moment dat, trebuie să rotunjești numărul pentru a-l încadra în memoria disponibilă. Această rotunjire introduce erori minuscule, iar când efectuezi milioane sau miliarde de operații matematice, aceste erori se pot acumula și amplifica.
Neasociativitatea este deosebit de importantă. În matematică pură, adunarea este asociativă: (a + b) + c este egal cu a + (b + c). Însă, în aritmetica cu virgulă mobilă, acest lucru nu este întotdeauna adevărat, din cauza erorilor de rotunjire. În funcție de ordinea în care aduni numerele, poți obține rezultate ușor diferite. Poate părea nesemnificativ, dar în contextul calculelor rețelelor neuronale cu miliarde de parametri și operații, aceste mici diferențe pot fi propagate și, în final, pot influența alegerea următorului token generat de model.
Al doilea factor este execuția concurentă pe GPU-uri. GPU-urile sunt concepute să efectueze multe calcule simultan. Când le dai o operație matematică, nu o execută secvențial, ci împart munca între mii de nuclee care rulează în paralel. Problema este că nu poți ști întotdeauna care nucleu va termina primul. Această ordine nedeterministă a finalizării poate afecta rezultatul final, mai ales când operațiile depind unele de altele sau când rezultatele sunt agregate. Unele hardware specializat, ca cipurile unor companii precum Groq, abordează această problemă folosind arhitecturi complet simetrice unde știi exact cât durează fiecare operație. Majoritatea GPU-urilor obișnuite nu au această proprietate.
Deși ipotezele privind aritmetica cu virgulă mobilă și execuția concurentă conțin elemente adevărate, cercetarea Thinking Machines arată că ele nu spun întreaga poveste. Vinovatul principal pentru nedeterminismul din LLM-uri este variabilitatea dimensiunii batch-ului. Pentru a înțelege, imaginează-ți un sistem de carpool. Când trimiți un prompt către un LLM, cererea ta nu este procesată izolat. În schimb, este grupată cu alte cereri într-un batch—un fel de carpool al solicitărilor. Când sistemul e aglomerat, batch-ul e mare, cu multe cereri. Când e liniște, batch-ul e mic. Această dimensiune a batch-ului nu este fixă; se schimbă dinamic în funcție de încărcarea sistemului.
Ideea critică este că dimensiunea batch-ului influențează ordinea în care se efectuează operațiile matematice interne ale rețelei neuronale. Batch-uri diferite pot determina aceeași succesiune de operații să fie executată în ordine diferită. Deși operațiile matematice sunt identice, ordinea contează din cauza neasociativității cu virgulă mobilă. O ordine ușor diferită a operațiilor duce la rezultate intermediare ușor diferite, care se propagă în rețea și pot schimba alegerea următorului token produs de model. Deoarece LLM-urile prezic un token pe rând, iar fiecare predicție depinde de toate cele anterioare, o singură diferență apărută devreme poate conduce, la final, la rezultate complet diferite.
Este o descoperire subtilă, dar profundă. Asta înseamnă că nedeterminismul nu este inerent arhitecturii modelului sau naturii fundamentale a rețelelor neuronale, ci este o consecință a modului în care este implementat batching-ul la inferență. Dimensiunea batch-ului este o variabilă ce se schimbă în funcție de condițiile sistemului, iar această variabilitate se traduce direct în variabilitate la output. Descoperirea este importantă pentru că sugerează că problema poate fi rezolvată printr-o inginerie atentă a pipeline-ului de inferență.
Soluția Thinking Machines pentru nedeterminism implică trei remedii tehnice coordonate, denumite împreună batch invariant kernels (nuclee invariante la batch). Prima modificare asigură ca, indiferent de dimensiunea batch-ului, operațiile computaționale sunt ponderate și normalizate consistent. Folosind o analogie cu un restaurant, imaginează-ți că faci porții de mâncare. Trebuie să te asiguri că fiecare porție are aceeași greutate, indiferent dacă bucătăria e plină sau goală. Asta înseamnă implementarea unor nuclee computaționale care mențin normalizarea și ponderarea identică, indiferent de câte cereri sunt în batch. Compromisul este o posibilă scădere de viteză—sistemul poate procesa cererile puțin mai lent pentru a menține consistența. Totuși, câștigul în consistență este mult mai valoros decât pierderea marginală de viteză.
A doua modificare presupune ca pasul de mixare să fie identic pentru orice dimensiune a batch-ului. În calculele rețelelor neuronale există operații de mixare în care diverse componente sunt combinate. Aceste operații trebuie efectuate exact la fel, indiferent de batch. Este necesară o implementare atentă a nucleelor computaționale pentru a garanta că ordinea și metoda de mixare rămân neschimbate. Și aici, pot apărea costuri computaționale suplimentare, dar beneficiul ieșirilor deterministe justifică efortul.
A treia modificare vizează mecanismul de atenție, esențial pentru modelele lingvistice de tip transformer. Mecanismul de atenție permite modelului să revină asupra a ceea ce a generat anterior și să acorde ponderi diferite diverselor părți din text. Când textul este procesat pe bucăți de dimensiuni diferite, ordinea operațiilor din mecanismul de atenție se poate schimba. Soluția este să folosești aceeași dimensiune de bucată de fiecare dată, asigurând astfel că mecanismul de atenție procesează informația într-o ordine consistentă. Această consistență este crucială pentru output-uri deterministe.
Testul suprem al oricărei afirmații științifice este validarea empirică. Thinking Machines și-a testat soluția folosind Qwen 2.5B, un model lingvistic de mari dimensiuni, într-un experiment riguros. Au generat 1.000 de completări la temperatură zero (setarea cu cel mai mic grad de aleatoriu) folosind același prompt: „Spune-mi despre Richard Feynman.” Fiecare completare a avut 1.000 de tokeni. Înainte de implementarea nucleelor invariante la batch, rezultatele au fost dezamăgitoare, dar revelatoare: din 1.000 de completări, au rezultat 80 de răspunsuri unice, cel mai frecvent apărând doar de 78 de ori. Această bază a demonstrat gravitatea problemei—chiar și cu temperatura zero, modelul a produs 80 de output-uri diferite.
După activarea nucleelor invariante la batch, rezultatele au fost spectaculoase: toate cele 1.000 de completări au fost identice. S-a obținut determinism perfect. Nu a fost o îmbunătățire marginală sau o soluție parțială, ci eliminarea completă a nedeterminismului. Fiecare rulare a produs exact același rezultat. Această validare este crucială, pentru că dovedește că problema poate fi cu adevărat rezolvată și că soluția propusă funcționează în practică. Experimentul a fost efectuat pe un model lingvistic real, de producție, nu pe o versiune simplificată, ceea ce face rezultatele și mai relevante.
Obținerea de output-uri deterministe de la LLM-uri are implicații majore asupra modului în care construim, implementăm și avem încredere în sistemele AI. În primul rând, determinismul permite depanare fiabilă. Când un model produce un output incorect sau neașteptat, inginerii pot reproduce constant problema. Acest lucru transformă depanarea dintr-un joc frustrant de noroc într-un proces sistematic. Inginerii pot urmări exact calea de calcul care a dus la problema respectivă, identifica eroarea și implementa remedii cu încrederea că au rezolvat efectiv problema.
În al doilea rând, determinismul îmbunătățește dramatic auditabilitatea. Organismele de reglementare, ofițerii de conformitate și echipele de securitate pot audita sistemele AI cu mult mai multă încredere. Când poți reproduce constant output-urile, poți identifica exact factorii care au influențat decizia. Acest lucru este deosebit de important în industriile reglementate precum sănătatea, finanțele sau dreptul, unde explicabilitatea este cerință legală. Auditorii pot verifica dacă modelul se comportă conform așteptărilor și nu produce output-uri părtinitoare sau dăunătoare din cauza aleatoriului nedeterminist.
În al treilea rând, testarea comparativă devine mult mai fiabilă. Când compari două modele sau două versiuni ale aceluiași model, cercetătorii pot avea încredere că diferențele de performanță sunt reale, nu artefacte ale aleatoriului. Astfel, se pot efectua evaluări științifice mai riguroase și se pot lua decizii mai informate privind ce modele să fie implementate. În plus, determinismul permite optimizarea și testarea sistematică a prompturilor, cu siguranța că rezultatele sunt reproductibile.
Pentru organizațiile care folosesc FlowHunt pentru automatizarea fluxurilor AI, implicațiile LLM-urilor deterministe sunt semnificative. FlowHunt permite utilizatorilor să construiască fluxuri AI complexe, în mai mulți pași, ce integrează modele lingvistice cu alte instrumente și procese. Când LLM-urile sunt nedeterministe, aceste fluxuri devin nesigure—aceeași intrare poate produce output-uri diferite, ceea ce duce la inconsistențe în rezultatele următoare. Cu LLM-uri deterministe, utilizatorii FlowHunt pot construi fluxuri cu mult mai multă încredere în fiabilitatea și consistența lor.
Capacitățile de automatizare ale FlowHunt devin și mai valoroase când sunt combinate cu LLM-uri deterministe. Utilizatorii pot crea fluxuri care depind de output-uri specifice ale LLM-ului, știind că aceste rezultate vor fi consistente și reproductibile. Acest lucru permite automatizări mai sofisticate, gestionare mai bună a erorilor și integrare mai fiabilă cu alte sisteme. De exemplu, un flux care extrage informații din documente folosind un LLM poate avea acum certitudinea că același document va genera mereu aceeași informație extrasă. Această consistență este esențială pentru automatizări AI fiabile, de producție.
Deși output-urile deterministe sunt în general dezirabile, există cazuri importante în care nedeterminismul este benefic. Scrierea creativă este cel mai evident exemplu. Dacă folosești un LLM pentru a genera conținut creativ—povești, poezie, texte de marketing—probabil că vrei variabilitate. Vrei ca modelul să genereze output-uri creative diferite de fiecare dată, nu același rezultat repetat. În aceste cazuri, utilizatorii vor dori să dezactiveze modul determinist și să permită modelului să genereze rezultate variate.
De asemenea, în aplicații de brainstorming sau generare de idei, variabilitatea poate fi valoroasă. Dacă folosești un LLM pentru a genera mai multe idei sau perspective asupra unei teme, ai nevoie de output-uri diferite, nu același răspuns repetat. Soluția este ca determinismul să fie opțional—utilizatorii să îl activeze când au nevoie de reproductibilitate și să îl dezactiveze când vor variabilitate. Această flexibilitate este importantă pentru a nu restricționa inutil cazurile de utilizare unde variabilitatea e benefică.
Munca Thinking Machines privind învingerea nedeterminismului reprezintă un pas important către sisteme AI mai fiabile, de încredere și pregătite pentru producție. Această cercetare abordează o problemă fundamentală care a afectat industria AI încă de la apariția LLM-urilor. Prin rezolvarea acestei probleme, Thinking Machines permite o nouă generație de aplicații AI ce pot fi implementate cu mai multă încredere în industriile reglementate și în aplicații critice.
Implicațiile depășesc sfera LLM-urilor. Tehnicile dezvoltate pentru obținerea inferenței deterministe la LLM-uri pot fi aplicate și altor tipuri de rețele neuronale și sisteme AI. Principiile nucleelor invariante la batch și ale ordonării consistente a calculului sunt generale și pot spori fiabilitatea sistemelor AI de orice fel. Pe măsură ce AI-ul este tot mai integrat în infrastructura critică și procesele decizionale, importanța reproductibilității și determinismului va crește.
Mai mult, această lucrare evidențiază importanța cercetării fundamentale în AI. Deși o mare parte din industrie se concentrează pe scalarea modelelor și adăugarea de noi capabilități, cercetarea de acest tip rezolvă problemele de bază care permit implementarea și încrederea în sisteme AI mai bune. Faptul că un fost CTO OpenAI își dedică eforturile rezolvării acestei probleme subliniază importanța subiectului și sugerează că industria AI începe să recunoască faptul că fiabilitatea și reproductibilitatea sunt la fel de importante ca și performanța brută.
Thinking Machines Lab, condus de Mira Murati, a identificat și rezolvat o problemă critică în inferența modelelor lingvistice mari: nedeterminismul. Prin recunoașterea faptului că variabilitatea dimensiunii batch-ului, nu doar aritmetica cu virgulă mobilă sau concurența GPU, este principala cauză a output-urilor nedeterministe și prin dezvoltarea nucleelor invariante la batch pentru a aborda această problemă, au demonstrat că inferența LLM deterministă este posibilă. Validarea experimentală cu Qwen 2.5B a arătat că determinismul perfect este realizabil—toate cele 1.000 de completări de test au fost identice după implementarea soluției. Această descoperire are implicații profunde pentru încrederea în AI, depanare, auditare și implementarea sistemelor AI în industrii reglementate. Pe măsură ce organizațiile se bazează tot mai mult pe LLM-uri pentru aplicații critice, capacitatea de a produce output-uri reproductibile și deterministe va deveni o cerință fundamentală pentru sistemele AI de producție.
Nedeterminismul în LLM-uri se referă la fenomenul în care același prompt de intrare produce rezultate diferite de fiecare dată când este rulat. Acest lucru apare din cauza preciziei aritmeticii cu virgulă mobilă, a execuției concurente pe GPU și a variațiilor dimensiunii batch-ului, făcând dificilă reproducerea consecventă a rezultatelor.
Învingerea nedeterminismului este crucială pentru încredere, depanare, auditare și verificarea sistemelor AI. Când rezultatele sunt reproductibile, testele sunt mai fiabile, utilizatorii pot avea mai multă încredere, iar înțelegerea motivului pentru care un model produce anumite rezultate devine mai ușoară.
Nucleele invariante la batch reprezintă o soluție tehnică ce asigură că operațiile LLM-urilor produc rezultate identice indiferent de dimensiunea batch-ului. Prin menținerea unui ordin și a unor pași computaționali consistenți, această tehnologie elimină variabilitatea cauzată de dimensiuni diferite ale batch-ului în timpul inferenței.
Soluția Thinking Machines implică trei remedii cheie: menținerea unei ponderări consistente a batch-ului indiferent de încărcarea sistemului, păstrarea identică a pasului de mixare pentru toate batch-urile și procesarea mecanismului de atenție în aceeași ordine. Aceste schimbări asigură rezultate deterministe, menținând în același timp performanțe rezonabile.
LLM-urile deterministe sunt valoroase în cercetarea științifică, conformitatea cu reglementările, depanare, auditare, testare comparativă și orice aplicație unde reproductibilitatea este esențială. Totuși, pot fi mai puțin dorite în aplicațiile creative, unde variabilitatea este benefică.
Arshia este Inginer de Fluxuri AI la FlowHunt. Cu o pregătire în informatică și o pasiune pentru inteligența artificială, el este specializat în crearea de fluxuri eficiente care integrează instrumente AI în sarcinile de zi cu zi, sporind productivitatea și creativitatea.
Construiește fluxuri AI fiabile și reproductibile cu platforma inteligentă de automatizare FlowHunt. Asigură consistența operațiunilor AI de la cercetare la implementare.
Explorează perspectiva nuanțată a lui Andrej Karpathy asupra calendarului AGI, agenților AI și de ce următorul deceniu va fi critic pentru dezvoltarea inteligen...
Explorați îngrijorările cofondatorului Anthropic, Jack Clark, despre siguranța AI, conștientizarea situațională în modelele lingvistice mari și peisajul de regl...
Explorează inovațiile revoluționare din domeniul inteligenței artificiale din octombrie 2024, inclusiv generarea video cu Sora 2 de la OpenAI, progresele în pro...
Consimțământ Cookie
Folosim cookie-uri pentru a vă îmbunătăți experiența de navigare și a analiza traficul nostru. See our privacy policy.


