
Ce e nou: GPT 4.1, HubSpot și 9 noi modele de generare imagini
FlowHunt v2.19.14 aduce modelele GPT-4.1 de la OpenAI, 9 noi modele de generare imagini de la Stable Diffusion, Google și Ideogram, plus integrare HubSpot pentr...
OpenAI tocmai a lansat un nou model numit OpenAI O1 din seria O1 de modele. Principala schimbare arhitecturală la aceste modele este abilitatea de a gândi înainte de a răspunde unei întrebări a utilizatorului. În acest articol vom aprofunda schimbările cheie din OpenAI O1, noile paradigme folosite de aceste modele și cum acest model poate crește semnificativ acuratețea RAG. Vom compara un flux RAG simplu folosind modelul OpenAI GPT4o și OpenAI O1.
Modelul O1 folosește algoritmi de învățare prin întărire la scară largă în timpul procesului său de antrenare. Acest lucru permite modelului să dezvolte un “Chain of Thought” robust, permițându-i să gândească mai profund și strategic asupra problemelor. Optimizându-și continuu căile de raționament prin învățare prin întărire, modelul O1 își îmbunătățește semnificativ abilitatea de a analiza și rezolva eficient sarcini complexe.
Anterior, chain of thought s-a dovedit a fi un mecanism util de prompt engineering pentru a face ca LLM-ul să “gândească” singur și să răspundă la întrebări complexe printr-un plan pas cu pas. Cu modelele O1, acest pas este integrat nativ și vine direct din model la momentul inferenței, făcându-l util pentru rezolvarea problemelor matematice și de programare.
O1 este antrenat cu RL să „gândească” înainte de a răspunde printr-un chain of thought privat. Cu cât gândește mai mult, cu atât se descurcă mai bine la sarcinile de raționament. Aceasta deschide o nouă dimensiune pentru scalare. Nu mai suntem limitați de preantrenare. Putem scala acum și puterea de inferență. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 12 septembrie 2024
În evaluări extinse, modelul O1 a demonstrat performanțe remarcabile pe diverse benchmark-uri:
Pentru a testa acuratețea performanței OpenAI O1 și GPT4o, am creat două fluxuri identice, dar cu două LLM-uri diferite. Vom compara capacitatea de răspuns la întrebări a modelelor pe două surse indexate privind raportul tehnic al OpenAI O1.
Mai întâi, vom crea un flux RAG simplu în FlowHunt. Acesta constă în Chat Input, Document Retriever (recuperează documente relevante), Prompt, Generator și Chat Output. Componenta LLM OpenAI este adăugată pentru a specifica modelul (altfel, implicit este folosit GPT4o).
Iată răspunsul de la GPT4o:
Și aici este rezultatul de la OpenAI O1:
După cum se poate observa, OpenAI O1 a surprins mai multe avantaje arhitecturale din articolul propriu-zis—6 puncte față de 4. În plus, O1 face implicații logice din fiecare punct, îmbogățind documentul cu mai multe perspective despre utilitatea schimbării arhitecturale.
Din experimentele noastre, modelul O1 va costa mai mult pentru o acuratețe crescută. Noul model are 3 tipuri de tokeni: Prompt Token, Completion Token și Reason Token (un tip de token adăugat recent), ceea ce îl poate face mai costisitor. În cele mai multe cazuri, OpenAI O1 oferă răspunsuri care par mai utile dacă sunt ancorate în adevăr. Totuși, există și situații în care GPT4o îl depășește pe OpenAI O1—unele sarcini pur și simplu nu au nevoie de raționament.
OpenAI O1 folosește învățare prin întărire la scară largă și integrează raționamentul chain of thought la momentul inferenței, permițând o rezolvare a problemelor mai profundă și mai strategică decât GPT4o.
Da, O1 obține scoruri mai mari în benchmark-uri precum AIME (83% vs. 13% pentru GPT4o), GPQA (depășind experți la nivel de doctorat) și MMLU, excelând în 54 din 57 de categorii.
Nu întotdeauna. Deși O1 excelează în sarcini ce implică raționament, GPT4o îl poate depăși în scenarii mai simple care nu necesită raționament avansat.
O1 introduce un nou token 'Reason' pe lângă Prompt și Completion, permițând raționamente mai sofisticate, dar crescând potențial costul operațional.
Poți folosi platforme precum FlowHunt pentru a construi fluxuri RAG și agenți AI cu OpenAI O1 pentru sarcini ce necesită raționament avansat și recuperare precisă de documente.
Yasha este un dezvoltator software talentat, specializat în Python, Java și învățare automată. Yasha scrie articole tehnice despre inteligența artificială, ingineria prompturilor și dezvoltarea chatboturilor.
Încearcă FlowHunt pentru a folosi cele mai noi LLM-uri precum OpenAI O1 și GPT4o pentru raționament superior și generare augmentată de recuperare.
FlowHunt v2.19.14 aduce modelele GPT-4.1 de la OpenAI, 9 noi modele de generare imagini de la Stable Diffusion, Google și Ideogram, plus integrare HubSpot pentr...
Compară OpenAI O3 Mini și DeepSeek în sarcini de raționament, strategii de șah și utilizare agentică a instrumentelor. Vezi care AI excelează la acuratețe, acce...
Află mai multe despre modelul Opus al Claude de la Anthropic. Descoperă punctele sale forte și slăbiciunile, precum și cum se compară cu celelalte modele.