OpenAI práve vydal nový model s názvom OpenAI O1 zo série modelov O1. Hlavnou architektonickou zmenou týchto modelov je schopnosť premýšľať pred zodpovedaním otázky používateľa. V tomto blogu sa podrobne pozrieme na kľúčové zmeny v OpenAI O1, nové paradigmy, ktoré tieto modely používajú, a ako tento model môže výrazne zvýšiť presnosť RAG. Porovnáme jednoduchý RAG tok s použitím OpenAI GPT4o a modelu OpenAI O1.
Čím sa OpenAI O1 líši od predchádzajúcich modelov?
Veľkorozmerné posilňované učenie
Model O1 využíva veľkorozmerné algoritmy posilňovaného učenia počas svojho trénovania. To umožňuje modelu rozvinúť robustný “reťazec myšlienok” (Chain of Thought), vďaka čomu dokáže hlbšie a strategickejšie premýšľať nad problémami. Neustálym optimalizovaním svojich uvažovacích ciest prostredníctvom posilňovaného učenia výrazne zlepšuje schopnosť analyzovať a efektívne riešiť zložité úlohy.

Integrácia reťazca myšlienok
Predtým bol reťazec myšlienok osvedčeným mechanizmom prompt inžinierstva, ktorý nútil LLM “premýšľať” samostatne a odpovedať na zložité otázky krok za krokom. V O1 modeloch je tento krok zabudovaný priamo a je natívne integrovaný do modelu už počas inferencie, vďaka čomu je užitočný pri matematických a programovacích úlohách.
O1 je trénovaný pomocou RL, aby „premýšľal“ pred odpoveďou prostredníctvom súkromného reťazca myšlienok. Čím dlhšie premýšľa, tým lepšie mu idú úlohy na uvažovanie. Otvára to novú dimenziu škálovania. Už nie sme obmedzení pretrénovaním. Teraz môžeme škálovať aj výpočty pri inferencii. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 12. september 2024
Špičkový výkon v benchmarkoch
V rozsiahlych hodnoteniach model O1 preukázal pozoruhodný výkon v rôznych benchmarkoch:
- AIME (American Invitational Mathematics Examination): Správne vyrieši 83 % úloh, čo je výrazné zlepšenie oproti 13 % pri GPT-4o.
- GPQA (odborný test z vied): Prekonáva odborníkov s titulom PhD, čím sa stáva prvým AI modelom, ktorý prekonal ľudí v tomto benchmarku.
- MMLU (Multi-Task Language Understanding): Vyniká v 54 z 57 podkategórií, dosahuje 78,2 % výkon s povolenou vizuálnou percepciou.
- Programátorské súťaže: Dosahuje vysoké umiestnenia na platformách ako Codeforces, kde prekonáva 93 % ľudských súťažiacich.
OpenAI O1 vs OpenAI GPT4o v RAG toku
Na otestovanie presnosti OpenAI O1 a GPT4o sme vytvorili dva identické toky, ale s dvoma rôznymi LLM. Porovnáme schopnosť odpovedania na otázky týchto modelov na základe dvoch zdrojov indexovaných podľa technickej správy OpenAI O1.
Najprv vytvoríme jednoduchý RAG tok vo FlowHunt. Skladá sa z Chat Input, Document Retriever (na vyhľadanie relevantných dokumentov), Prompt, Generator a Chat Output. Pridáva sa komponent LLM OpenAI na špecifikovanie modelu (inak sa štandardne použije GPT4o).
Tu je odpoveď od GPT4o:

A tu je výsledok od OpenAI O1:

Ako vidíte, OpenAI O1 zachytil viac architektonických výhod z článku samotného—6 bodov namiesto 4. Navyše, O1 robí logické implikácie z každého bodu, čím obohacuje dokument o ďalšie poznatky, prečo je architektonická zmena užitočná.
Oplatí sa model OpenAI O1?
Z našich experimentov vyplýva, že model O1 bude stáť viac za vyššiu presnosť. Nový model má 3 typy tokenov: Prompt Token, Completion Token a Reason Token (nový pridaný typ tokenu), čo ho môže urobiť nákladnejším. Vo väčšine prípadov poskytuje OpenAI O1 odpovede, ktoré sú pri dodržaní faktov užitočnejšie. Existujú však prípady, kedy GPT4o prekonáva OpenAI O1—niektoré úlohy jednoducho nevyžadujú uvažovanie.

Najčastejšie kladené otázky
- Čím sa OpenAI O1 líši od GPT4o?
OpenAI O1 využíva veľkorozmerné posilňované učenie a integruje reťazec uvažovania už pri inferencii, čo umožňuje hlbšie a strategickejšie riešenie problémov než GPT4o.
- Prekonáva OpenAI O1 GPT4o v benchmarkoch?
Áno, O1 dosahuje vyššie skóre v benchmarkoch ako AIME (83 % vs. 13 % GPT4o), GPQA (prekonáva PhD odborníkov) a MMLU, vyniká v 54 z 57 kategórií.
- Je OpenAI O1 vždy lepší ako GPT4o?
Nie vždy. Zatiaľ čo O1 vyniká v úlohách náročných na uvažovanie, GPT4o ho môže prekonať v jednoduchších prípadoch, ktoré nevyžadujú pokročilé uvažovanie.
- Aké sú nové typy tokenov v OpenAI O1?
O1 zavádza nový token 'Reason' okrem tokenov Prompt a Completion, čo umožňuje sofistikovanejšie uvažovanie, no môže zvýšiť prevádzkové náklady.
- Ako môžem využiť OpenAI O1 pre svoje projekty?
Môžete použiť platformy ako FlowHunt na tvorbu RAG tokov a AI agentov s OpenAI O1 pre úlohy vyžadujúce pokročilé uvažovanie a presné vyhľadávanie v dokumentoch.
Yasha je talentovaný softvérový vývojár so špecializáciou na Python, Javu a strojové učenie. Yasha píše technické články o AI, prompt engineeringu a vývoji chatbotov.

Budujte pokročilé RAG toky s FlowHunt
Vyskúšajte FlowHunt a využite najnovšie LLM ako OpenAI O1 a GPT4o pre lepšie uvažovanie a generovanie s podporou vyhľadávania.