RAG s uvažujícími LLM: OpenAI O1 vs OpenAI GPT4o

RAG s uvažujícími LLM: OpenAI O1 vs OpenAI GPT4o

OpenAI O1 využívá posilované učení a nativní řetězec myšlení k překonání GPT4o v komplexních RAG úlohách, ovšem za vyšší cenu.

OpenAI právě vydalo nový model s názvem OpenAI O1 ze série modelů O1. Hlavní architektonickou změnou těchto modelů je schopnost „přemýšlet“ před odpovědí na dotaz uživatele. V tomto blogu se podíváme detailněji na klíčové změny v OpenAI O1, nové paradigmata, která tyto modely využívají, a jak může tento model významně zvýšit přesnost RAG. Porovnáme jednoduchý RAG tok využívající OpenAI GPT4o a model OpenAI O1.

V čem se OpenAI O1 liší od předchozích modelů?

Rozsáhlé posilované učení

Model O1 využívá algoritmy rozsáhlého posilovaného učení během svého trénování. To modelu umožňuje rozvinout robustní „řetězec myšlení“, díky němuž přemýšlí o problémech hlouběji a strategičtěji. Neustálou optimalizací svých uvažovacích cest pomocí posilovaného učení model O1 výrazně zlepšuje schopnost analyzovat a efektivně řešit složité úkoly.

Evaluation of GPT4o in Test Time and inference time

Integrace řetězce myšlení

Dříve se řetězec myšlení osvědčil jako užitečný mechanismus prompt engineering, díky kterému LLM „samo přemýšlí“ a odpovídá na složité otázky krok za krokem. U modelů O1 je tento krok nativně integrován přímo do modelu v čase inference, což je užitečné pro matematické a programovací úlohy.

O1 je trénován pomocí RL, aby „přemýšlel“ před odpovědí prostřednictvím soukromého řetězce myšlení. Čím déle přemýšlí, tím lépe si vede v úlohách vyžadujících uvažování. To otevírá novou dimenzi škálování. Již nejsme limitováni pretrénováním. Lze škálovat i inference compute. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 12. září 2024

Špičkový výkon v benchmarcích

V rozsáhlých hodnoceních model O1 prokázal pozoruhodné výsledky v různých benchmarcích:

  • AIME (American Invitational Mathematics Examination): Správně vyřeší 83 % úloh, což je výrazné zlepšení oproti 13 % u GPT-4o.
  • GPQA (Expertní test ve vědách): Překonává úroveň PhD expertů a je první AI modelem, který předčí člověka v tomto benchmarku.
  • MMLU (Multi-Task Language Understanding): Exceluje v 54 z 57 subkategorií a s vizuálním vnímáním dosahuje 78,2 % úspěšnosti.
  • Programovací soutěže: Dosahuje vysokých pozic na platformách jako Codeforces, kde překonává 93 % lidských soutěžících.

OpenAI O1 vs OpenAI GPT4o v RAG flow

Pro otestování přesnosti OpenAI O1 a GPT4o jsme vytvořili dva identické toky, ale s různými LLM. Porovnáme schopnost odpovídat na otázky na základě dvou zdrojů indexovaných z technické zprávy OpenAI O1.

Nejprve vytvoříme jednoduchý RAG tok ve FlowHunt. Sestává z Chat Input, Document Retrieveru (načítá relevantní dokumenty), Promptu, Generátoru a Chat Outputu. Komponenta LLM OpenAI je přidána pro určení modelu (jinak je výchozí GPT4o).

Zde je odpověď od GPT4o:

Response of OpenAI GPT4o model for the query

A zde je výsledek od OpenAI O1:

Response of OpenAI O1 model for the query

Jak je vidět, OpenAI O1 zachytilo více architektonických výhod přímo z článku—6 bodů oproti 4. Navíc O1 ke každému bodu přidává logické implikace, čímž dokument obohacuje o další vhledy do užitečnosti architektonických změn.

Vyplatí se model OpenAI O1?

Z našich experimentů plyne, že model O1 bude stát více za vyšší přesnost. Nový model má 3 typy tokenů: Prompt Token, Completion Token a Reason Token (nově přidaný typ tokenu), což jej může činit nákladnějším. Ve většině případů poskytuje OpenAI O1 odpovědi, které jsou užitečnější, pokud jsou podloženy fakty. Existují však případy, kdy GPT4o překonává OpenAI O1—některé úkoly prostě nevyžadují uvažování.

GPT4o outperforms OpenAI O1 model in tasks that don't need reasoning

Často kladené otázky

Jak se OpenAI O1 liší od GPT4o?

OpenAI O1 používá rozsáhlé posilované učení a integruje řetězec myšlení při inferenci, což umožňuje hlubší a strategičtější řešení problémů než GPT4o.

Překonává OpenAI O1 GPT4o v benchmarcích?

Ano, O1 dosahuje vyššího skóre v benchmarcích jako AIME (83 % oproti 13 % u GPT4o), GPQA (překonává úroveň PhD expertů) a MMLU, exceluje v 54 z 57 kategorií.

Je OpenAI O1 vždy lepší než GPT4o?

Ne vždy. Zatímco O1 vyniká v úlohách vyžadujících uvažování, GPT4o jej může překonat v jednodušších případech, kde není pokročilé uvažování potřeba.

Jaké jsou nové typy tokenů v OpenAI O1?

O1 zavádí nový 'Reason' token vedle Prompt a Completion tokenů, což umožňuje sofistikovanější uvažování, ale může to zvýšit provozní náklady.

Jak mohu využít OpenAI O1 pro své projekty?

Můžete použít platformy jako FlowHunt k tvorbě RAG flow a AI agentů s OpenAI O1 pro úlohy vyžadující pokročilé uvažování a přesné vyhledávání dokumentů.

Yasha je talentovaný softwarový vývojář specializující se na Python, Javu a strojové učení. Yasha píše technické články o AI, inženýrství promptů a vývoji chatbotů.

Yasha Boroumand
Yasha Boroumand
CTO, FlowHunt

Vytvářejte pokročilé RAG flow s FlowHunt

Vyzkoušejte FlowHunt a využijte nejnovější LLM jako OpenAI O1 a GPT4o pro špičkové uvažování a retrieval-augmented generation.

Zjistit více

OpenAI O3 Mini vs DeepSeek pro agentické využití
OpenAI O3 Mini vs DeepSeek pro agentické využití

OpenAI O3 Mini vs DeepSeek pro agentické využití

Porovnejte OpenAI O3 Mini a DeepSeek v úlohách vyžadujících uvažování, šachové strategie a agentické využívání nástrojů. Zjistěte, který AI model vyniká v přesn...

8 min čtení
AI Models OpenAI +5
GPT-4.1: Analýza výkonu napříč standardními AI úlohami
GPT-4.1: Analýza výkonu napříč standardními AI úlohami

GPT-4.1: Analýza výkonu napříč standardními AI úlohami

GPT-4.1 od OpenAI znamená zásadní skok ve výkonu AI. Tento článek analyzuje jeho silné a slabé stránky napříč pěti klíčovými AI úlohami – generování obsahu, mat...

5 min čtení
AI GPT-4.1 +8