RAG ja päättelyyn kykenevät LLM:t: OpenAI O1 vs OpenAI GPT4o

OpenAI O1 GPT4o RAG Reasoning

OpenAI julkaisi juuri uuden mallin nimeltä OpenAI O1 O1-mallisarjasta. Näiden mallien tärkein arkkitehtuurinen muutos on kyky “ajatella” ennen käyttäjän kysymykseen vastaamista. Tässä blogissa sukellamme syvälle OpenAI O1:n keskeisiin muutoksiin, uusiin paradigmoihin joita nämä mallit hyödyntävät, ja siihen, kuinka tämä malli voi huomattavasti parantaa RAG-tarkkuutta. Vertailumme kohdistuu yksinkertaiseen RAG-prosessiin OpenAI GPT4o:lla ja OpenAI O1 -mallilla.

Miten OpenAI O1 eroaa aiemmista malleista?

Laajamittainen vahvistusoppiminen

O1-malli hyödyntää laajamittaisia vahvistusoppimisalgoritmeja koulutusprosessinsa aikana. Tämä mahdollistaa mallille vankan “Chain of Thought” -päättelyn, jolloin se kykenee pohtimaan ongelmia syvällisemmin ja strategisemmin. Optimoimalla jatkuvasti päättelyreittejään vahvistusoppimisen avulla O1-malli parantaa merkittävästi kykyään analysoida ja ratkaista monimutkaisia tehtäviä tehokkaasti.

Evaluation of GPT4o in Test Time and inference time

Ketjumaisen päättelyn integrointi

Aiemmin ketjumainen päättely on osoittautunut hyödylliseksi prompttien suunnittelumenetelmäksi, joka saa LLM:n “ajattelemaan” itse ja vastaamaan monimutkaisiin kysymyksiin vaiheittain. O1-malleissa tämä vaihe tulee suoraan mallin mukana ja on integroituna natiivisti päättelyvaiheeseen, mikä tekee siitä hyödyllisen matemaattisissa ja koodausongelmien ratkaisutehtävissä.

O1 on koulutettu RL:llä “ajattelemaan” ennen vastaamista yksityisen ketjumaisen päättelyn avulla. Mitä pidempään se ajattelee, sitä paremmin se suoriutuu päättelytehtävissä. Tämä avaa uuden ulottuvuuden skaalaamiselle. Emme ole enää esikoulutuksen pullonkaulan armoilla. Nyt voimme skaalata myös päättelylaskentaa. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 12. syyskuuta 2024

Ylivertainen suorituskyky vertailuissa

Laajoissa arvioinneissa O1-malli on osoittanut merkittävää suorituskykyä eri vertailuissa:

  • AIME (American Invitational Mathematics Examination): Ratkaisee 83 % tehtävistä oikein, mikä on huomattava parannus GPT-4o:n 13 %:iin verrattuna.
  • GPQA (asiantuntijatason tieteellinen koe): Ohittaa tohtoritason asiantuntijat, ollen ensimmäinen AI-malli, joka päihittää ihmiset tällä mittarilla.
  • MMLU (Multi-Task Language Understanding): Menestyy 54:ssä 57 alaluokasta, saavuttaen 78,2 % tuloksen visuaalisen havainnoinnin ollessa käytössä.
  • Koodauskilpailut: Saavuttaa korkeat sijoitukset alustoilla kuten Codeforces, jättäen taakseen 93 % ihmiskilpailijoista.

OpenAI O1 vs OpenAI GPT4o RAG-prosessissa

Testataksemme OpenAI O1:n ja GPT4o:n tarkkuutta loimme kaksi identtistä prosessia, mutta käytimme eri LLM:iä. Vertailimme mallien kykyä vastata kysymyksiin kahdesta, OpenAI O1:n teknistä raporttia käsittelevästä lähteestä.

Ensin luomme yksinkertaisen RAG-prosessin FlowHuntilla. Se sisältää Chat Inputin, Document Retrieverin (noutaa relevantit dokumentit), Promptin, Generatorin ja Chat Outputin. LLM OpenAI -komponenttiin määritetään käytettävä malli (muuten oletuksena on GPT4o).

Tässä GPT4o:n vastaus:

Response of OpenAI GPT4o model for the query

Ja tässä OpenAI O1:n tulos:

Response of OpenAI O1 model for the query

Kuten huomaat, OpenAI O1 poimi artikkelista enemmän arkkitehtuurisia yksityiskohtia—6 kohtaa 4:n sijaan. Lisäksi O1 tekee jokaisesta kohdasta loogisia johtopäätöksiä, rikastuttaen dokumenttia näkemyksillä siitä, miksi arkkitehtuurimuutos on hyödyllinen.

Logo

Valmis kasvattamaan liiketoimintaasi?

Aloita ilmainen kokeilujakso tänään ja näe tulokset muutamassa päivässä.

Onko OpenAI O1 -malli hintansa arvoinen?

Kokeidemme perusteella O1-malli maksaa enemmän, mutta tarjoaa paremman tarkkuuden. Uudessa mallissa on kolme token-tyyppiä: Prompt Token, Completion Token ja Reason Token (uusi token-tyyppi), mikä voi nostaa kustannuksia. Useimmissa tapauksissa OpenAI O1 antaa vastauksia, jotka vaikuttavat hyödyllisemmiltä, jos ne perustuvat totuuteen. On kuitenkin tilanteita, joissa GPT4o päihittää OpenAI O1:n—kaikki tehtävät eivät yksinkertaisesti vaadi päättelyä.

GPT4o outperforms OpenAI O1 model in tasks that don't need reasoning

Usein kysytyt kysymykset

Yasha on lahjakas ohjelmistokehittäjä, joka on erikoistunut Pythoniin, Javaan ja koneoppimiseen. Yasha kirjoittaa teknisiä artikkeleita tekoälystä, prompt engineeringistä ja chatbot-kehityksestä.

Yasha Boroumand
Yasha Boroumand
CTO, FlowHunt

Rakenna edistyneitä RAG-prosesseja FlowHuntilla

Kokeile FlowHuntia hyödyntääksesi uusimpia LLM-malleja, kuten OpenAI O1 ja GPT4o, parempaan päättelyyn ja tiedonhakuun perustuvaan generointiin.

Lue lisää

Kuinka OpenAI:n o1 Preview hallitsee monimutkaisia kirjoitusohjeita
Kuinka OpenAI:n o1 Preview hallitsee monimutkaisia kirjoitusohjeita

Kuinka OpenAI:n o1 Preview hallitsee monimutkaisia kirjoitusohjeita

Tutustu, kuinka OpenAI:n o1 Preview ylittää GPT-4:n hallitsemalla monimutkaisia kirjoitusohjeita sisäisen suunnittelun, luovuuden ja rajoituksiin sitoutumisen a...

2 min lukuaika
OpenAI o1 Preview +5
LG EXAONE Deep vs DeepSeek R1: AI-päättelymallien vertailu
LG EXAONE Deep vs DeepSeek R1: AI-päättelymallien vertailu

LG EXAONE Deep vs DeepSeek R1: AI-päättelymallien vertailu

Syvällinen analyysi LG:n EXAONE Deep 32B -päättelymallista verrattuna DeepSeek R1:een ja Alibaban QwQ:hun, jossa arvioidaan väitteitä paremmasta suorituskyvystä...

9 min lukuaika
AI Models LLM Testing +3
GPT-4.1: Suorituskyvyn analyysi standardeissa tekoälytehtävissä
GPT-4.1: Suorituskyvyn analyysi standardeissa tekoälytehtävissä

GPT-4.1: Suorituskyvyn analyysi standardeissa tekoälytehtävissä

OpenAI:n GPT-4.1 merkitsee merkittävää harppausta tekoälyn suorituskyvyssä. Tässä artikkelissa analysoidaan sen vahvuuksia ja rajoituksia viidessä keskeisessä t...

5 min lukuaika
AI GPT-4.1 +8