
Kuinka OpenAI:n o1 Preview hallitsee monimutkaisia kirjoitusohjeita
Tutustu, kuinka OpenAI:n o1 Preview ylittää GPT-4:n hallitsemalla monimutkaisia kirjoitusohjeita sisäisen suunnittelun, luovuuden ja rajoituksiin sitoutumisen a...

OpenAI O1 hyödyntää vahvistusoppimista ja sisäänrakennettua ketjumaista päättelyä, ylittäen GPT4o:n monimutkaisissa RAG-tehtävissä, joskin korkeammalla hinnalla.
OpenAI julkaisi juuri uuden mallin nimeltä OpenAI O1 O1-mallisarjasta. Näiden mallien tärkein arkkitehtuurinen muutos on kyky “ajatella” ennen käyttäjän kysymykseen vastaamista. Tässä blogissa sukellamme syvälle OpenAI O1:n keskeisiin muutoksiin, uusiin paradigmoihin joita nämä mallit hyödyntävät, ja siihen, kuinka tämä malli voi huomattavasti parantaa RAG-tarkkuutta. Vertailumme kohdistuu yksinkertaiseen RAG-prosessiin OpenAI GPT4o:lla ja OpenAI O1 -mallilla.
O1-malli hyödyntää laajamittaisia vahvistusoppimisalgoritmeja koulutusprosessinsa aikana. Tämä mahdollistaa mallille vankan “Chain of Thought” -päättelyn, jolloin se kykenee pohtimaan ongelmia syvällisemmin ja strategisemmin. Optimoimalla jatkuvasti päättelyreittejään vahvistusoppimisen avulla O1-malli parantaa merkittävästi kykyään analysoida ja ratkaista monimutkaisia tehtäviä tehokkaasti.

Aiemmin ketjumainen päättely on osoittautunut hyödylliseksi prompttien suunnittelumenetelmäksi, joka saa LLM:n “ajattelemaan” itse ja vastaamaan monimutkaisiin kysymyksiin vaiheittain. O1-malleissa tämä vaihe tulee suoraan mallin mukana ja on integroituna natiivisti päättelyvaiheeseen, mikä tekee siitä hyödyllisen matemaattisissa ja koodausongelmien ratkaisutehtävissä.
O1 on koulutettu RL:llä “ajattelemaan” ennen vastaamista yksityisen ketjumaisen päättelyn avulla. Mitä pidempään se ajattelee, sitä paremmin se suoriutuu päättelytehtävissä. Tämä avaa uuden ulottuvuuden skaalaamiselle. Emme ole enää esikoulutuksen pullonkaulan armoilla. Nyt voimme skaalata myös päättelylaskentaa. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 12. syyskuuta 2024
Laajoissa arvioinneissa O1-malli on osoittanut merkittävää suorituskykyä eri vertailuissa:
Testataksemme OpenAI O1:n ja GPT4o:n tarkkuutta loimme kaksi identtistä prosessia, mutta käytimme eri LLM:iä. Vertailimme mallien kykyä vastata kysymyksiin kahdesta, OpenAI O1:n teknistä raporttia käsittelevästä lähteestä.
Ensin luomme yksinkertaisen RAG-prosessin FlowHuntilla. Se sisältää Chat Inputin, Document Retrieverin (noutaa relevantit dokumentit), Promptin, Generatorin ja Chat Outputin. LLM OpenAI -komponenttiin määritetään käytettävä malli (muuten oletuksena on GPT4o).
Tässä GPT4o:n vastaus:

Ja tässä OpenAI O1:n tulos:

Kuten huomaat, OpenAI O1 poimi artikkelista enemmän arkkitehtuurisia yksityiskohtia—6 kohtaa 4:n sijaan. Lisäksi O1 tekee jokaisesta kohdasta loogisia johtopäätöksiä, rikastuttaen dokumenttia näkemyksillä siitä, miksi arkkitehtuurimuutos on hyödyllinen.
Kokeidemme perusteella O1-malli maksaa enemmän, mutta tarjoaa paremman tarkkuuden. Uudessa mallissa on kolme token-tyyppiä: Prompt Token, Completion Token ja Reason Token (uusi token-tyyppi), mikä voi nostaa kustannuksia. Useimmissa tapauksissa OpenAI O1 antaa vastauksia, jotka vaikuttavat hyödyllisemmiltä, jos ne perustuvat totuuteen. On kuitenkin tilanteita, joissa GPT4o päihittää OpenAI O1:n—kaikki tehtävät eivät yksinkertaisesti vaadi päättelyä.

Yasha on lahjakas ohjelmistokehittäjä, joka on erikoistunut Pythoniin, Javaan ja koneoppimiseen. Yasha kirjoittaa teknisiä artikkeleita tekoälystä, prompt engineeringistä ja chatbot-kehityksestä.

Kokeile FlowHuntia hyödyntääksesi uusimpia LLM-malleja, kuten OpenAI O1 ja GPT4o, parempaan päättelyyn ja tiedonhakuun perustuvaan generointiin.

Tutustu, kuinka OpenAI:n o1 Preview ylittää GPT-4:n hallitsemalla monimutkaisia kirjoitusohjeita sisäisen suunnittelun, luovuuden ja rajoituksiin sitoutumisen a...

Syvällinen analyysi LG:n EXAONE Deep 32B -päättelymallista verrattuna DeepSeek R1:een ja Alibaban QwQ:hun, jossa arvioidaan väitteitä paremmasta suorituskyvystä...

OpenAI:n GPT-4.1 merkitsee merkittävää harppausta tekoälyn suorituskyvyssä. Tässä artikkelissa analysoidaan sen vahvuuksia ja rajoituksia viidessä keskeisessä t...
Evästeiden Suostumus
Käytämme evästeitä parantaaksemme selauskokemustasi ja analysoidaksemme liikennettämme. See our privacy policy.