
Come l'o1 Preview di OpenAI domina i prompt di scrittura complessi
Scopri come l’o1 Preview di OpenAI supera GPT-4 dominando prompt di scrittura complessi grazie a pianificazione interna, creatività e rispetto dei vincoli, apre...

OpenAI O1 sfrutta l’apprendimento per rinforzo e il ragionamento nativo chain of thought per superare GPT4o in compiti RAG complessi, anche se a un costo maggiore.
OpenAI ha appena rilasciato un nuovo modello chiamato OpenAI O1 dalla serie di modelli O1. Il principale cambiamento architetturale in questi modelli è la capacità di “pensare” prima di rispondere a una richiesta dell’utente. In questo blog analizzeremo a fondo i cambiamenti chiave di OpenAI O1, i nuovi paradigmi utilizzati da questi modelli e come questo modello possa incrementare in modo significativo l’accuratezza RAG. Confronteremo un semplice flusso RAG usando OpenAI GPT4o e il modello OpenAI O1.
Il modello O1 sfrutta algoritmi di apprendimento per rinforzo su larga scala durante il suo processo di addestramento. Questo consente al modello di sviluppare una solida “Catena di Pensiero” (Chain of Thought), permettendogli di ragionare in modo più profondo e strategico sui problemi. Ottimizzando continuamente i suoi percorsi di ragionamento tramite l’apprendimento per rinforzo, il modello O1 migliora notevolmente la sua capacità di analizzare e risolvere compiti complessi in modo efficiente.

In precedenza, la chain of thought si è dimostrata un utile meccanismo di prompt engineering per far “pensare” il LLM e rispondere a domande complesse secondo un piano passo passo. Con i modelli O1, questo passaggio è integrato nativamente nel modello già in fase di inferenza, rendendolo utile per compiti di problem solving matematico e di programmazione.
O1 è addestrato con RL per “pensare” prima di rispondere tramite una catena di pensiero privata. Più a lungo pensa, meglio si comporta nei compiti di ragionamento. Questo apre una nuova dimensione per la scalabilità. Non siamo più limitati dal pretraining. Ora possiamo scalare anche la computazione in inferenza. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 12 settembre 2024
In ampie valutazioni, il modello O1 ha dimostrato prestazioni notevoli su vari benchmark:
Per testare l’accuratezza delle prestazioni di OpenAI O1 e GPT4o, abbiamo creato due flussi identici, ma con due diversi LLM. Confronteremo la capacità di risposta alle domande dei modelli su due fonti indicizzate relative al report tecnico di OpenAI O1.
Per prima cosa, realizzeremo un semplice flusso RAG in FlowHunt. È composto da Chat Input, Document Retriever (recupera i documenti rilevanti), Prompt, Generator e Chat Output. Il componente LLM OpenAI viene aggiunto per specificare il modello (altrimenti viene utilizzato di default GPT4o).
Ecco la risposta di GPT4o:

Ed ecco il risultato di OpenAI O1:

Come puoi vedere, OpenAI O1 ha colto più vantaggi architetturali dall’articolo stesso—6 punti contro 4. Inoltre, O1 trae implicazioni logiche da ogni punto, arricchendo il documento con maggiori intuizioni sul perché il cambiamento architetturale sia utile.
Dai nostri esperimenti, il modello O1 risulta più costoso per ottenere una maggiore accuratezza. Il nuovo modello ha 3 tipi di token: Prompt Token, Completion Token e Reason Token (un nuovo tipo di token aggiunto), e ciò può renderlo potenzialmente più oneroso. Nella maggior parte dei casi, OpenAI O1 fornisce risposte che sembrano più utili se ancorate alla verità. Tuttavia, ci sono casi in cui GPT4o supera OpenAI O1—alcuni task semplicemente non necessitano di ragionamento.

Yasha è un talentuoso sviluppatore software specializzato in Python, Java e machine learning. Yasha scrive articoli tecnici su AI, prompt engineering e sviluppo di chatbot.

Prova FlowHunt per sfruttare gli ultimi LLM come OpenAI O1 e GPT4o per ragionamento e recupero aumentato di documenti superiori.

Scopri come l’o1 Preview di OpenAI supera GPT-4 dominando prompt di scrittura complessi grazie a pianificazione interna, creatività e rispetto dei vincoli, apre...

GPT-4.1 di OpenAI segna un importante salto nelle prestazioni dell’IA. Questo articolo analizza i suoi punti di forza e i limiti su cinque compiti fondamentali—...

Scopri come la Retrieval-Augmented Generation (RAG) sta trasformando l'intelligenza artificiale nelle aziende: dai principi fondamentali alle architetture agent...
Consenso Cookie
Usiamo i cookie per migliorare la tua esperienza di navigazione e analizzare il nostro traffico. See our privacy policy.