
Novità: GPT 4.1, HubSpot e 9 nuovi modelli di immagini
FlowHunt v2.19.14 introduce i modelli GPT-4.1 di OpenAI, 9 nuovi modelli di generazione immagini da Stable Diffusion, Google e Ideogram, oltre all’integrazione ...
OpenAI ha appena rilasciato un nuovo modello chiamato OpenAI O1 dalla serie di modelli O1. Il principale cambiamento architetturale in questi modelli è la capacità di “pensare” prima di rispondere a una richiesta dell’utente. In questo blog analizzeremo a fondo i cambiamenti chiave di OpenAI O1, i nuovi paradigmi utilizzati da questi modelli e come questo modello possa incrementare in modo significativo l’accuratezza RAG. Confronteremo un semplice flusso RAG usando OpenAI GPT4o e il modello OpenAI O1.
Il modello O1 sfrutta algoritmi di apprendimento per rinforzo su larga scala durante il suo processo di addestramento. Questo consente al modello di sviluppare una solida “Catena di Pensiero” (Chain of Thought), permettendogli di ragionare in modo più profondo e strategico sui problemi. Ottimizzando continuamente i suoi percorsi di ragionamento tramite l’apprendimento per rinforzo, il modello O1 migliora notevolmente la sua capacità di analizzare e risolvere compiti complessi in modo efficiente.
In precedenza, la chain of thought si è dimostrata un utile meccanismo di prompt engineering per far “pensare” il LLM e rispondere a domande complesse secondo un piano passo passo. Con i modelli O1, questo passaggio è integrato nativamente nel modello già in fase di inferenza, rendendolo utile per compiti di problem solving matematico e di programmazione.
O1 è addestrato con RL per “pensare” prima di rispondere tramite una catena di pensiero privata. Più a lungo pensa, meglio si comporta nei compiti di ragionamento. Questo apre una nuova dimensione per la scalabilità. Non siamo più limitati dal pretraining. Ora possiamo scalare anche la computazione in inferenza. pic.twitter.com/niqRO9hhg1
— Noam Brown (@polynoamial) 12 settembre 2024
In ampie valutazioni, il modello O1 ha dimostrato prestazioni notevoli su vari benchmark:
Per testare l’accuratezza delle prestazioni di OpenAI O1 e GPT4o, abbiamo creato due flussi identici, ma con due diversi LLM. Confronteremo la capacità di risposta alle domande dei modelli su due fonti indicizzate relative al report tecnico di OpenAI O1.
Per prima cosa, realizzeremo un semplice flusso RAG in FlowHunt. È composto da Chat Input, Document Retriever (recupera i documenti rilevanti), Prompt, Generator e Chat Output. Il componente LLM OpenAI viene aggiunto per specificare il modello (altrimenti viene utilizzato di default GPT4o).
Ecco la risposta di GPT4o:
Ed ecco il risultato di OpenAI O1:
Come puoi vedere, OpenAI O1 ha colto più vantaggi architetturali dall’articolo stesso—6 punti contro 4. Inoltre, O1 trae implicazioni logiche da ogni punto, arricchendo il documento con maggiori intuizioni sul perché il cambiamento architetturale sia utile.
Dai nostri esperimenti, il modello O1 risulta più costoso per ottenere una maggiore accuratezza. Il nuovo modello ha 3 tipi di token: Prompt Token, Completion Token e Reason Token (un nuovo tipo di token aggiunto), e ciò può renderlo potenzialmente più oneroso. Nella maggior parte dei casi, OpenAI O1 fornisce risposte che sembrano più utili se ancorate alla verità. Tuttavia, ci sono casi in cui GPT4o supera OpenAI O1—alcuni task semplicemente non necessitano di ragionamento.
OpenAI O1 utilizza l'apprendimento per rinforzo su larga scala e integra il ragionamento chain of thought in fase di inferenza, consentendo una risoluzione dei problemi più profonda e strategica rispetto a GPT4o.
Sì, O1 ottiene punteggi più alti in benchmark come AIME (83% contro il 13% di GPT4o), GPQA (superando esperti di livello dottorato) e MMLU, eccellendo in 54 su 57 categorie.
Non sempre. Sebbene O1 eccella nei compiti che richiedono ragionamento, GPT4o può superarlo in casi d'uso più semplici che non richiedono capacità di ragionamento avanzate.
O1 introduce un nuovo token 'Reason' oltre ai token Prompt e Completion, consentendo un ragionamento più sofisticato ma potenzialmente aumentando il costo operativo.
Puoi utilizzare piattaforme come FlowHunt per creare flussi RAG e agenti AI con OpenAI O1 per compiti che richiedono ragionamento avanzato e un recupero accurato dei documenti.
Yasha è un talentuoso sviluppatore software specializzato in Python, Java e machine learning. Yasha scrive articoli tecnici su AI, prompt engineering e sviluppo di chatbot.
Prova FlowHunt per sfruttare gli ultimi LLM come OpenAI O1 e GPT4o per ragionamento e recupero aumentato di documenti superiori.
FlowHunt v2.19.14 introduce i modelli GPT-4.1 di OpenAI, 9 nuovi modelli di generazione immagini da Stable Diffusion, Google e Ideogram, oltre all’integrazione ...
Confronta OpenAI O3 Mini e DeepSeek su compiti di ragionamento, strategie di scacchi e uso agentico degli strumenti. Scopri quale IA eccelle in accuratezza, con...
OpenAI O3 Mini è lo strumento AI giusto per te? Lo abbiamo messo alla prova con generazione di contenuti, calcoli e altro ancora. Scopri come questo modello bil...