
Allucinazione
Un'allucinazione nei modelli linguistici si verifica quando l'IA genera un testo che sembra plausibile ma è in realtà errato o inventato. Scopri le cause, i met...

Scopri come la ricerca più recente di OpenAI identifica perché i modelli linguistici allucinano e producono false affermazioni con grande sicurezza. Scopri le cause profonde e le soluzioni pratiche per ridurre le allucinazioni nei sistemi di intelligenza artificiale.
I modelli linguistici sono diventati sempre più potenti, ma restano soggetti a un difetto critico: le allucinazioni. Si tratta di affermazioni sicure e plausibili che però sono fattualmente errate. Il recente articolo di ricerca di OpenAI, “Why Language Models Hallucinate”, offre spunti rivoluzionari sulle cause profonde di questo fenomeno e propone soluzioni pratiche. Le allucinazioni non sono semplici bug casuali o difetti inevitabili, ma sono in realtà insite nel modo in cui i moderni modelli linguistici vengono costruiti e addestrati. Comprendere questa ricerca è fondamentale per chiunque lavori con sistemi di intelligenza artificiale, poiché rivela che le allucinazioni non sono solo un problema tecnico, ma una questione sistemica radicata nel modo in cui addestriamo, valutiamo e incentiviavamo questi modelli. Questo articolo analizza i risultati principali dell’articolo e ne esplora le implicazioni per il futuro di sistemi AI affidabili.
È noto che i modelli linguistici producono quelle che i ricercatori chiamano “false verità sicure”—affermazioni che suonano ragionevoli e sono espresse con certezza, ma in realtà sono errate. Questo è fondamentalmente diverso dal semplice commettere errori. Un modello che dice “Non sono sicuro” quando è incerto si comporta diversamente da uno che afferma con sicurezza qualcosa di falso. Il problema è che, quando un modello sbaglia con sicurezza, diventa estremamente difficile fidarsi di quel modello in qualsiasi contesto. Gli utenti non possono facilmente distinguere tra informazioni accurate e allucinate, il che mina l’utilità dell’intero sistema. Ciò è particolarmente problematico in applicazioni ad alto rischio come diagnosi medica, ricerca legale o analisi finanziaria, dove informazioni errate presentate con sicurezza possono portare a gravi conseguenze. La sfida non è solo che i modelli a volte commettano errori—è che li fanno apparendo totalmente certi.
La radice di questo problema sta nel capire da dove originano le allucinazioni durante il processo di sviluppo del modello. Sebbene sia intuitivo pensare che le allucinazioni derivino principalmente da errori nei dati di addestramento, la realtà è più sfumata e più fondamentale. Anche se fosse possibile creare un dataset di addestramento perfettamente pulito, senza errori o imprecisioni—cosa teoricamente impossibile—le allucinazioni continuerebbero a verificarsi. Questo perché il problema non riguarda solo ciò che il modello apprende dai dati di addestramento; riguarda il modo in cui il modello viene addestrato a comportarsi e quali obiettivi viene ottimizzato per raggiungere. Il processo di addestramento stesso, attraverso i meccanismi di feedback e le strutture di ricompensa utilizzate durante lo sviluppo, incentiva attivamente proprio quei comportamenti che portano alle allucinazioni.
Quando i modelli linguistici vengono addestrati, apprendono da enormi corpora testuali che contengono inevitabilmente errori, imprecisioni e mezze verità. Un modello addestrato su Wikipedia, libri, articoli e contenuti web assimilerà non solo informazioni corrette ma anche errori, fraintendimenti e affermazioni false presenti in tali fonti. Se il 20% delle date di nascita compare solo una volta nei dati di addestramento, il modello allucinerà su circa il 20% delle domande relative ai compleanni, perché non ha appreso quei fatti in modo abbastanza affidabile da recuperarli correttamente. Questa sembra una causa ovvia delle allucinazioni, e in parte lo è, ma non è la causa principale.
La questione più significativa è che, anche con dati di addestramento privi di errori, gli obiettivi ottimizzati durante l’addestramento dei modelli linguistici porterebbero comunque ad allucinazioni. Questo è un punto cruciale che cambia il modo in cui pensiamo al problema. Gli obiettivi di addestramento—il modo in cui i modelli ricevono feedback sulla bontà delle loro risposte—sono fondamentalmente non allineati con la riduzione delle allucinazioni. Durante l’addestramento, i modelli ottimizzano rispetto a metriche e segnali di ricompensa specifici, e questi spesso incentivano l’indovinare con sicurezza piuttosto che l’ammettere l’incertezza. Il modello impara che dare una risposta specifica e sicura viene premiato più che ammettere di non sapere qualcosa. Si crea così una struttura di incentivi distorta, dove l’allucinare diventa una strategia razionale dal punto di vista del modello.
Uno degli spunti più importanti della ricerca di OpenAI è che generare risposte valide è molto più difficile che verificarne la validità. Questa asimmetria è fondamentale per capire perché avvengono le allucinazioni. Quando ti viene chiesto di verificare una risposta—stabilire se un’affermazione è vera o falsa—stai svolgendo un compito molto più semplice. Puoi controllare i fatti, cercare contraddizioni e valutare la coerenza. Ma quando ti viene chiesto di generare una risposta da zero, devi non solo produrre la risposta corretta, ma anche evitare tutte le possibili risposte sbagliate, che possono essere virtualmente illimitate. Per la maggior parte delle domande ci sono molte più risposte sbagliate che giuste, il che rende il compito della generazione intrinsecamente più difficile rispetto alla verifica.
Questa asimmetria spiega perché più agenti AI che lavorano insieme producono solitamente risultati migliori di un singolo agente. Quando un agente esamina l’output di un altro, sta svolgendo un compito di verifica, che è più facile e affidabile della generazione. È anche per questo che spesso, quando diciamo a un modello linguistico “No, non è corretto. Correggilo”, il modello risponde frequentemente con una risposta corretta. Ora il modello è in modalità verifica: controlla se la risposta precedente era giusta e ne genera un’alternativa, invece di produrla da zero. Questo spunto ha profonde implicazioni su come progettiamo i sistemi AI e pensiamo a migliorarne l’affidabilità.
L’articolo utilizza un’analogia efficace per spiegare perché i modelli linguistici allucinano: il loro comportamento rispecchia quello degli studenti che affrontano esami a scelta multipla quando sono incerti. In un test a scelta multipla con quattro risposte possibili, se non sai la risposta, hai il 25% di possibilità di indovinare. Ma se ti astieni dal rispondere—lasci la risposta in bianco o dici “Non lo so”—hai la certezza di ottenere zero punti. Con un sistema di punteggio binario che assegna un punto per la risposta corretta e zero per la mancata risposta o “Non lo so”, indovinare massimizza il punteggio atteso. Ed è esattamente quello che i modelli linguistici imparano a fare durante l’addestramento.
Quando i modelli sono incerti, imparano a “bluffare”—fornendo una risposta specifica e sicura invece di ammettere l’incertezza. Questi bluff, inoltre, tendono ad essere molto specifici, non vaghi. Un modello dirà “30 settembre” invece di “in autunno” quando gli viene chiesta una data che non conosce. Questa specificità è una forma di allucinazione perché trasmette una sicurezza falsa. Il modello ha appreso che le risposte specifiche e sicure sono premiate più delle risposte incerte o prudenti. Questo comportamento è rafforzato dalle metriche di valutazione usate per misurare la performance del modello. La maggior parte dei benchmark dei modelli linguistici, tra cui GPQA, MMLU Pro e Math, usano schemi di valutazione binari simili agli esami standardizzati per umani. Premiano le risposte corrette e penalizzano quelle errate, ma non premiano l’astensione o l’espressione di incertezza. Solo benchmark come WildBench includono un riconoscimento per le risposte “Non lo so”, e i modelli si comportano in modo diverso su questi benchmark.
La fase di post-addestramento, in cui i modelli vengono perfezionati tramite apprendimento per rinforzo e altre tecniche, dovrebbe ridurre le allucinazioni. Tuttavia, la ricerca mostra che l’apprendimento per rinforzo può in realtà spingere i modelli nella direzione sbagliata. Durante il post-addestramento, i modelli vengono tipicamente premiati per essere utili, decisi e sicuri. Queste sono qualità desiderabili in molti contesti, ma possono andare a scapito dell’accuratezza e della calibrazione. La calibrazione si riferisce all’allineamento tra la fiducia dichiarata da un modello e la sua reale accuratezza. Un modello ben calibrato che dichiara il 70% di fiducia dovrebbe avere ragione circa il 70% delle volte. Un modello che dichiara l’80% di fiducia dovrebbe essere corretto nell’80% dei casi.
Cosa succede durante l’apprendimento per rinforzo è che questa calibrazione si rompe. Un modello di base potrebbe essere ragionevolmente ben calibrato, con livelli di fiducia che corrispondono approssimativamente all’accuratezza reale. Ma dopo il rinforzo, il modello diventa troppo sicuro. Potrebbe dichiarare l’80% di fiducia pur avendo ragione solo il 45% delle volte. Questo perché l’apprendimento per rinforzo spinge il modello a essere più utile e deciso, il che si traduce nell’essere più sicuro di quanto dovrebbe. Il modello apprende che esprimere incertezza viene penalizzato, mentre fornire risposte sicure—anche se a volte sbagliate—viene premiato. Questo è un problema fondamentale di come addestriamo attualmente i modelli linguistici, e servono cambiamenti sistemici per correggerlo.
Il problema delle allucinazioni non è solo una questione di addestramento; è anche una questione di valutazione. I benchmark utilizzati per misurare le performance dei modelli linguistici spesso rafforzano proprio quei comportamenti che portano alle allucinazioni. Se osserviamo i principali benchmark del settore—GPQA, MMLU Pro, Wildbench, Math e SWEBench—quasi tutti usano una valutazione binaria. Danno il punteggio pieno per una risposta corretta o nessun punto per una risposta errata. Ancora più importante, di solito non premiano l’astensione o il dire “Non lo so”. Questo crea una disallineamento tra ciò che misuriamo e ciò che realmente vogliamo che i modelli facciano.
L’unico grande benchmark che non usa una valutazione puramente binaria e riconosce le risposte “Non lo so” è WildBench. Questa differenza è importante perché significa che i modelli vengono valutati con una metrica che non penalizza l’incertezza. Quando i modelli vengono addestrati e valutati su metriche che premiano le risposte sicure rispetto all’onesta incertezza, imparano a dare priorità alla sicurezza rispetto all’accuratezza. Questo è un problema sistemico che riguarda l’intero settore. I creatori di benchmark, sviluppatori di modelli e ricercatori contribuiscono tutti a questo problema usando metriche di valutazione che non riconoscono adeguatamente l’astensione. La soluzione richiede cambiamenti coordinati in tutto il settore per aggiornare benchmark e pratiche di valutazione.
Quando si costruiscono flussi di lavoro e sistemi di automazione basati su AI, l’affidabilità è fondamentale. FlowHunt riconosce che le allucinazioni e l’incertezza del modello sono sfide critiche che vanno affrontate a livello di sistema. Invece di affidarsi all’output di un singolo modello, l’architettura di FlowHunt incorpora più livelli di verifica e soglie di fiducia. Questo approccio riflette i risultati della ricerca secondo cui la verifica è più semplice e affidabile della generazione. Implementando sistemi in cui agenti AI esaminano e verificano gli output degli altri, FlowHunt riduce la probabilità che le allucinazioni si propaghino nei flussi di lavoro automatizzati.
Inoltre, la piattaforma FlowHunt consente agli utenti di impostare soglie di fiducia per diversi tipi di attività. Per la generazione di contenuti, la ricerca e l’analisi, gli utenti possono specificare che il sistema proceda solo con output che superano un certo livello di fiducia, oppure che segnali gli output incerti per la revisione umana. Questo è in linea con il suggerimento della ricerca secondo cui i modelli dovrebbero astenersi dal rispondere quando la loro fiducia scende sotto una certa soglia. Integrando questi principi, FlowHunt aiuta le organizzazioni a creare flussi di lavoro AI più affidabili che non massimizzano solo la quantità di output, ma soprattutto la loro affidabilità.
La ricerca di OpenAI propone una soluzione semplice ma potente al problema delle allucinazioni: implementare soglie di fiducia e premiare i modelli che si astengono quando sono incerti. Invece di cercare di far sì che i modelli forniscano sempre una risposta, la soluzione è rendere accettabile—e persino premiato—che i modelli dicano “Non lo so”. Questo richiede cambiamenti a più livelli: nell’addestramento dei modelli, nella loro valutazione e nella progettazione dei sistemi che li utilizzano.
L’implementazione pratica è elegante nella sua semplicità. Durante il post-addestramento, i modelli possono essere addestrati a fornire risposte solo quando la loro fiducia supera una certa soglia, ad esempio il 75%. Sotto tale soglia, dovrebbero rispondere con “Non lo so” o un’espressione simile di incertezza. Questo può essere rafforzato tramite i segnali di ricompensa nell’apprendimento per rinforzo. Invece dell’attuale sistema binario che premia le risposte giuste e penalizza quelle sbagliate, un sistema migliore sarebbe: +1 per una risposta corretta, 0 per “Non lo so” e -1 per una risposta errata. Questo crea gli incentivi corretti: le risposte giuste sono ancora premiate, ma quelle sbagliate sono penalizzate più severamente dell’astensione, che rimane neutra.
Importante, questo approccio non richiede dati o modelli perfetti. Funziona perché allinea gli incentivi del modello con ciò che realmente vogliamo: informazioni affidabili quando il modello è sicuro e onesta incertezza quando non lo è. Il modello impara che la strategia migliore non è bluffare o allucinare, ma fornire informazioni accurate quando possibile e ammettere l’incertezza quando necessario. Questo è un comportamento più onesto e, in definitiva, più utile rispetto all’attuale approccio di indovinare con sicurezza.
Affinché questa soluzione funzioni su larga scala, i benchmark devono essere aggiornati per riconoscere l’astensione. Se i modelli vengono addestrati ad astenersi quando sono incerti ma poi valutati su benchmark che penalizzano l’astensione, impareranno a ignorare l’addestramento e a tornare al bluff sicuro. Ecco perché la riforma dei benchmark è essenziale. I creatori di benchmark dovrebbero implementare sistemi di punteggio che premiano le risposte corrette, assegnano credito neutro o positivo alle risposte “Non lo so” e penalizzano quelle errate. Potrebbe essere: +1 per la risposta corretta, 0 per “Non lo so” e -1 per la risposta errata.
La buona notizia è che questo cambiamento sta già iniziando ad avvenire. Secondo alcune fonti, GPT-5 sta iniziando a implementare questo comportamento. Quando gli vengono poste domande su cui è incerto, a volte risponde con “Non lo so” dopo aver riflettuto, invece di tentare una risposta sicura ma potenzialmente errata. Questo rappresenta un cambiamento nel modo in cui i modelli vengono addestrati e in quali comportamenti vengono premiati. Man mano che più modelli adotteranno questo approccio e più benchmark saranno aggiornati per premiare l’astensione, dovremmo vedere una riduzione significativa delle allucinazioni su tutta la linea.
Le implicazioni di questa ricerca vanno ben oltre il semplice interesse accademico. Nelle applicazioni pratiche, le allucinazioni hanno conseguenze reali. Un modello che fornisce con sicurezza informazioni mediche, legali o finanziarie errate può causare gravi danni. Capire che le allucinazioni non sono inevitabili ma il risultato di precise pratiche di addestramento e valutazione consente all’industria di apportare cambiamenti mirati per ridurle. Questa ricerca fornisce una vera e propria roadmap per questi cambiamenti.
La risposta dei principali laboratori di IA è stata incoraggiante. Anthropic, nella propria ricerca sul funzionamento interno dei modelli linguistici, ha identificato problemi simili e proposto soluzioni complementari. Hanno notato che i modelli hanno una sorta di “inerzia” che li spinge a fornire risposte complete e sicure anche quando sono incerti. Questa inerzia è insita nell’architettura e nel processo di addestramento del modello. Capendo ciò, i ricercatori possono progettare interventi che contrastino questa tendenza e favoriscano una maggiore onestà nell’esprimere l’incertezza. Il fatto che la ricerca di diversi laboratori converga su questo tema suggerisce che il settore si sta muovendo verso un consenso sia sul problema che sulla soluzione.
Scopri come FlowHunt automatizza i tuoi flussi di lavoro AI e SEO — dalla ricerca e generazione di contenuti fino alla pubblicazione e all’analisi — tutto in un’unica piattaforma. Costruisci automazioni AI affidabili e consapevoli delle allucinazioni con calibrazione della fiducia integrata.
Oltre a implementare le soglie di fiducia, la ricerca introduce il concetto di calibrazione comportamentale. Questo va oltre il semplice controllo delle distribuzioni di probabilità degli output del modello. La calibrazione comportamentale consiste nel verificare se la fiducia dichiarata da un modello corrisponde davvero alla sua accuratezza. A una fiducia del 50%, il modello risponde correttamente il 50% delle volte? Al 90% di fiducia, risponde giusto il 90% delle volte? È così che si determina se un modello si comporta in modo onesto e affidabile.
Testare la calibrazione comportamentale richiede un approccio diverso rispetto ai benchmark tradizionali. Invece di misurare solo l’accuratezza complessiva, bisogna misurare l’accuratezza a diversi livelli di fiducia. Questo rivela se un modello è ben calibrato o troppo sicuro di sé. Un modello potrebbe avere un’accuratezza complessiva elevata ma essere mal calibrato, cioè la sua fiducia non corrisponde alle reali performance. Al contrario, un modello potrebbe avere un’accuratezza complessiva più bassa ma essere ben calibrato, il che significa che puoi fidarti delle sue stime di fiducia. Per molte applicazioni, un modello ben calibrato con accuratezza più bassa è effettivamente più utile di uno troppo sicuro con accuratezza più alta, perché sai quando fidarti e quando ricorrere a informazioni aggiuntive o al controllo umano.
Risolvere il problema delle allucinazioni richiede cambiamenti a più livelli della pipeline di sviluppo AI. Innanzitutto, gli sviluppatori di modelli devono implementare soglie di fiducia e premiare l’astensione durante l’addestramento e il post-addestramento. In secondo luogo, i creatori di benchmark devono aggiornare le metriche di valutazione per riconoscere le risposte “Non lo so” e misurare la calibrazione comportamentale. In terzo luogo, le organizzazioni che adottano sistemi AI devono progettare i flussi di lavoro per includere fasi di verifica e revisione umana per gli output incerti. In quarto luogo, gli utenti dei sistemi AI devono capire che l’espressione dell’incertezza da parte dei modelli è una caratteristica e non un difetto, e va valorizzata.
Non è un problema che può essere risolto da un singolo attore dell’ecosistema. Serve coordinamento e allineamento tra sviluppatori di modelli, ricercatori, creatori di benchmark e utenti. La buona notizia è che la soluzione è relativamente semplice e non richiede rivoluzioni nei fondamenti dell’architettura AI o nei metodi di addestramento. Si tratta soprattutto di allineare incentivi e pratiche di valutazione con ciò che realmente vogliamo: sistemi AI affidabili e onesti che conoscono i limiti delle proprie conoscenze.
Man mano che il settore adotterà queste pratiche, dovremmo assistere a un miglioramento significativo nell’affidabilità e nella fiducia nei modelli linguistici.
La ricerca di OpenAI sul perché i modelli linguistici allucinano rivela che il problema non è inevitabile, ma è il risultato di pratiche precise di addestramento e valutazione che incentivano l’indovinare sicuro invece dell’onesta incertezza. Le allucinazioni nascono perché i modelli vengono addestrati e valutati su metriche che premiano le risposte corrette e penalizzano allo stesso modo sia le risposte errate che l’astensione, creando l’incentivo a bluffare quando sono incerti. La soluzione consiste nell’implementare soglie di fiducia, premiare i modelli che dicono “Non lo so” e aggiornare i benchmark per riconoscere l’astensione. Questo cambiamento sistemico, già visibile in modelli come GPT-5, rappresenta un cambiamento fondamentale nell’approccio all’affidabilità dell’IA. Allineando gli incentivi dei modelli con ciò che realmente vogliamo—informazioni affidabili quando sono sicuri e onesta incertezza quando non lo sono—possiamo ridurre significativamente le allucinazioni e costruire sistemi AI più affidabili.
Un'allucinazione si verifica quando un modello linguistico genera informazioni plausibili ma fattualmente errate con grande sicurezza. Ad esempio, un modello potrebbe dichiarare con certezza una data di nascita sbagliata o inventare fatti mai presenti nei dati di addestramento. Queste allucinazioni sono particolarmente problematiche perché il modello le presenta come vere, rendendo difficile per gli utenti identificarle come errori.
I modelli linguistici sono addestrati utilizzando metriche di valutazione che premiano le risposte corrette e penalizzano quelle errate, ma solitamente non assegnano punti per l’astensione o per risposte come 'Non lo so.' Questo crea una struttura di incentivi simile agli esami a scelta multipla, dove indovinare dà il 25% di possibilità di avere ragione, mentre non rispondere garantisce zero punti. I modelli imparano che dare una risposta sicura e specifica—anche se errata—è meglio che ammettere incertezza.
Secondo la ricerca di OpenAI, le allucinazioni sono inevitabili nei modelli di base ma possono essere notevolmente ridotte attraverso un corretto post-addestramento e una progettazione adeguata della valutazione. La soluzione consiste nell’implementare soglie di fiducia, premiare i modelli che si astengono quando sono incerti e aggiornare i benchmark per riconoscere le risposte 'Non lo so.' Tuttavia, l’eliminazione completa richiede cambiamenti sistemici nel modo in cui i modelli vengono addestrati e valutati.
L’apprendimento per rinforzo durante il post-addestramento può in realtà spingere i modelli verso previsioni più sicure ma meno accurate. La ricerca mostra che mentre i modelli di base possono essere ben calibrati (la loro fiducia corrisponde all’accuratezza), l’apprendimento per rinforzo spesso li rende troppo sicuri. Un modello potrebbe dichiarare l’80% di fiducia pur avendo ragione solo il 45% delle volte, portandolo ad allontanarsi dall’esprimere onestamente l’incertezza in favore di risposte più decise ma meno affidabili.
I benchmark attuali come GPQA, MMLU Pro e Math usano sistemi di valutazione binari che non premiano i modelli per aver detto 'Non lo so.' Questo rispecchia il problema dell’addestramento: i modelli imparano che la strategia migliore è sempre dare una risposta invece che ammettere incertezza. I benchmark come WildBench che invece riconoscono l’astensione mostrano risultati migliori, suggerendo che aggiornare le metriche di valutazione è fondamentale per ridurre le allucinazioni.
Arshia è una AI Workflow Engineer presso FlowHunt. Con una formazione in informatica e una passione per l'IA, è specializzata nella creazione di workflow efficienti che integrano strumenti di intelligenza artificiale nelle attività quotidiane, migliorando produttività e creatività.
Costruisci automazioni affidabili basate su AI con calibrazione della fiducia e gestione intelligente degli errori integrate.
Un'allucinazione nei modelli linguistici si verifica quando l'IA genera un testo che sembra plausibile ma è in realtà errato o inventato. Scopri le cause, i met...
Cosa sono le allucinazioni nell’IA, perché si verificano e come evitarle? Scopri come mantenere accurate le risposte del tuo chatbot AI con strategie pratiche e...
Scopri come il Thinking Machines Lab di Mira Murati sta risolvendo il problema della non-determinazione nei grandi modelli linguistici, consentendo output IA ri...
Consenso Cookie
Usiamo i cookie per migliorare la tua esperienza di navigazione e analizzare il nostro traffico. See our privacy policy.


