Por que os Modelos de Linguagem Alucinam? Pesquisa da OpenAI

Por que os Modelos de Linguagem Alucinam? Pesquisa da OpenAI

AI Language Models Machine Learning Research

Introdução

Modelos de linguagem estão cada vez mais poderosos, mas ainda são propensos a uma falha crítica: alucinações. São afirmações plausíveis e confiantes, mas factualmente incorretas. O recente artigo de pesquisa da OpenAI, “Why Language Models Hallucinate”, traz insights inovadores sobre as causas desse fenômeno e apresenta soluções práticas. Em vez de serem bugs aleatórios ou falhas inevitáveis, as alucinações estão, na verdade, embutidas na forma como os modelos modernos são construídos e treinados. Compreender essa pesquisa é essencial para quem trabalha com sistemas de IA, pois revela que alucinações não são apenas um problema técnico – são uma questão sistêmica, enraizada em como treinamos, avaliamos e incentivamos esses modelos. Este artigo destrincha as principais descobertas do estudo e explora o que elas significam para o futuro de sistemas de IA realmente confiáveis.

Thumbnail for Did OpenAI Just Solve Hallucinations?

Entendendo as Alucinações em Modelos de Linguagem: O Problema da Confiança

Sabe-se que modelos de linguagem produzem o que pesquisadores chamam de “falsidades plausíveis e excessivamente confiantes” — afirmações que soam razoáveis e são entregues com certeza, mas estão erradas. Isso é fundamentalmente diferente de cometer erros simples. Um modelo que diz “não tenho certeza” quando está inseguro se comporta de modo diferente daquele que afirma algo falso com confiança. O problema é que, quando um modelo erra com convicção, torna-se extremamente difícil confiar nele em qualquer contexto. Os usuários não conseguem distinguir facilmente entre informações corretas e alucinadas, o que compromete a utilidade do sistema como um todo. Isso é especialmente problemático em aplicações críticas como diagnóstico médico, pesquisa jurídica ou análise financeira, onde informações erradas apresentadas com confiança podem gerar consequências graves. O desafio não é apenas que os modelos às vezes erram — é que erram parecendo absolutamente certos.

A raiz do problema está em entender onde as alucinações surgem no processo de desenvolvimento do modelo. Embora seja tentador achar que vêm principalmente de erros nos dados de treinamento, a realidade é mais sutil e fundamental. Mesmo que fosse possível criar um conjunto de dados perfeitamente limpo, sem erros ou imprecisões — o que é teoricamente impossível — as alucinações ainda ocorreriam. Isso porque o problema não está apenas no que o modelo aprende, mas em como ele é treinado para se comportar e quais objetivos é otimizado para atingir. O próprio processo de treinamento, através dos mecanismos de feedback e estruturas de recompensa usados no desenvolvimento, incentiva ativamente o comportamento que leva às alucinações.

O Problema dos Dados de Treinamento: Por Que Dados Perfeitos Não Bastam

Quando modelos de linguagem são treinados, aprendem a partir de enormes volumes de texto que inevitavelmente contêm erros, imprecisões e meias-verdades. Um modelo treinado com Wikipedia, livros, artigos e conteúdo da web absorve não só informações corretas, mas também enganos, equívocos e afirmações falsas desses materiais. Se 20% dos fatos sobre aniversários aparecem apenas uma vez nos dados, o modelo irá alucinar em cerca de 20% das consultas sobre aniversários, porque não aprendeu esses fatos de forma confiável. Essa parece ser uma fonte óbvia de alucinações, e é um fator, mas não o principal culpado.

O problema mais relevante é que, mesmo com dados de treinamento livres de erros, os objetivos otimizados durante o treinamento ainda levariam a alucinações. Esse é um insight crucial que muda nossa visão sobre o problema. Os objetivos de treinamento — a forma como os modelos são informados se estão produzindo boas ou más respostas — são fundamentalmente desalinhados com a meta de reduzir alucinações. Durante o treinamento, modelos aprendem a otimizar para métricas e sinais de recompensa específicos, que frequentemente incentivam palpites confiantes em vez de incerteza honesta. O modelo aprende que dar uma resposta específica e confiante é mais recompensado do que admitir que não sabe. Isso cria uma estrutura de incentivos perversa, tornando a alucinação uma estratégia racional do ponto de vista do modelo.

A Assimetria Entre Geração e Verificação

Um dos principais insights da pesquisa da OpenAI é que gerar respostas válidas é significativamente mais difícil do que verificar se uma resposta é válida. Essa assimetria é fundamental para entender por que as alucinações acontecem. Quando você é solicitado a verificar uma resposta — determinar se uma afirmação é verdadeira ou falsa — está lidando com uma tarefa muito mais simples. Pode checar fatos, buscar contradições e avaliar a consistência. Mas ao ser pedido para gerar uma resposta do zero, é necessário não só produzir a resposta correta, mas evitar todas as erradas, que podem ser ilimitadas. Na maioria das perguntas, há muito mais respostas erradas do que corretas, o que torna a tarefa de geração inerentemente mais difícil do que a de verificação.

Essa assimetria explica por que múltiplos agentes de IA trabalhando juntos normalmente produzem melhores resultados do que um agente sozinho. Quando um agente revisa a saída de outro, está realizando uma tarefa de verificação, que é mais fácil e confiável do que gerar. Isso também explica por que, ao dizer para um modelo de linguagem “Não, isso está errado. Corrija.”, ele frequentemente responde com uma resposta corrigida. O modelo entra em modo de verificação — checa se a resposta anterior estava correta e gera uma alternativa — em vez de gerar do zero. Esse insight tem profundas implicações para o design de sistemas de IA e formas de melhorar sua confiabilidade.

A Analogia com Provas de Múltipla Escolha: Por Que os Modelos Preferem Arriscar Palpites

O artigo traz uma analogia convincente para explicar por que modelos de linguagem alucinam: o comportamento espelha o de estudantes em provas de múltipla escolha quando não têm certeza. Em uma prova com quatro opções, se você não sabe a resposta, tem 25% de chance de acertar chutando. Mas se se abstém — deixa em branco ou diz “não sei” — garante zero pontos. Num sistema de pontuação binário, que dá um ponto para acerto e zero para abstenção ou “não sei”, arriscar palpites maximiza a pontuação esperada. É exatamente isso que os modelos de linguagem aprendem durante o treinamento.

Quando estão inseguros, aprendem a “blefar” — a dar uma resposta específica e confiante em vez de admitir incerteza. Importante notar que esses blefes tendem a ser bem específicos, não vagos. Um modelo dirá “30 de setembro” em vez de “em algum momento do outono” ao ser perguntado sobre uma data que não sabe. Essa especificidade é, em si, uma forma de alucinação, pois transmite confiança falsa. O modelo aprendeu que respostas específicas e confiantes são mais recompensadas do que respostas hesitantes ou incertas. Esse comportamento é reforçado pelas métricas usadas para avaliar desempenho. A maioria dos benchmarks, como GPQA, MMLU Pro e Math, usa sistemas binários de pontuação semelhantes a provas humanas tradicionais. Recompensam respostas corretas, penalizam as erradas, mas não recompensam abstenção ou expressão de incerteza. Só benchmarks como o WildBench incluem crédito para respostas “não sei”, e, notavelmente, os modelos se comportam de forma diferente nesses benchmarks.

Como o Aprendizado por Reforço Amplifica as Alucinações

A fase de pós-treinamento, em que modelos são refinados com aprendizado por reforço e outras técnicas, deveria reduzir alucinações. Porém, a pesquisa mostra que o aprendizado por reforço pode empurrar os modelos na direção errada. Durante o pós-treinamento, modelos são geralmente recompensados por serem úteis, decisivos e confiantes. Essas são qualidades desejáveis em muitos contextos, mas podem vir com custo de precisão e calibração. Calibração se refere ao alinhamento entre a confiança de um modelo e sua precisão real. Um modelo bem calibrado, ao afirmar 70% de confiança, deve acertar cerca de 70% das vezes. Um modelo que afirma 80%, deve acertar 80%.

O que acontece com o aprendizado por reforço é que essa calibração se perde. Um modelo base pode ser razoavelmente bem calibrado, com níveis de confiança próximos das taxas reais de acerto. Mas, após o reforço, o modelo se torna excessivamente confiante. Pode afirmar 80% de confiança, mas acertar só 45% das vezes. Isso porque o aprendizado por reforço o incentiva a ser mais útil e decisivo, o que se traduz em mais confiança do que deveria ter. O modelo aprende que expressar incerteza é penalizado, enquanto respostas confiantes — mesmo se erradas — são recompensadas. Esse é um problema fundamental de como treinamos modelos de linguagem atualmente, e corrigi-lo exige mudanças sistêmicas.

O Papel das Métricas de Avaliação na Perpetuação das Alucinações

O problema das alucinações não é só uma questão de treinamento; é também de avaliação. Os benchmarks usados para medir o desempenho frequentemente reforçam justamente os comportamentos que levam às alucinações. Ao analisar os principais benchmarks da área — GPQA, MMLU Pro, Wildbench, Math e SWEBench — quase todos usam pontuação binária. Ou dão crédito total para resposta correta, ou nenhum para errada. E, mais importante, normalmente não dão crédito por abstenção ou por dizer “não sei”. Isso gera um desalinhamento entre o que estamos medindo e o que realmente queremos dos modelos.

O único benchmark importante que não usa pontuação puramente binária e credita respostas “não sei” é o WildBench. Essa diferença é significativa porque significa que os modelos são avaliados por uma métrica que não penaliza a incerteza. Quando são treinados e avaliados em métricas que recompensam respostas confiantes em detrimento da incerteza honesta, os modelos aprendem a priorizar confiança em vez de precisão. Isso é um problema sistêmico que afeta todo o campo. Criadores de benchmarks, desenvolvedores de modelos e pesquisadores contribuem para isso ao usar métricas que não valorizam adequadamente a abstenção. A solução exige mudanças coordenadas no setor para atualizar benchmarks e práticas de avaliação.

A Abordagem FlowHunt para Automação Confiável com IA

Ao construir fluxos de trabalho e sistemas de automação movidos por IA, a confiabilidade é fundamental. O FlowHunt reconhece que alucinações e incerteza do modelo são desafios críticos que devem ser abordados no nível do sistema. Em vez de depender da saída de um único modelo, a arquitetura do FlowHunt incorpora múltiplas camadas de verificação e limiares de confiança. Essa abordagem reflete a constatação da pesquisa de que a verificação é mais fácil e confiável do que a geração. Ao implementar sistemas onde agentes de IA revisam e verificam as saídas uns dos outros, o FlowHunt reduz a chance de alucinações propagarem-se nos fluxos automatizados.

Além disso, a plataforma FlowHunt permite que usuários definam limiares de confiança para diferentes tipos de tarefas. Para geração de conteúdo, pesquisa e análise, é possível especificar que o sistema só prossiga com saídas que atinjam determinado nível de confiança, ou então sinalize resultados incertos para revisão humana. Isso está alinhado com a recomendação de que modelos devem se abster de responder quando a confiança fica abaixo de certo patamar. Incorporando esses princípios à plataforma, o FlowHunt ajuda organizações a criar fluxos de IA mais confiáveis, que não só maximizam a produção, mas a produção em que se pode confiar.

A Solução: Limiares de Confiança e Recompensa à Abstenção

A pesquisa da OpenAI propõe uma solução simples, porém poderosa, para o problema das alucinações: implementar limiares de confiança e recompensar modelos por absterem-se quando inseguros. Em vez de tentar obrigar os modelos a sempre fornecer uma resposta, a solução é tornar aceitável — e até recompensado — que digam “não sei”. Isso exige mudanças em vários níveis: no treinamento, na avaliação e no design dos sistemas que os utilizam.

A implementação prática é elegante em sua simplicidade. Durante o pós-treinamento, os modelos podem ser treinados para só responder quando a confiança ultrapassar certo limiar, como 75%. Abaixo disso, devem responder com “não sei” ou expressão similar de incerteza. Isso pode ser reforçado pelos sinais de recompensa no aprendizado por reforço. Em vez do sistema binário atual, que recompensa acertos e penaliza erros, um sistema melhor seria: +1 para resposta correta, 0 para “não sei” e -1 para resposta errada. Assim, os incentivos ficam alinhados: acertos são recompensados, erros penalizados mais fortemente do que a abstenção, que é neutra.

Importante notar que essa abordagem não exige dados ou modelos perfeitos. Funciona porque alinha os incentivos do modelo com o que realmente queremos: informação confiável quando houver confiança e incerteza honesta quando não houver. O modelo aprende que a melhor estratégia não é blefar ou alucinar, mas fornecer informações corretas quando possível e admitir incerteza quando necessário. Esse comportamento é mais honesto e, no fim das contas, mais útil do que o atual, baseado em palpites confiantes.

Reforma dos Benchmarks: A Peça que Faltava

Para que essa solução funcione em larga escala, os benchmarks precisam ser atualizados para valorizar a abstenção. Se modelos forem treinados para abster-se quando inseguros, mas forem avaliados em benchmarks que penalizam a abstenção, aprenderão a ignorar o treinamento e voltar a arriscar palpites. Por isso, a reforma dos benchmarks é essencial. Criadores de benchmarks devem adotar sistemas de pontuação que recompensem acertos, deem crédito neutro ou positivo para “não sei” e penalizem erros. Isso pode ser: +1 para correto, 0 para “não sei” e -1 para incorreto.

A boa notícia é que essa mudança já está começando a acontecer. O GPT-5, segundo relatos, está começando a implementar esse comportamento. Quando questionado sobre temas em que está inseguro, o GPT-5 às vezes responde com “não sei” após analisar o problema, em vez de tentar dar uma resposta confiante, porém possivelmente errada. Isso representa uma mudança em como os modelos estão sendo treinados e quais comportamentos são recompensados. À medida que mais modelos adotam essa abordagem e mais benchmarks são atualizados para considerar a abstenção, devemos ver uma redução significativa das alucinações em toda a área.

Implicações no Mundo Real e Resposta da Indústria

As implicações dessa pesquisa vão muito além do interesse acadêmico. Em aplicações práticas, alucinações têm consequências reais. Um modelo que fornece informações médicas, jurídicas ou financeiras incorretas com confiança pode causar danos sérios. Ao entender que alucinações não são inevitáveis, mas resultado de práticas específicas de treinamento e avaliação, o setor pode realizar mudanças direcionadas para reduzi-las. Esta pesquisa traz um roteiro claro para essas mudanças.

A resposta dos principais laboratórios de IA tem sido positiva. A Anthropic, em sua própria pesquisa sobre o funcionamento interno dos modelos de linguagem, identificou questões semelhantes e propôs soluções complementares. Eles notaram que os modelos têm uma espécie de “momentum” para fornecer respostas completas e confiantes, mesmo quando inseguros. Esse impulso está embutido na arquitetura e no processo de treinamento. Ao entender isso, pesquisadores podem projetar intervenções que contraponham esse momentum e incentivem maior honestidade na expressão da incerteza. A convergência de pesquisas de vários laboratórios sobre o tema indica que o campo caminha para um consenso tanto sobre o problema quanto sobre a solução.

Impulsione Seus Fluxos com o FlowHunt

Veja como o FlowHunt automatiza seus fluxos de conteúdo em IA e SEO — da pesquisa e geração à publicação e análise — tudo em um só lugar. Construa automação de IA confiável e consciente de alucinações, com calibração de confiança integrada.

Calibração Comportamental: Medindo o que Realmente Importa

Mais do que implementar limiares de confiança, a pesquisa introduz o conceito de calibração comportamental. Isso vai além de apenas checar as distribuições de probabilidade das saídas. A calibração comportamental envolve testar se a confiança declarada pelo modelo realmente corresponde à sua precisão. Com 50% de confiança, ele acerta 50% das vezes? Com 90%, acerta 90%? É assim que se determina se um modelo é honesto e confiável.

Testar calibração comportamental exige uma abordagem diferente das avaliações tradicionais. Em vez de medir apenas a acurácia geral, é preciso medir a precisão em diferentes níveis de confiança. Isso revela se um modelo é bem calibrado ou excessivamente confiante. Um modelo pode ter alta acurácia geral, mas ser mal calibrado, ou seja, sua confiança não corresponde ao desempenho real. Por outro lado, pode ter menor acurácia, mas ser bem calibrado, permitindo confiar nas estimativas de confiança. Em muitas aplicações, um modelo bem calibrado com menor acurácia é mais útil do que um superconfiante com alta acurácia, pois você sabe quando confiar nele e quando buscar informação adicional ou revisão humana.

O Caminho à Frente: Mudança Sistêmica é Necessária

Resolver o problema das alucinações exige mudanças em vários níveis do ciclo de desenvolvimento de IA. Primeiro, desenvolvedores precisam implementar limiares de confiança e recompensar a abstenção durante o treinamento e pós-treinamento. Segundo, criadores de benchmarks devem atualizar suas métricas para considerar respostas “não sei” e medir calibração comportamental. Terceiro, organizações que implantam sistemas de IA devem desenhar fluxos de trabalho com etapas de verificação e revisão humana para saídas incertas. Quarto, usuários de IA devem entender que a expressão de incerteza pelos modelos é uma característica, não um defeito, e deve ser valorizada.

Esse não é um problema que pode ser resolvido por um ator isolado no ecossistema. Exige coordenação e alinhamento entre desenvolvedores, pesquisadores, criadores de benchmarks e usuários. A boa notícia é que a solução é relativamente simples e não requer avanços fundamentais na arquitetura ou métodos de treinamento em IA. Trata-se, principalmente, de alinhar incentivos e práticas de avaliação com o que realmente queremos: sistemas de IA confiáveis e honestos, que conhecem os limites do seu próprio conhecimento.

À medida que o setor adota essas práticas, devemos ver um avanço significativo na confiabilidade e na confiança nos modelos de linguagem.

Conclusão

A pesquisa da OpenAI sobre por que modelos de linguagem alucinam revela que o problema não é inevitável, mas resultado de práticas específicas de treinamento e avaliação que incentivam palpites confiantes em vez de incerteza honesta. As alucinações surgem porque os modelos são treinados e avaliados em métricas que recompensam respostas corretas e penalizam tanto as erradas quanto a abstenção igualmente, criando um incentivo para blefar quando não têm certeza. A solução envolve implementar limiares de confiança, recompensar os modelos por dizerem “não sei” e atualizar os benchmarks para valorizar a abstenção. Essa mudança sistêmica, já começando a aparecer em modelos como o GPT-5, representa uma transformação fundamental na abordagem da confiabilidade em IA. Ao alinhar os incentivos dos modelos com o que realmente queremos — informação confiável quando há confiança e incerteza honesta quando não — podemos reduzir significativamente as alucinações e construir sistemas de IA mais confiáveis.

Perguntas frequentes

O que exatamente é uma alucinação em modelos de linguagem?

Uma alucinação ocorre quando um modelo de linguagem gera informações que parecem plausíveis, mas são incorretas, com alta confiança. Por exemplo, um modelo pode afirmar com convicção uma data de nascimento errada ou inventar fatos que nunca estiveram em seus dados de treinamento. Essas alucinações são especialmente problemáticas porque o modelo as apresenta como se fossem verdadeiras, dificultando para os usuários identificarem como erros.

Por que os modelos de linguagem preferem arriscar um palpite a dizer 'Não sei'?

Os modelos de linguagem são treinados com métricas que recompensam respostas corretas e penalizam as incorretas, mas geralmente não dão pontos por abstenção ou por dizer 'não sei'. Isso cria uma estrutura de incentivos parecida com provas de múltipla escolha, onde arriscar um palpite tem 25% de chance de acerto, enquanto não responder garante zero pontos. Os modelos aprendem que dar uma resposta confiante e específica – mesmo que errada – pontua melhor do que admitir incerteza.

As alucinações podem ser completamente eliminadas?

Segundo a pesquisa da OpenAI, as alucinações são inevitáveis para modelos base, mas podem ser significativamente reduzidas com pós-treinamento e avaliação adequados. A solução envolve implementar limiares de confiança, recompensar os modelos por absterem-se quando inseguros e atualizar os benchmarks para considerar respostas do tipo 'não sei'. Porém, a eliminação completa exige mudanças sistêmicas em como os modelos são treinados e avaliados.

Como o aprendizado por reforço contribui para as alucinações?

O aprendizado por reforço durante o pós-treinamento pode, na verdade, empurrar os modelos para previsões mais confiantes e menos precisas. A pesquisa mostra que, enquanto modelos base podem ser bem calibrados (a confiança corresponde à precisão), o aprendizado por reforço frequentemente os torna excessivamente confiantes. Um modelo pode afirmar 80% de confiança, mas estar correto só 45% das vezes, afastando-o da expressão honesta de incerteza para saídas mais decisivas, porém menos confiáveis.

Qual o papel dos benchmarks de avaliação nas alucinações?

Os benchmarks atuais como GPQA, MMLU Pro e Math usam sistemas binários de pontuação que não recompensam os modelos por dizerem 'não sei'. Isso reflete o problema do treinamento – os modelos aprendem que a melhor estratégia é sempre dar uma resposta em vez de admitir incerteza. Benchmarks como WildBench, que consideram abstenção, mostram melhores resultados, sugerindo que atualizar as métricas de avaliação é crucial para reduzir alucinações.

Arshia é Engenheira de Fluxos de Trabalho de IA na FlowHunt. Com formação em ciência da computação e paixão por IA, ela se especializa em criar fluxos de trabalho eficientes que integram ferramentas de IA em tarefas do dia a dia, aumentando a produtividade e a criatividade.

Arshia Kahani
Arshia Kahani
Engenheira de Fluxos de Trabalho de IA

Otimize Seus Fluxos de Trabalho de IA com o FlowHunt

Construa automação confiável com IA, com calibração de confiança e tratamento inteligente de erros integrados.

Saiba mais

Alucinação
Alucinação

Alucinação

Uma alucinação em modelos de linguagem ocorre quando a IA gera um texto que parece plausível, mas é na verdade incorreto ou fabricado. Saiba mais sobre causas, ...

3 min de leitura
AI Hallucination +3
Compreendendo e Prevenindo Alucinações em Chatbots de IA
Compreendendo e Prevenindo Alucinações em Chatbots de IA

Compreendendo e Prevenindo Alucinações em Chatbots de IA

O que são alucinações em IA, por que acontecem e como evitá-las? Aprenda a manter as respostas do seu chatbot de IA precisas com estratégias práticas e centrada...

4 min de leitura
Theory Intermediate