
Alucinación
Una alucinación en los modelos de lenguaje ocurre cuando la IA genera un texto que parece plausible pero que en realidad es incorrecto o inventado. Descubre las...

Descubre cómo la investigación más reciente de OpenAI identifica por qué los modelos de lenguaje alucinan y generan falsedades con confianza. Conoce las causas raíz y las soluciones prácticas para reducir las alucinaciones en los sistemas de IA.
Los modelos de lenguaje se han vuelto cada vez más potentes, pero siguen siendo propensos a un fallo crítico: las alucinaciones. Estas son afirmaciones plausibles y seguras, pero incorrectas en cuanto a los hechos. El reciente artículo de investigación de OpenAI, “Why Language Models Hallucinate”, aporta ideas revolucionarias sobre las causas raíz de este fenómeno y ofrece soluciones prácticas. Lejos de ser errores aleatorios o defectos inevitables, las alucinaciones están realmente integradas en la forma en que se construyen y entrenan los modelos modernos de lenguaje. Comprender esta investigación es esencial para cualquiera que trabaje con sistemas de IA, ya que revela que las alucinaciones no son solo un problema técnico—son un asunto sistémico, arraigado en cómo entrenamos, evaluamos e incentivamos estos modelos. Este artículo desglosa los hallazgos clave del paper y explora lo que significan para el futuro de la fiabilidad en sistemas de IA.
Se sabe que los modelos de lenguaje producen lo que los investigadores llaman “falsedades plausibles sobreconfiadas”: afirmaciones que suenan razonables y se presentan con certeza, pero en realidad son incorrectas. Esto es fundamentalmente diferente de simplemente cometer errores. Un modelo que dice “No estoy seguro” cuando duda se comporta de forma distinta a uno que afirma algo falso con seguridad. El problema es que, cuando un modelo se equivoca con confianza, se vuelve extremadamente difícil confiar en él en cualquier contexto. Los usuarios no pueden distinguir fácilmente entre información precisa y alucinada, lo que socava la utilidad de todo el sistema. Esto es especialmente problemático en aplicaciones críticas como diagnóstico médico, investigación legal o análisis financiero, donde la información incorrecta presentada con confianza puede tener consecuencias graves. El desafío no es solo que los modelos a veces cometan errores, sino que los cometan aparentando total certeza.
La raíz de este problema radica en comprender de dónde surgen las alucinaciones durante el desarrollo del modelo. Aunque es tentador pensar que las alucinaciones provienen principalmente de errores en los datos de entrenamiento, la realidad es más matizada y fundamental. Incluso si se pudiera crear un conjunto de datos de entrenamiento perfectamente limpio, sin errores ni inexactitudes—algo teóricamente imposible—las alucinaciones seguirían ocurriendo. Esto se debe a que el problema no es solo lo que el modelo aprende de sus datos; se trata de cómo se entrena para comportarse y qué objetivos se le pide optimizar. El propio proceso de entrenamiento, a través de los mecanismos de retroalimentación y las estructuras de recompensa, fomenta activamente el comportamiento que conduce a las alucinaciones.
Cuando se entrenan modelos de lenguaje, estos aprenden a partir de enormes corpus de texto que inevitablemente contienen errores, inexactitudes y medias verdades. Un modelo entrenado con Wikipedia, libros, artículos y contenido web absorberá no solo información precisa, sino también los errores, conceptos erróneos y afirmaciones falsas presentes en esas fuentes. Si el 20% de las fechas de cumpleaños aparecen solo una vez en los datos de entrenamiento, el modelo alucinará en aproximadamente el 20% de las consultas relacionadas, porque nunca aprendió esos hechos con la suficiente fiabilidad. Esto parece una fuente obvia de alucinaciones, y lo es, pero no es el principal culpable.
El problema más importante es que, incluso con datos de entrenamiento sin errores, los objetivos optimizados durante el entrenamiento de los modelos de lenguaje seguirían conduciendo a alucinaciones. Este es un punto crucial que cambia nuestra percepción del problema. Los objetivos de entrenamiento—la forma en que se le indica al modelo si está produciendo buenas o malas respuestas—están fundamentalmente desalineados con el objetivo de reducir alucinaciones. Durante el entrenamiento, los modelos aprenden a optimizar ciertas métricas y señales de recompensa, y estas suelen incentivar la adivinanza confiada por encima de la honestidad en la incertidumbre. El modelo aprende que dar una respuesta concreta y segura es más recompensado que admitir que no sabe algo. Esto crea una estructura de incentivos perversa donde alucinar se convierte en una estrategia racional desde la perspectiva del modelo.
Uno de los descubrimientos más importantes de la investigación de OpenAI es que generar respuestas válidas es significativamente más difícil que verificar si una respuesta es válida. Esta asimetría es clave para entender por qué ocurren las alucinaciones. Cuando se te pide verificar una respuesta—determinar si una afirmación es verdadera o falsa—tienes una tarea mucho más sencilla. Puedes comprobar hechos, buscar contradicciones y evaluar la consistencia. Pero cuando se pide generar una respuesta desde cero, no solo debes producir la respuesta correcta, sino también evitar todas las posibles respuestas incorrectas, que pueden ser ilimitadas. Para la mayoría de las preguntas, hay muchas más respuestas erróneas que correctas, lo que hace que la tarea de generación sea inherentemente más difícil que la de verificación.
Esta asimetría explica por qué varios agentes de IA trabajando juntos suelen producir mejores resultados que un solo agente actuando solo. Cuando un agente revisa la salida de otro, está realizando una tarea de verificación, que es más fácil y fiable que la generación. Por eso también los usuarios suelen notar que, cuando le dicen a un modelo de lenguaje “No, eso no está bien. Arréglalo”, el modelo a menudo responde con una respuesta corregida. Ahora el modelo está en modo verificación: comprueba si su respuesta anterior era correcta y genera una alternativa, en lugar de intentar generar la respuesta desde cero. Esta idea tiene profundas implicaciones para el diseño de sistemas de IA y para pensar cómo mejorar su fiabilidad.
El artículo utiliza una analogía convincente para explicar por qué los modelos de lenguaje alucinan: su comportamiento refleja cómo los estudiantes afrontan exámenes de opción múltiple cuando no están seguros. En un test con cuatro opciones, si no sabes la respuesta, tienes un 25% de posibilidades de acertar si adivinas. Pero si te abstienes—si dejas la pregunta en blanco o dices “No lo sé”—tienes asegurado obtener cero puntos. Bajo un sistema de puntuación binario, que otorga un punto por respuesta correcta y cero por respuestas en blanco o de “No lo sé”, adivinar maximiza tu puntuación esperada. Esto es exactamente lo que los modelos de lenguaje aprenden a hacer durante el entrenamiento.
Cuando los modelos dudan, aprenden a “fanfarronear”: a dar una respuesta específica y segura en lugar de admitir incertidumbre. Lo importante es que estos faroles suelen ser muy específicos, no vagos. Un modelo dirá “30 de septiembre” antes que “algún momento en otoño” al preguntarle una fecha que no sabe. Esta especificidad en sí misma es una forma de alucinación, porque transmite una falsa confianza. El modelo ha aprendido que las respuestas concretas y seguras son más recompensadas que las respuestas prudentes o inciertas. Este comportamiento se refuerza con las métricas de evaluación utilizadas para medir el rendimiento. La mayoría de los benchmarks de modelos de lenguaje, como GPQA, MMLU Pro y Math, usan sistemas de calificación binaria que reflejan los exámenes humanos estandarizados. Premian las respuestas correctas y penalizan las incorrectas, pero no recompensan la abstención ni la expresión de incertidumbre. Solo benchmarks como WildBench incluyen puntuación para respuestas de “No lo sé”, y notablemente los modelos se comportan de forma diferente en estos casos.
La fase de post-entrenamiento, donde los modelos se refinan usando aprendizaje por refuerzo y otras técnicas, se supone que debe reducir las alucinaciones. Sin embargo, la investigación muestra que el aprendizaje por refuerzo puede, en realidad, empujar a los modelos en la dirección equivocada. Durante el post-entrenamiento, los modelos suelen ser recompensados por ser útiles, decididos y confiados. Estas son cualidades deseables en muchos contextos, pero pueden ir en detrimento de la precisión y la calibración. La calibración se refiere a la alineación entre la confianza del modelo y su precisión real. Un modelo bien calibrado que afirma un 70% de confianza debería acertar aproximadamente el 70% de las veces. Uno que afirme un 80% de confianza debería acertar el 80% de las veces.
Lo que ocurre durante el aprendizaje por refuerzo es que esta calibración se desajusta. Un modelo base puede estar razonablemente bien calibrado, con niveles de confianza que coinciden con sus tasas de acierto. Pero después del aprendizaje por refuerzo, el modelo se vuelve sobreconfiado. Puede afirmar un 80% de confianza y solo acertar el 45% de las veces. Esto ocurre porque el aprendizaje por refuerzo impulsa al modelo a ser más útil y decisivo, lo que equivale a ser más confiado de lo debido. El modelo aprende que expresar incertidumbre se penaliza, mientras que dar respuestas seguras—aunque sean erróneas—a menudo se recompensa. Este es un problema fundamental en la forma en que entrenamos actualmente los modelos de lenguaje, y requiere cambios sistémicos para solucionarlo.
El problema de las alucinaciones no es solo cuestión de entrenamiento, sino también de evaluación. Los benchmarks utilizados para medir el rendimiento de los modelos suelen reforzar los mismos comportamientos que conducen a las alucinaciones. Cuando se observan los principales benchmarks del sector—GPQA, MMLU Pro, Wildbench, Math y SWEBench—casi todos usan calificación binaria. Dan crédito completo por respuestas correctas o ninguno por respuestas incorrectas. Más importante aún, normalmente no dan crédito por abstenerse o decir “No lo sé”. Esto crea un desalineamiento entre lo que medimos y lo que realmente queremos que hagan los modelos.
El único benchmark importante que no usa una calificación puramente binaria y sí otorga crédito a las respuestas de “No lo sé” es WildBench. Esta diferencia es significativa porque significa que los modelos se evalúan con una métrica que no penaliza la incertidumbre. Cuando los modelos se entrenan y evalúan con métricas que premian respuestas seguras por encima de la honestidad, aprenden a priorizar la confianza sobre la precisión. Este es un problema sistémico que afecta a todo el sector. Los creadores de benchmarks, desarrolladores de modelos e investigadores contribuyen a este problema al usar métricas de evaluación que no dan crédito a la abstención. La solución requiere cambios coordinados en toda la industria para actualizar los benchmarks y las prácticas de evaluación.
A la hora de construir flujos de trabajo y sistemas de automatización impulsados por IA, la fiabilidad es fundamental. FlowHunt reconoce que las alucinaciones y la incertidumbre de los modelos son desafíos críticos que deben abordarse a nivel sistémico. En lugar de depender de la salida de un solo modelo, la arquitectura de FlowHunt incorpora varias capas de verificación y umbrales de confianza. Este enfoque refleja el hallazgo de que la verificación es más sencilla y fiable que la generación. Al implementar sistemas donde agentes de IA revisan y verifican las salidas de otros agentes, FlowHunt reduce la probabilidad de que las alucinaciones se propaguen por los flujos automatizados.
Además, la plataforma de FlowHunt permite a los usuarios establecer umbrales de confianza para distintos tipos de tareas. Para la generación de contenido, investigación y análisis, los usuarios pueden especificar que el sistema solo continúe con salidas que cumplan un cierto nivel de confianza, o bien que marque las respuestas dudosas para revisión humana. Esto se alinea con la recomendación de la investigación de que los modelos deben abstenerse de responder cuando su confianza es baja. Al incorporar estos principios en la plataforma, FlowHunt ayuda a las organizaciones a crear flujos de IA más fiables, que no solo maximizan la producción sino también la confianza en los resultados.
La investigación de OpenAI propone una solución sencilla pero poderosa al problema de las alucinaciones: implementar umbrales de confianza y recompensar a los modelos por abstenerse cuando no están seguros. En lugar de intentar que los modelos siempre den una respuesta, la solución es hacer aceptable—incluso recompensado—que los modelos digan “No lo sé”. Esto requiere cambios en varios niveles: en cómo se entrenan los modelos, en cómo se evalúan y en cómo diseñamos los sistemas que los utilizan.
La implementación práctica es elegante en su sencillez. Durante el post-entrenamiento, los modelos pueden entrenarse para solo dar respuestas cuando su confianza supere un cierto umbral, como el 75%. Por debajo de ese umbral, deberían responder con “No lo sé” o una expresión similar de incertidumbre. Esto puede reforzarse mediante las señales de recompensa en el aprendizaje por refuerzo. En lugar del sistema binario actual, que premia respuestas correctas y penaliza las incorrectas, un mejor sistema daría +1 por respuesta correcta, 0 por “No lo sé” y -1 por incorrecta. Esto crea los incentivos correctos: las respuestas correctas se recompensan, pero las incorrectas se penalizan más que la abstención, que es neutral.
Lo importante es que este enfoque no requiere datos ni modelos perfectos. Funciona porque alinea los incentivos del modelo con lo que realmente queremos: información fiable cuando el modelo está seguro y una incertidumbre honesta cuando no lo está. El modelo aprende que la mejor estrategia no es fanfarronear o alucinar; es dar información precisa cuando sea posible y admitir incertidumbre cuando sea necesario. Este comportamiento es más honesto y, en última instancia, más útil que el enfoque actual de adivinanza confiada.
Para que esta solución funcione a gran escala, los benchmarks deben actualizarse para dar crédito a la abstención. Si los modelos se entrenan para abstenerse cuando no están seguros, pero luego se evalúan con benchmarks que penalizan la abstención, aprenderán a ignorar su entrenamiento y volverán a adivinar con confianza. Por eso la reforma de los benchmarks es esencial. Los creadores de benchmarks deberían implementar sistemas de puntuación que recompensen respuestas correctas, otorguen crédito neutro o positivo a las respuestas de “No lo sé” y penalicen las incorrectas. Esto podría ser: +1 por correcta, 0 por “No lo sé” y -1 por incorrecta.
La buena noticia es que este cambio ya ha comenzado. Según informes, GPT-5 está comenzando a implementar este comportamiento. Cuando se le pregunta algo sobre lo que tiene dudas, GPT-5 a veces responde “No lo sé” después de reflexionar, en lugar de intentar dar una respuesta segura pero incorrecta. Esto representa un cambio en la forma en que se entrenan los modelos y en los comportamientos que se recompensan. A medida que más modelos adopten este enfoque y más benchmarks se actualicen para dar crédito a la abstención, deberíamos ver una reducción significativa de las alucinaciones en general.
Las implicaciones de esta investigación van mucho más allá del interés académico. En aplicaciones prácticas, las alucinaciones tienen consecuencias reales. Un modelo que da información médica, legal o financiera incorrecta con confianza puede causar daños graves. Al comprender que las alucinaciones no son inevitables, sino el resultado de prácticas específicas de entrenamiento y evaluación, la industria puede hacer cambios dirigidos para reducirlas. Esta investigación proporciona una hoja de ruta para esos cambios.
La respuesta de los principales laboratorios de IA ha sido alentadora. Anthropic, en su propia investigación sobre cómo funcionan internamente los modelos de lenguaje, ha identificado problemas similares y propuesto soluciones complementarias. Han observado que los modelos tienen una especie de “inercia” hacia dar respuestas completas y seguras, incluso cuando dudan. Esta inercia está integrada en la arquitectura y el proceso de entrenamiento del modelo. Al comprender esto, los investigadores pueden diseñar intervenciones que contrarresten esa inercia y fomenten una expresión más honesta de la incertidumbre. La convergencia de la investigación de varios laboratorios en este problema sugiere que el sector avanza hacia un consenso tanto en el diagnóstico como en la solución.
Descubre cómo FlowHunt automatiza tus flujos de contenido de IA y SEO: desde la investigación y generación de contenido hasta la publicación y analítica, todo en un solo lugar. Construye automatización de IA fiable y consciente de alucinaciones, con calibración de confianza incorporada.
Más allá de implementar umbrales de confianza, la investigación introduce el concepto de calibración del comportamiento. Esto va más allá de simplemente comprobar las distribuciones de probabilidad de las salidas del modelo. La calibración del comportamiento implica probar si la confianza declarada del modelo realmente coincide con su precisión. ¿Al 50% de confianza, el modelo acierta el 50% de las veces? ¿Al 90%, acierta el 90%? Así se determina si un modelo se comporta de forma honesta y fiable.
Probar la calibración del comportamiento requiere una aproximación distinta a la evaluación que los benchmarks tradicionales. En vez de medir solo la precisión global, hay que medir la precisión en distintos niveles de confianza. Esto revela si un modelo está bien calibrado o es sobreconfiado. Un modelo puede tener alta precisión global pero estar mal calibrado, lo que significa que su confianza no coincide con su rendimiento real. Por el contrario, un modelo podría tener menor precisión global pero estar bien calibrado, lo que permite confiar en sus estimaciones de confianza. Para muchas aplicaciones, un modelo bien calibrado con menor precisión es más útil que uno sobreconfiado con mayor precisión, porque sabes cuándo confiar en él y cuándo buscar información adicional o revisión humana.
Solucionar el problema de las alucinaciones requiere cambios en varios niveles de la cadena de desarrollo de IA. Primero, los desarrolladores de modelos deben implementar umbrales de confianza y recompensar la abstención durante el entrenamiento y post-entrenamiento. Segundo, los creadores de benchmarks deben actualizar sus métricas de evaluación para dar crédito a las respuestas de “No lo sé” y medir la calibración del comportamiento. Tercero, las organizaciones que despliegan sistemas de IA deben diseñar flujos de trabajo que incluyan pasos de verificación y revisión humana para las salidas dudosas. Cuarto, los usuarios de sistemas de IA deben comprender que la expresión de incertidumbre de los modelos es una característica, no un error, y debe valorarse en consecuencia.
Este no es un problema que pueda resolver un solo actor del ecosistema. Requiere coordinación y alineación entre desarrolladores de modelos, investigadores, creadores de benchmarks y usuarios. La buena noticia es que la solución es relativamente sencilla y no requiere avances fundamentales en arquitectura o métodos de entrenamiento. Es, principalmente, cuestión de alinear incentivos y prácticas de evaluación con lo que realmente queremos: sistemas de IA fiables y honestos, que conocen los límites de su conocimiento.
A medida que más actores del sector adopten estas prácticas, deberíamos ver una mejora significativa en la fiabilidad y confianza en los modelos de lenguaje.
La investigación de OpenAI sobre por qué los modelos de lenguaje alucinan revela que el problema no es inevitable, sino resultado de prácticas específicas de entrenamiento y evaluación que incentivan la adivinanza confiada en detrimento de la incertidumbre honesta. Las alucinaciones surgen porque los modelos se entrenan y evalúan con métricas que premian respuestas correctas y penalizan tanto las incorrectas como la abstención por igual, creando un incentivo para fanfarronear cuando hay dudas. La solución pasa por implementar umbrales de confianza, recompensar a los modelos por decir “No lo sé” y actualizar los benchmarks para dar crédito a la abstención. Este cambio sistémico, que ya empieza a verse en modelos como GPT-5, supone un giro fundamental en la forma en que abordamos la fiabilidad de la IA. Alineando los incentivos de los modelos con lo que realmente queremos—información confiable cuando hay confianza y una incertidumbre honesta cuando no la hay—podemos reducir significativamente las alucinaciones y construir sistemas de IA más fiables.
Una alucinación ocurre cuando un modelo de lenguaje genera información que suena plausible pero es incorrecta con un alto nivel de confianza. Por ejemplo, un modelo podría afirmar con seguridad una fecha de cumpleaños incorrecta o inventar hechos que nunca estuvieron en sus datos de entrenamiento. Estas alucinaciones son especialmente problemáticas porque el modelo las presenta como si fueran verdad, dificultando que los usuarios las identifiquen como errores.
Los modelos de lenguaje se entrenan utilizando métricas de evaluación que recompensan las respuestas correctas y penalizan las incorrectas, pero normalmente no otorgan puntos por abstenerse o decir 'No lo sé'. Esto crea una estructura de incentivos similar a los exámenes de opción múltiple, donde adivinar tiene un 25% de probabilidad de ser correcto, mientras que no responder garantiza cero puntos. Los modelos aprenden que proporcionar una respuesta específica y confiada—aunque sea errónea—es mejor que admitir incertidumbre.
Según la investigación de OpenAI, las alucinaciones son inevitables en los modelos base, pero pueden reducirse significativamente mediante un correcto ajuste posterior al entrenamiento y un diseño adecuado de la evaluación. La solución implica implementar umbrales de confianza, recompensar a los modelos por abstenerse cuando no están seguros y actualizar los benchmarks para dar crédito a las respuestas de 'No lo sé'. Sin embargo, la eliminación total requiere cambios sistémicos en la forma en que se entrenan y evalúan los modelos.
El aprendizaje por refuerzo durante el ajuste posterior puede llevar a los modelos a generar predicciones más confiadas pero menos precisas. La investigación muestra que, aunque los modelos base pueden estar bien calibrados (su nivel de confianza coincide con su precisión), el aprendizaje por refuerzo suele volverlos sobreconfiados. Un modelo podría afirmar un 80% de confianza y solo acertar el 45% de las veces, alejándolo de una expresión honesta de incertidumbre hacia respuestas más decididas pero menos fiables.
Los benchmarks actuales como GPQA, MMLU Pro y Math utilizan sistemas de calificación binaria que no recompensan a los modelos por decir 'No lo sé'. Esto refleja el mismo problema del entrenamiento: los modelos aprenden que la mejor estrategia es siempre dar una respuesta en vez de admitir incertidumbre. Benchmarks como WildBench, que sí otorgan crédito a la abstención, muestran mejores resultados, lo que sugiere que actualizar las métricas de evaluación es clave para reducir las alucinaciones.
Arshia es ingeniera de flujos de trabajo de IA en FlowHunt. Con formación en ciencias de la computación y una pasión por la IA, se especializa en crear flujos de trabajo eficientes que integran herramientas de IA en las tareas cotidianas, mejorando la productividad y la creatividad.
Construye automatizaciones confiables con IA, incorporando calibración de confianza y manejo inteligente de errores.
Una alucinación en los modelos de lenguaje ocurre cuando la IA genera un texto que parece plausible pero que en realidad es incorrecto o inventado. Descubre las...
¿Qué son las alucinaciones en IA, por qué ocurren y cómo puedes evitarlas? Aprende a mantener las respuestas de tu chatbot precisas con estrategias prácticas ce...
Descubre cómo el Thinking Machines Lab de Mira Murati está resolviendo el problema de la no determinación en los grandes modelos de lenguaje, permitiendo salida...
Consentimiento de Cookies
Usamos cookies para mejorar tu experiencia de navegación y analizar nuestro tráfico. See our privacy policy.


