
¿Por qué los modelos de lenguaje alucinan? Investigación de OpenAI
Descubre cómo la investigación más reciente de OpenAI identifica por qué los modelos de lenguaje alucinan y generan falsedades con confianza. Conoce las causas ...

Descubre cómo el Thinking Machines Lab de Mira Murati está resolviendo el problema de la no determinación en los grandes modelos de lenguaje, permitiendo salidas reproducibles y transformando la confianza y auditoría en los sistemas de IA.
La crisis de reproducibilidad en la inteligencia artificial ha sido durante mucho tiempo una espina clavada para investigadores, ingenieros y empresas que dependen de grandes modelos de lenguaje. Cuando le haces la misma pregunta a ChatGPT dos veces, rara vez obtienes respuestas idénticas—un fenómeno que socava el rigor científico y la fiabilidad práctica. Recientemente, Mira Murati, ex CTO de OpenAI, lanzó Thinking Machines Lab con una misión audaz: resolver uno de los problemas más fundamentales de la IA—la no determinación en la inferencia de LLM. A través de su blog de investigación, Connectionism, han publicado avances revolucionarios sobre cómo vencer la no determinación, revelando no solo las causas raíz de esta inconsistencia, sino también soluciones prácticas que podrían transformar la forma en la que construimos y confiamos en los sistemas de IA. Este artículo desglosa sus hallazgos, explica los mecanismos técnicos detrás de la variabilidad en los LLM y explora las implicaciones para el futuro de la fiabilidad en la IA.
La no determinación en los grandes modelos de lenguaje es un concepto aparentemente simple pero con profundas implicaciones. Cuando proporcionas exactamente el mismo prompt a un LLM varias veces, recibes respuestas diferentes—a veces sutilmente distintas, a veces radicalmente distintas. Esta inconsistencia viola uno de los principios fundamentales de la metodología científica: la reproducibilidad. La reproducibilidad se considera la base del progreso científico, pero sigue siendo sorprendentemente difícil de lograr con los modernos modelos de lenguaje. El problema no es solo una molestia; representa una vulnerabilidad crítica en el despliegue de sistemas de IA en industrias donde la consistencia y la fiabilidad son primordiales. Ya sea que utilices un LLM para soporte en diagnóstico médico, análisis de documentos legales, previsión financiera o investigación científica, la incapacidad de reproducir resultados crea una cascada de problemas posteriores que afectan la confianza, la validación y el cumplimiento normativo.
La manifestación de la no determinación es observable y frustrante. Ejecuta el mismo prompt en un LLM diez veces y podrías obtener diez respuestas diferentes. Incluso cuando intentas eliminar la aleatoriedad estableciendo el parámetro de temperatura en cero—lo que teóricamente debería producir salidas deterministas—el modelo sigue generando resultados distintos. Esta persistencia de la variabilidad incluso bajo condiciones supuestamente deterministas desconcertó a los investigadores durante años. La creencia convencional sugería que esto era simplemente el funcionamiento natural de los modelos de lenguaje, una característica inherente de la tecnología. Sin embargo, la investigación de Thinking Machines revela que esta suposición estaba incompleta. Las verdaderas causas de la no determinación son mucho más específicas y, lo que es más importante, abordables mediante intervenciones técnicas dirigidas.
La importancia de vencer la no determinación va mucho más allá de la curiosidad académica. En términos prácticos, la reproducibilidad es esencial para construir sistemas de IA confiables que las organizaciones puedan implementar con confianza en entornos de producción. Cuando un LLM produce salidas inconsistentes, se vuelve casi imposible depurar problemas de manera efectiva. Si un modelo genera una respuesta incorrecta o dañina, los ingenieros no pueden reproducir el problema de manera fiable para entender qué salió mal. Esto hace que sea extraordinariamente difícil identificar si el problema proviene del propio modelo, la ingeniería del prompt, los datos o algún otro factor. La depuración se convierte en un juego de azar más que en un proceso sistemático de eliminación.
Más allá de la depuración, la reproducibilidad es crítica para la auditoría y la verificación. Los organismos reguladores, los responsables de cumplimiento y los equipos de seguridad necesitan entender cómo toman decisiones los sistemas de IA. Cuando las salidas no son deterministas, la auditoría se convierte en una pesadilla. No puedes rastrear una salida específica hasta sus causas con certeza. Esto es especialmente problemático en industrias reguladas como la salud, las finanzas y el derecho, donde la explicabilidad y la auditabilidad son requisitos legales. Además, la evaluación comparativa se vuelve poco confiable cuando las entradas y salidas no son deterministas. Si estás comparando dos modelos o dos versiones del mismo modelo, necesitas resultados estables y reproducibles para hacer comparaciones significativas. La no determinación introduce ruido en los benchmarks, dificultando saber si las diferencias de rendimiento son reales o artefactos de la aleatoriedad.
Desde la perspectiva de la confianza del usuario, la reproducibilidad es igualmente importante. Los usuarios quieren saber que, cuando hacen una pregunta a un sistema de IA, obtendrán una respuesta consistente y fiable. Si la misma pregunta produce respuestas radicalmente distintas, los usuarios pierden confianza en el sistema. Esto es especialmente cierto en aplicaciones donde los usuarios dependen de la IA para soporte en la toma de decisiones o la recuperación de información. Además, la reproducibilidad permite una mejor ingeniería de prompts y optimización. Si no puedes reproducir los resultados, no puedes mejorar sistemáticamente tus prompts ni entender qué variaciones funcionan realmente mejor.
La hipótesis convencional sobre por qué los LLM producen resultados no deterministas se centra en dos factores técnicos: la no asociatividad de la aritmética de coma flotante y la ejecución concurrente en GPU. Entender estos conceptos requiere adentrarse en los fundamentos matemáticos y computacionales del funcionamiento de las redes neuronales. Los números de coma flotante son la forma estándar en que las computadoras representan números decimales—valores como 5.23 o 3.14159. Sin embargo, las computadoras no pueden almacenar precisión infinita. En algún punto, debes redondear el número para que quepa en una cantidad fija de memoria. Este redondeo introduce un pequeño error, y cuando realizas millones o miles de millones de operaciones matemáticas, estos pequeños errores pueden acumularse y amplificarse.
El aspecto de la no asociatividad es particularmente importante. En matemáticas puras, la suma es asociativa: (a + b) + c es igual a a + (b + c). Sin embargo, en la aritmética de coma flotante, esto no siempre es cierto debido a los errores de redondeo. Dependiendo del orden en que sumes los números, podrías obtener resultados ligeramente diferentes. Esto puede parecer trivial, pero en el contexto de los cálculos de redes neuronales que involucran miles de millones de parámetros y operaciones, estas pequeñas diferencias pueden propagarse a través de la red y eventualmente afectar qué token selecciona el modelo como siguiente salida.
El segundo factor es la ejecución concurrente en GPU. Las Unidades de Procesamiento Gráfico están diseñadas para realizar muchos cálculos simultáneamente. Cuando le das a una GPU una operación matemática, no la ejecuta secuencialmente; en cambio, distribuye el trabajo entre miles de núcleos que trabajan en paralelo. El problema es que a menudo no sabes qué núcleo terminará primero. Este orden no determinista de finalización puede afectar el resultado final, especialmente cuando las operaciones dependen entre sí o cuando los resultados se agregan. Algunos hardware especializados, como los chips de empresas como Groq, abordan esto utilizando arquitecturas completamente simétricas donde sabes exactamente cuánto tiempo tomará cada operación. Sin embargo, la mayoría de las GPU no tienen esta propiedad.
Aunque las hipótesis sobre la aritmética de coma flotante y la ejecución concurrente contienen parte de la verdad, la investigación de Thinking Machines revela que no cuentan la historia completa. El verdadero culpable detrás de la no determinación en los LLM es la variabilidad en el tamaño del batch. Para entender esto, imagina un sistema de coche compartido. Cuando envías un prompt a un LLM, este no procesa tu solicitud de manera aislada. En cambio, tu solicitud se agrupa con otras en un batch—un coche compartido de consultas. Cuando el sistema está ocupado, el coche está lleno de solicitudes. Cuando el sistema está tranquilo, el batch es pequeño. Este tamaño de batch no es fijo; cambia dinámicamente según la carga del sistema.
El hallazgo clave es que el tamaño del batch afecta el orden en que se realizan las pequeñas operaciones matemáticas dentro de la red neuronal. Diferentes tamaños de batch pueden hacer que las mismas operaciones matemáticas se ejecuten en distintos órdenes. Aunque las operaciones en sí sean idénticas, el orden importa debido a la no asociatividad de la coma flotante. Un orden ligeramente diferente en las operaciones lleva a resultados intermedios ligeramente distintos, que pueden propagarse a través de la red y, finalmente, cambiar qué token selecciona el modelo como siguiente salida. Como los LLM funcionan prediciendo un token a la vez, y cada predicción depende de las anteriores, una sola diferencia al principio puede llevar a salidas completamente diferentes al final.
Este es un hallazgo sutil pero profundo. Significa que la no determinación no es inherente a la arquitectura del modelo ni a la naturaleza fundamental de las redes neuronales. Más bien, es consecuencia de cómo se implementa el batching durante la inferencia. El tamaño de batch es una variable que cambia según las condiciones del sistema, y esta variabilidad se traduce directamente en variabilidad de la salida. Este descubrimiento es importante porque sugiere que el problema se puede resolver con una ingeniería cuidadosa de la canalización de inferencia.
La solución de Thinking Machines para la no determinación implica tres correcciones técnicas coordinadas, conocidas colectivamente como kernels invariantes al batch. La primera corrección garantiza que, independientemente del tamaño del batch, las operaciones computacionales se ponderen y normalicen de manera consistente. Usando una analogía de restaurante, imagina que preparas tazones de comida. Debes asegurarte de que cada tazón pese lo mismo, ya sea que la cocina esté llena o vacía. Esto implica implementar kernels computacionales que mantengan una normalización y ponderación consistentes sin importar cuántas solicitudes haya en el batch. El precio a pagar es que podrías perder algo de velocidad—el sistema puede procesar las solicitudes un poco más lento para mantener la consistencia. Sin embargo, la consistencia obtenida es mucho más valiosa que la mínima pérdida de velocidad.
La segunda corrección implica mantener el paso de mezclado idéntico en todos los tamaños de batch. En los cálculos de las redes neuronales, hay operaciones de mezcla donde se combinan diferentes componentes. Estas operaciones deben realizarse exactamente de la misma manera independientemente del tamaño del batch. Esto requiere una implementación cuidadosa de los kernels computacionales para garantizar que el orden y el método de mezcla permanezcan constantes. Nuevamente, esto puede introducir cierta sobrecarga computacional, pero el beneficio de salidas deterministas justifica el coste.
La tercera corrección aborda el mecanismo de atención, que es central en los modelos de lenguaje basados en transformers. El mecanismo de atención permite al modelo mirar hacia atrás en lo que ha escrito y ponderar diferentes partes del texto de manera distinta. Cuando el texto se procesa en fragmentos de diferentes tamaños, el orden de las operaciones en el mecanismo de atención puede cambiar. La solución es usar siempre el mismo tamaño de fragmento, asegurando que el mecanismo de atención procese la información en un orden consistente. Esta consistencia en el procesamiento de la atención es crucial para obtener salidas deterministas.
La verdadera prueba de cualquier afirmación científica es la validación empírica. Thinking Machines probó su solución utilizando Qwen 2.5B, un gran modelo de lenguaje, y realizó un experimento riguroso. Generaron 1.000 completados a temperatura cero (el ajuste de menor aleatoriedad) usando el mismo prompt: “Háblame de Richard Feynman”. Cada completado generó 1.000 tokens. Antes de implementar sus kernels invariantes al batch, los resultados eran decepcionantes pero reveladores. De 1.000 completados, obtuvieron 80 respuestas únicas, siendo la más común solo 78 veces. Esta línea base demostraba la gravedad del problema de la no determinación—aunque la temperatura estuviera en cero, el modelo producía 80 salidas diferentes.
Después de habilitar sus kernels invariantes al batch, los resultados fueron dramáticos: los 1.000 completados fueron idénticos. Se logró un determinismo perfecto. Esto no fue una mejora marginal o una solución parcial; fue la eliminación completa de la no determinación. Cada ejecución produjo exactamente la misma salida. Esta validación es crucial porque demuestra que el problema es realmente solucionable y que la solución propuesta funciona. El experimento se realizó con un modelo de lenguaje real, a escala de producción, no con un modelo de juguete o una versión simplificada, lo que hace que los resultados sean aún más relevantes.
El logro de salidas deterministas en los LLM tiene implicaciones de gran alcance para la forma en que construimos, desplegamos y confiamos en los sistemas de IA. Ante todo, el determinismo permite una depuración fiable. Cuando un modelo produce una salida incorrecta o inesperada, los ingenieros ahora pueden reproducir el problema de manera consistente. Esto transforma la depuración de un frustrante juego de azar en un proceso sistemático. Los ingenieros pueden rastrear el camino exacto de cálculo que llevó a la salida problemática, identificar dónde ocurrió el error e implementar correcciones con la confianza de que realmente han resuelto el problema.
En segundo lugar, el determinismo mejora drásticamente la auditabilidad. Los organismos reguladores, responsables de cumplimiento y equipos de seguridad pueden ahora auditar los sistemas de IA con mucha mayor confianza. Cuando puedes reproducir las salidas consistentemente, puedes rastrear los factores exactos que influyeron en una decisión. Esto es especialmente importante en industrias reguladas como la salud, las finanzas y el derecho, donde la explicabilidad es un requisito legal. Los auditores pueden verificar que el modelo se comporta como se espera y que no está produciendo salidas sesgadas o dañinas debido a la aleatoriedad no determinista.
En tercer lugar, la evaluación comparativa se vuelve mucho más fiable. Al comparar dos modelos o dos versiones del mismo modelo, los investigadores pueden estar seguros de que las diferencias de rendimiento son reales y no artefactos de la aleatoriedad. Esto permite una evaluación científica más rigurosa de los sistemas de IA y mejores decisiones sobre qué modelos desplegar. Además, el determinismo facilita una mejor ingeniería y optimización de prompts. Los investigadores pueden probar diferentes prompts sistemáticamente y medir sus efectos con la confianza de que los resultados son reproducibles.
Para las organizaciones que utilizan FlowHunt para automatizar sus flujos de trabajo de IA, las implicaciones de los LLM deterministas son significativas. FlowHunt permite a los usuarios construir flujos de trabajo de IA complejos y de varios pasos que integran modelos de lenguaje con otras herramientas y procesos. Cuando los LLM no son deterministas, estos flujos se vuelven poco fiables—la misma entrada puede producir diferentes salidas, lo que lleva a resultados inconsistentes en los procesos posteriores. Con LLM deterministas, los usuarios de FlowHunt pueden construir flujos con mucha más confianza en su fiabilidad y consistencia.
Las capacidades de automatización de FlowHunt resultan especialmente valiosas cuando se combinan con LLM deterministas. Los usuarios pueden crear flujos que dependen de salidas específicas de LLM, sabiendo que esas salidas serán consistentes y reproducibles. Esto permite una automatización más sofisticada, un mejor manejo de errores y una integración más fiable con otros sistemas. Por ejemplo, un flujo que extrae información de documentos usando un LLM puede estar seguro ahora de que el mismo documento siempre producirá la misma información extraída. Esta consistencia es crucial para construir automatizaciones de IA confiables y listas para producción.
Aunque las salidas deterministas suelen ser deseables, existen casos importantes en los que la no determinación resulta beneficiosa. La escritura creativa es el ejemplo más obvio. Si usas un LLM para generar contenido creativo—historias, poesía, textos de marketing—probablemente quieras variabilidad. Quieres que el modelo genere diferentes resultados creativos cada vez, no la misma salida repetida. En estos casos, los usuarios querrán desactivar el modo determinista y permitir que el modelo genere salidas variadas.
De igual modo, en aplicaciones de brainstorming o ideación, la variabilidad puede ser valiosa. Si usas un LLM para generar múltiples ideas o perspectivas sobre un tema, quieres salidas diferentes, no la misma repetida. La solución es hacer que el determinismo sea opcional—los usuarios pueden activarlo cuando necesitan reproducibilidad y desactivarlo cuando buscan variabilidad. Esta flexibilidad es importante para asegurar que los LLM deterministas no limiten innecesariamente los casos de uso donde la variabilidad es beneficiosa.
El trabajo de Thinking Machines para vencer la no determinación representa un avance significativo hacia la construcción de sistemas de IA más fiables, confiables y listos para producción. Esta investigación aborda un problema fundamental que ha afectado a la industria de la IA desde la aparición de los grandes modelos de lenguaje. Al resolver este problema, Thinking Machines está posibilitando una nueva generación de aplicaciones de IA que pueden desplegarse con mayor confianza en industrias reguladas y aplicaciones de misión crítica.
Las implicaciones van más allá de los LLM. Las técnicas desarrolladas para lograr inferencia determinista en LLM podrían aplicarse potencialmente a otros tipos de redes neuronales y sistemas de IA. Los principios de kernels invariantes al batch y orden computacional consistente son principios generales que podrían mejorar la fiabilidad de los sistemas de IA en general. A medida que la IA se integra cada vez más en infraestructuras críticas y procesos de toma de decisiones, la importancia de la reproducibilidad y el determinismo seguirá creciendo.
Además, este trabajo resalta la importancia de la investigación fundamental en IA. Mientras gran parte de la industria de la IA se centra en escalar modelos y añadir nuevas capacidades, investigaciones como esta abordan cuestiones de base que permiten un mejor despliegue y confianza en los sistemas de IA. El hecho de que una ex CTO de OpenAI dedique sus esfuerzos a resolver este problema subraya su importancia y sugiere que la industria de la IA está empezando a reconocer que la fiabilidad y la reproducibilidad son tan importantes como la capacidad bruta.
El Thinking Machines Lab de Mira Murati ha identificado y resuelto un problema crítico en la inferencia de grandes modelos de lenguaje: la no determinación. Al reconocer que la variabilidad del tamaño del batch—más que la aritmética de punto flotante o la concurrencia en GPU—es la principal causa de salidas no deterministas, y al desarrollar kernels invariantes al batch para abordar este problema, han demostrado que la inferencia determinista en LLM es alcanzable. Su validación experimental con Qwen 2.5B mostró que el determinismo perfecto es posible—los 1.000 completados de prueba fueron idénticos tras implementar su solución. Este avance tiene profundas implicaciones para la confianza, depuración, auditoría y el despliegue de sistemas de IA en industrias reguladas. A medida que las organizaciones dependen cada vez más de los LLM para aplicaciones críticas, la capacidad de producir salidas reproducibles y deterministas se convertirá en un requisito fundamental para los sistemas de IA de nivel producción.
La no determinación en los LLM se refiere al fenómeno en el que el mismo prompt de entrada produce diferentes salidas cada vez que se ejecuta. Esto ocurre debido a la precisión de la aritmética de coma flotante, la ejecución concurrente en GPU y las variaciones en el tamaño de lote (batch), lo que dificulta reproducir los resultados de forma consistente.
Vencer la no determinación es crucial para la confianza, depuración, auditoría y verificación de los sistemas de IA. Cuando las salidas son reproducibles, los benchmarks son más fiables, los usuarios pueden confiar mejor en los resultados y es más fácil entender por qué un modelo produce salidas específicas.
Los kernels invariantes al batch son una solución técnica que garantiza que los cálculos de los LLM produzcan resultados idénticos independientemente del tamaño del batch. Al mantener un orden de procesamiento y pasos computacionales constantes, esta tecnología elimina la variabilidad causada por diferentes tamaños de batch durante la inferencia.
La solución de Thinking Machines implica tres correcciones clave: mantener un peso de batch constante independientemente de la carga del sistema, conservar el paso de mezclado idéntico en todos los batches y procesar los mecanismos de atención en el mismo orden. Estos cambios garantizan salidas deterministas manteniendo un rendimiento razonable.
Los LLM deterministas son valiosos para la investigación científica, el cumplimiento normativo, la depuración, la auditoría, la evaluación comparativa y cualquier aplicación donde la reproducibilidad sea crítica. Sin embargo, pueden ser menos deseables para aplicaciones creativas donde la variabilidad es beneficiosa.
Arshia es ingeniera de flujos de trabajo de IA en FlowHunt. Con formación en ciencias de la computación y una pasión por la IA, se especializa en crear flujos de trabajo eficientes que integran herramientas de IA en las tareas cotidianas, mejorando la productividad y la creatividad.
Crea flujos de trabajo de IA fiables y reproducibles con la plataforma de automatización inteligente de FlowHunt. Garantiza la consistencia en tus operaciones de IA desde la investigación hasta el despliegue.
Descubre cómo la investigación más reciente de OpenAI identifica por qué los modelos de lenguaje alucinan y generan falsedades con confianza. Conoce las causas ...
Descubre cómo los investigadores del MIT están impulsando los grandes modelos de lenguaje (LLM) con nuevos hallazgos sobre las creencias humanas, novedosas herr...
Explora la perspectiva matizada de Andrej Karpathy sobre los horizontes temporales de la AGI, los agentes de IA y por qué la próxima década será crítica para el...
Consentimiento de Cookies
Usamos cookies para mejorar tu experiencia de navegación y analizar nuestro tráfico. See our privacy policy.


