
Pourquoi les modèles de langage hallucinent-ils ? Recherche OpenAI
Découvrez comment la dernière recherche d'OpenAI identifie pourquoi les modèles de langage hallucinent et produisent des contre-vérités confiantes. Apprenez les...

Découvrez comment le Thinking Machines Lab de Mira Murati résout le problème du non-déterminisme dans les grands modèles de langage, permettant des sorties d’IA reproductibles et transformant notre confiance et notre capacité d’audit des systèmes d’IA.
La crise de la reproductibilité en intelligence artificielle a longtemps été un casse-tête pour les chercheurs, ingénieurs et entreprises s’appuyant sur les grands modèles de langage. Lorsque vous posez deux fois la même question à ChatGPT, il est rare d’obtenir des réponses identiques — un phénomène qui nuit à la rigueur scientifique et à la fiabilité pratique. Récemment, Mira Murati, l’ancienne CTO d’OpenAI, a lancé Thinking Machines Lab avec une mission ambitieuse : résoudre l’un des problèmes fondamentaux de l’IA — le non-déterminisme dans l’inférence des LLM. Par le biais de leur blog de recherche, Connectionism, ils ont publié des travaux révolutionnaires sur la défaite du non-déterminisme, dévoilant non seulement les causes racines de cette incohérence mais aussi des solutions concrètes susceptibles de transformer notre façon de construire et de faire confiance aux systèmes d’IA. Cet article détaille leurs découvertes, explique les mécanismes techniques derrière la variabilité des LLM et explore les implications pour l’avenir de la fiabilité de l’IA.
Le non-déterminisme dans les grands modèles de langage est un concept en apparence simple mais dont les implications sont majeures. Lorsque vous fournissez exactement la même requête à un LLM plusieurs fois, vous obtenez des réponses différentes — parfois légèrement différentes, parfois radicalement. Cette incohérence va à l’encontre d’un des principes fondamentaux de la méthode scientifique : la reproductibilité. Cette dernière est considérée comme la pierre angulaire du progrès scientifique, mais il reste étonnamment difficile de l’atteindre avec les modèles de langage actuels. Le problème n’est pas qu’un simple désagrément ; il représente une vulnérabilité critique dans le déploiement de systèmes d’IA dans des secteurs où la cohérence et la fiabilité sont cruciales. Que vous utilisiez un LLM pour le support au diagnostic médical, l’analyse juridique, la prévision financière ou la recherche scientifique, l’incapacité à reproduire les résultats crée une série de problèmes en cascade qui affectent la confiance, la validation et la conformité réglementaire.
La manifestation du non-déterminisme est observable et frustrante. Passez la même requête dix fois dans un LLM, et vous pourriez obtenir dix réponses différentes. Même en tentant d’éliminer l’aléa en réglant le paramètre de température à zéro — ce qui devrait en théorie produire des sorties déterministes — le modèle génère malgré tout des résultats différents. Cette persistance de la variabilité même dans des conditions supposées déterministes a déconcerté les chercheurs pendant des années. La sagesse conventionnelle suggérait que « c’est simplement ainsi que fonctionnent les modèles de langage », une caractéristique inhérente à la technologie. Pourtant, les recherches de Thinking Machines montrent que cette hypothèse est incomplète. Les véritables causes du non-déterminisme sont bien plus précises et, surtout, peuvent être traitées par des interventions techniques ciblées.
L’importance de vaincre le non-déterminisme dépasse la simple curiosité académique. Concrètement, la reproductibilité est un prérequis pour construire des systèmes d’IA de confiance, que les organisations peuvent déployer sereinement en production. Lorsqu’un LLM produit des sorties incohérentes, il devient presque impossible de déboguer efficacement. Si un modèle génère une réponse erronée ou nuisible, les ingénieurs ne peuvent pas reproduire de façon fiable le problème pour en comprendre la cause. Il devient alors extrêmement difficile d’identifier si le problème provient du modèle lui-même, de l’ingénierie de la requête, des données ou d’un autre facteur. Le débogage se transforme en jeu de hasard plutôt qu’en processus systématique d’élimination.
Au-delà du débogage, la reproductibilité est cruciale pour l’audit et la vérification. Les organismes de régulation, responsables de la conformité et équipes de sécurité doivent comprendre comment les systèmes d’IA prennent leurs décisions. Quand les sorties sont non déterministes, l’audit devient un cauchemar : il est impossible de retracer une sortie précise à ses causes de façon certaine. Cela pose problème notamment dans des secteurs réglementés comme la santé, la finance ou le droit, où l’explicabilité et l’auditabilité sont des exigences légales. De plus, le benchmarking perd en fiabilité lorsque les entrées et sorties sont non déterministes : pour comparer deux modèles ou deux versions d’un même modèle, il faut des résultats stables pour dégager des conclusions pertinentes. Le non-déterminisme introduit du bruit dans les benchmarks, rendant difficile la distinction entre une réelle différence de performance et un simple artefact du hasard.
Du point de vue de la confiance utilisateur, la reproductibilité est tout aussi cruciale. Les utilisateurs veulent savoir qu’en posant la même question à un système d’IA, ils obtiendront une réponse cohérente et fiable. Si la même question génère des retours très différents, la confiance s’effrite. C’est d’autant plus vrai pour les usages où l’IA sert d’aide à la décision ou de source d’information. Par ailleurs, la reproductibilité permet une meilleure ingénierie des requêtes (prompt engineering) et une optimisation plus efficace : si on ne peut pas reproduire un résultat, impossible d’améliorer systématiquement ses prompts ou de savoir quelles variantes fonctionnent le mieux.
L’hypothèse classique pour expliquer la non-détermination des LLM repose sur deux facteurs techniques : la non-associativité de l’arithmétique en virgule flottante et l’exécution concurrente sur GPU. Comprendre ces concepts nécessite de plonger dans les bases mathématiques et informatiques du fonctionnement des réseaux de neurones. Les nombres à virgule flottante sont la norme pour représenter les décimales en informatique — des valeurs comme 5,23 ou 3,14159. Or, un ordinateur ne peut stocker une précision infinie : à un moment, il doit arrondir le nombre pour le faire tenir en mémoire, ce qui introduit une petite erreur. Lorsqu’on effectue des millions ou milliards d’opérations, ces erreurs minuscules s’accumulent et se propagent.
La non-associativité joue un rôle essentiel. En mathématiques pures, l’addition est associative : (a + b) + c = a + (b + c). Mais avec l’arithmétique flottante, ce n’est pas toujours vrai à cause des arrondis. Selon l’ordre d’addition des nombres, on peut obtenir un résultat légèrement différent. Cela peut sembler anodin, mais dans le contexte de calculs de réseaux de neurones impliquant des milliards de paramètres et d’opérations, ces petites différences peuvent se propager et finir par influencer le choix du prochain token généré par le modèle.
Le second facteur est l’exécution concurrente sur GPU. Les processeurs graphiques sont conçus pour réaliser de nombreux calculs en parallèle. Un calcul donné est réparti entre des milliers de cœurs qui travaillent simultanément. Le problème est qu’on ne sait pas toujours quel cœur terminera en premier. Cet ordre non déterministe d’achèvement peut influencer le résultat final, surtout quand les opérations sont dépendantes ou que les résultats sont agrégés. Certains matériels spécialisés, comme les puces de Groq, pallient ce problème en utilisant des architectures parfaitement symétriques où le temps d’exécution est prévisible. Mais la plupart des GPU n’offrent pas cette propriété.
Si les hypothèses relatives à la virgule flottante et à l’exécution sur GPU sont partiellement vraies, les recherches de Thinking Machines révèlent qu’elles ne suffisent pas à expliquer le phénomène. Le véritable responsable du non-déterminisme dans les LLM est la variabilité de la taille de batch. Pour comprendre cela, imaginez un système de covoiturage : lorsque vous soumettez une requête à un LLM, elle n’est pas traitée isolément, mais regroupée avec d’autres requêtes dans un « batch » — un covoiturage de requêtes. Si le système est très sollicité, le batch est grand ; s’il est calme, le batch est petit. Cette taille n’est pas fixe, elle varie dynamiquement selon la charge du système.
L’insight clé est que la taille du batch influence l’ordre dans lequel les opérations mathématiques sont effectuées dans le réseau de neurones. Différentes tailles de batch peuvent entraîner un ordre d’exécution différent, même si les opérations sont identiques. Or, à cause de la non-associativité de l’arithmétique flottante, l’ordre compte : une légère différence dans l’ordre d’exécution conduit à des résultats intermédiaires différents, lesquels se propagent dans le réseau et peuvent finalement impacter le choix du token généré. Puisque les LLM fonctionnent en prédisant un token à la fois, et que chaque prédiction dépend des précédentes, une différence minime au début du processus peut mener à des sorties totalement différentes à la fin.
C’est une subtilité profonde : le non-déterminisme n’est pas inhérent à l’architecture du modèle ou à la nature des réseaux de neurones, mais une conséquence de l’implémentation du batching lors de l’inférence. La taille de batch est une variable qui dépend des conditions du système, et cette variabilité se traduit directement en variabilité des sorties. Cette découverte est importante car elle suggère que le problème peut être résolu par une ingénierie soignée du pipeline d’inférence.
La solution proposée par Thinking Machines repose sur trois corrections techniques coordonnées, regroupées sous le terme de « kernels invariants au batch ». La première correction consiste à garantir que, quelle que soit la taille du batch, les opérations de calcul sont pondérées et normalisées de façon constante. Pour reprendre une analogie culinaire : imaginez que vous préparez des bols de nourriture, il faut s’assurer qu’ils pèsent tous le même poids, que la cuisine soit pleine ou vide. Cela revient à implémenter des kernels computationnels qui maintiennent une normalisation et une pondération cohérentes, quel que soit le nombre de requêtes dans le batch. Le compromis, c’est que le système peut perdre un peu en rapidité — les requêtes peuvent être traitées un peu plus lentement pour préserver la cohérence. Mais le gain en cohérence est bien plus précieux que la légère perte de performance.
La deuxième correction vise à rendre l’étape de combinaison identique quelle que soit la taille du batch. Dans les calculs de réseaux de neurones, certaines opérations de « mixage » combinent différents composants. Ces opérations doivent être réalisées de façon strictement identique, quel que soit le batch. Cela exige une implémentation soigneuse des kernels pour garantir que l’ordre et la méthode de combinaison restent constants. Là encore, cela peut introduire un surcoût de calcul, mais le bénéfice en termes de déterminisme justifie l’effort.
La troisième correction concerne le mécanisme d’attention, central dans les modèles de langage de type transformer. Ce mécanisme permet au modèle de « relire » ce qu’il a déjà généré et de pondérer différemment certaines parties du texte. Lorsque le texte est traité par morceaux de tailles différentes, l’ordre des opérations dans le mécanisme d’attention peut varier. La solution est d’utiliser systématiquement la même taille de chunk, garantissant que l’attention traite l’information selon un ordre constant. Cette cohérence dans le traitement de l’attention est cruciale pour obtenir des sorties déterministes.
Le véritable test de toute avancée scientifique est la validation empirique. Thinking Machines a testé sa solution sur Qwen 2.5B, un grand modèle de langage, via une expérience rigoureuse. Ils ont généré 1 000 complétions à température zéro (le niveau d’aléa le plus bas) avec la même requête : « Parlez-moi de Richard Feynman. » Chaque complétion faisait 1 000 tokens. Avant la mise en place des kernels invariants au batch, les résultats étaient révélateurs : sur 1 000 complétions, 80 réponses uniques ont été générées, la plus fréquente n’apparaissant que 78 fois. Ce constat montre à quel point le problème de non-déterminisme est grave : même à température zéro, le modèle produisait 80 sorties différentes.
Après l’activation des kernels invariants au batch, le résultat a été spectaculaire : les 1 000 complétions étaient strictement identiques. Un déterminisme parfait a été atteint. Il ne s’agit pas d’une amélioration marginale ou d’une solution partielle, mais bien d’une élimination totale du non-déterminisme. Chaque exécution donnait exactement la même sortie. Cette validation est cruciale car elle prouve que le problème est réellement soluble et que la solution fonctionne concrètement. L’expérience a été menée sur un vrai modèle de production, et non sur un modèle jouet ou simplifié, ce qui renforce la portée du résultat.
L’obtention de sorties déterministes pour les LLM a des conséquences majeures pour la conception, le déploiement et la confiance dans les systèmes d’IA. Avant tout, le déterminisme permet un débogage fiable : lorsqu’un modèle produit une sortie incorrecte ou inattendue, les ingénieurs peuvent désormais reproduire systématiquement le problème. Le débogage devient un processus méthodique, non plus un jeu de hasard. Les ingénieurs peuvent retracer précisément le chemin computationnel menant à la sortie problématique, identifier l’origine de l’erreur, et corriger efficacement en s’assurant que le problème est bien résolu.
Ensuite, le déterminisme améliore radicalement l’auditabilité. Les organismes de régulation, responsables de la conformité et équipes de sécurité disposent désormais d’un socle solide pour auditer les systèmes d’IA. Lorsqu’on peut reproduire les sorties, on peut retracer précisément les facteurs ayant mené à une décision. C’est particulièrement crucial dans des secteurs réglementés comme la santé, la finance ou le droit, où l’explicabilité est une exigence légale. Les auditeurs peuvent vérifier que le modèle se comporte comme attendu et qu’il ne produit pas de sorties biaisées ou dangereuses du fait d’un hasard non-déterministe.
Troisièmement, le benchmarking gagne en fiabilité. Pour comparer deux modèles ou deux versions d’un même modèle, les chercheurs peuvent enfin s’assurer que les différences de performance sont réelles, non de simples artefacts du hasard. Cela permet une évaluation scientifique plus rigoureuse des systèmes d’IA et une prise de décision plus éclairée sur les modèles à déployer. De plus, le déterminisme ouvre la voie à une ingénierie des prompts et à des optimisations systématiques : les chercheurs peuvent tester différentes requêtes et mesurer leurs effets en toute confiance sur la reproductibilité des résultats.
Pour les organisations utilisant FlowHunt pour automatiser leurs workflows IA, l’avènement des LLM déterministes est une avancée majeure. FlowHunt permet de construire des workflows complexes, multi-étapes, qui intègrent des modèles de langage à d’autres outils et processus. Lorsque les LLM sont non déterministes, ces workflows deviennent peu fiables — une même entrée peut produire des sorties différentes, entraînant des incohérences en cascade. Grâce aux LLM déterministes, les utilisateurs de FlowHunt peuvent désormais bâtir des workflows en toute confiance sur la fiabilité et la constance des résultats.
Les capacités d’automatisation de FlowHunt prennent tout leur sens combinées à des LLM déterministes. Les utilisateurs peuvent créer des workflows dépendant de sorties précises du LLM, en sachant qu’elles seront toujours reproductibles. Cela permet des automatisations plus sophistiquées, une meilleure gestion des erreurs et une intégration plus fiable avec d’autres systèmes. Par exemple, un workflow d’extraction d’informations à partir de documents grâce à un LLM bénéficie désormais de la certitude que le même document produira toujours les mêmes informations extraites. Cette cohérence est essentielle pour construire une automatisation IA digne de confiance et de niveau production.
Si les sorties déterministes sont en général recherchées, certains cas d’usage nécessitent au contraire la variabilité. L’écriture créative en est l’exemple le plus évident : si vous utilisez un LLM pour générer du contenu créatif — histoires, poèmes, textes marketing — vous souhaitez obtenir des résultats variés, non la même sortie répétée. Dans ces cas, il faut pouvoir désactiver le mode déterministe et laisser le modèle produire des réponses différentes à chaque itération.
De même, dans des applications de brainstorming ou d’idéation, la variabilité est précieuse. Si l’on utilise un LLM pour générer plusieurs idées ou points de vue sur un sujet, il ne faut surtout pas que la sortie soit toujours la même. La solution est donc de rendre le déterminisme optionnel : l’utilisateur l’active pour la reproductibilité et le désactive pour la créativité. Cette flexibilité est indispensable pour que les LLM déterministes ne brident pas inutilement les usages où la diversité des sorties est un atout.
Les travaux de Thinking Machines sur la défaite du non-déterminisme marquent une avancée majeure vers des systèmes d’IA plus fiables, dignes de confiance et prêts pour la production. Cette recherche règle un problème fondamental qui accompagnait l’industrie de l’IA depuis l’émergence des grands modèles de langage. En le résolvant, Thinking Machines ouvre la voie à une nouvelle génération d’applications IA déployables avec confiance dans des secteurs réglementés ou critiques.
Les implications dépassent le seul cadre des LLM. Les techniques développées pour obtenir une inférence déterministe pourraient s’appliquer à d’autres types de réseaux de neurones et systèmes d’IA. Les principes de kernels invariants au batch et d’ordre computationnel constant sont généraux et pourraient améliorer la fiabilité d’autres familles de modèles. À mesure que l’IA s’intègre dans les infrastructures critiques et les processus décisionnels, l’importance de la reproductibilité et du déterminisme ira croissant.
En outre, ce travail souligne le rôle clé de la recherche fondamentale en IA. Alors qu’une grande partie de l’industrie se concentre sur la montée en échelle des modèles et l’ajout de fonctionnalités, ce type de recherche s’attaque aux enjeux structurants qui conditionnent la confiance et la bonne intégration de l’IA dans le réel. Le fait qu’une ancienne CTO d’OpenAI consacre ses efforts à ce problème en dit long sur son importance et montre que l’industrie commence à reconnaître que la fiabilité et la reproductibilité sont tout aussi essentielles que la capacité brute.
Le Thinking Machines Lab de Mira Murati a identifié et résolu un problème critique de l’inférence dans les grands modèles de langage : le non-déterminisme. En comprenant que la variabilité de la taille de batch — et non l’arithmétique flottante ou la simple concurrence GPU — est la cause principale des sorties non-déterministes, et en développant des kernels invariants au batch pour y remédier, ils ont démontré que l’inférence déterministe des LLM est possible. Leur validation expérimentale sur Qwen 2.5B a montré qu’un déterminisme parfait était atteignable : les 1 000 complétions testées étaient identiques après la mise en œuvre de leur solution. Cette percée a des implications profondes pour la confiance, le débogage, l’audit et le déploiement de l’IA dans les secteurs réglementés. À mesure que les organisations s’appuient de plus en plus sur les LLM pour des applications critiques, la capacité à produire des sorties reproductibles et déterministes deviendra un prérequis fondamental pour les systèmes d’IA de niveau industriel.
Le non-déterminisme dans les LLM désigne le phénomène par lequel une même requête produit des résultats différents à chaque exécution. Cela provient de la précision de l'arithmétique en virgule flottante, de l'exécution concurrente sur GPU et des variations de taille de batch, rendant difficile la reproduction constante des résultats.
Vaincre le non-déterminisme est crucial pour la confiance, le débogage, l'audit et la vérification des systèmes d'IA. Lorsque les sorties sont reproductibles, les benchmarks gagnent en fiabilité, les utilisateurs font davantage confiance aux résultats, et il devient plus facile de comprendre pourquoi un modèle produit certaines réponses.
Les kernels invariants au batch sont une solution technique qui garantit que les calculs des LLM produisent des résultats identiques quelle que soit la taille du batch. En assurant un ordre de traitement et des étapes computationnelles constants, cette technologie élimine la variabilité due aux différentes tailles de batch lors de l'inférence.
La solution de Thinking Machines repose sur trois corrections clés : conserver un pondération de batch constante quel que soit le niveau de charge système, maintenir l'étape de combinaison identique pour tous les batches, et traiter les mécanismes d'attention dans le même ordre. Ces changements assurent des sorties déterministes tout en préservant des performances raisonnables.
Les LLM déterministes sont précieux pour la recherche scientifique, la conformité réglementaire, le débogage, l'audit, le benchmarking et toute application où la reproductibilité est critique. Cependant, ils peuvent être moins adaptés aux usages créatifs où la variabilité est bénéfique.
Arshia est ingénieure en workflows d'IA chez FlowHunt. Avec une formation en informatique et une passion pour l’IA, elle se spécialise dans la création de workflows efficaces intégrant des outils d'IA aux tâches quotidiennes, afin d’accroître la productivité et la créativité.
Construisez des workflows d'IA fiables et reproductibles grâce à la plateforme d'automatisation intelligente de FlowHunt. Garantissez la cohérence de vos opérations IA, de la recherche au déploiement.
Découvrez comment la dernière recherche d'OpenAI identifie pourquoi les modèles de langage hallucinent et produisent des contre-vérités confiantes. Apprenez les...
Découvrez les avancées majeures de ChatGPT-5, ses cas d’usage, benchmarks, sécurité, tarification et perspectives d’avenir dans ce guide FlowHunt.
Explorez les préoccupations de Jack Clark, cofondateur d’Anthropic, sur la sécurité de l’IA, la conscience situationnelle des grands modèles de langage et le pa...
Consentement aux Cookies
Nous utilisons des cookies pour améliorer votre expérience de navigation et analyser notre trafic. See our privacy policy.


