Het Verslaan van Niet-Determinisme in LLM's: De Reproduceerbaarheidscrisis van AI Opgelost

Het Verslaan van Niet-Determinisme in LLM's: De Reproduceerbaarheidscrisis van AI Opgelost

Gepubliceerd op Nov 4, 2025 door Arshia Kahani. Laatst gewijzigd op Nov 4, 2025 om 8:36 am
AI LLMs Machine Learning AI Engineering

Introductie

De reproduceerbaarheidscrisis in kunstmatige intelligentie is al lange tijd een doorn in het oog van onderzoekers, ingenieurs en bedrijven die vertrouwen op grote taalmodellen. Wanneer je ChatGPT twee keer dezelfde vraag stelt, krijg je zelden identieke antwoorden—een fenomeen dat de wetenschappelijke nauwkeurigheid en praktische betrouwbaarheid ondermijnt. Recentelijk heeft Mira Murati, voormalig CTO van OpenAI, het Thinking Machines Lab opgericht met een gedurfde missie: een van de meest fundamentele problemen van AI oplossen—niet-determinisme bij LLM-inferentie. Via hun onderzoeksblog, Connectionism, hebben ze baanbrekend werk gepubliceerd over het verslaan van niet-determinisme. Ze onthullen niet alleen de oorzaken van deze inconsistentie, maar ook praktische oplossingen die de manier waarop we AI-systemen bouwen en vertrouwen kunnen transformeren. Dit artikel zet hun bevindingen uiteen, legt de technische mechanismen achter LLM-variabiliteit uit en verkent de implicaties voor de toekomst van AI-betrouwbaarheid.

Thumbnail for Ex-OpenAI CTO Reveals Plan to Fix LLMs Biggest Problem

Niet-Determinisme Begrijpen: Het Kernprobleem

Niet-determinisme in grote taalmodellen is een ogenschijnlijk eenvoudig concept met diepe gevolgen. Geef je een LLM meerdere keren exact dezelfde prompt, dan krijg je verschillende antwoorden—soms subtiel anders, soms totaal verschillend. Deze inconsistentie schendt een van de fundamentele principes van de wetenschappelijke methode: reproduceerbaarheid. Reproduceerbaarheid wordt gezien als de basis van wetenschappelijke vooruitgang, maar is met moderne grote taalmodellen opmerkelijk lastig te bereiken. Het probleem is niet alleen hinderlijk; het vormt een kwetsbaarheid bij de inzet van AI-systemen in sectoren waar consistentie en betrouwbaarheid essentieel zijn. Of je nu een LLM gebruikt voor medische diagnoses, juridische documentanalyse, financiële voorspellingen of wetenschappelijk onderzoek, het onvermogen om resultaten te reproduceren zorgt voor een kettingreactie aan problemen die vertrouwen, validatie en naleving van regelgeving beïnvloeden.

Het verschijnsel van niet-determinisme is zichtbaar en frustrerend. Voer tien keer dezelfde prompt in bij een LLM, en je krijgt tien verschillende antwoorden. Zelfs als je willekeur probeert uit te schakelen door de temperatuurparameter op nul te zetten—wat theoretisch deterministische uitkomsten zou moeten geven—levert het model nog steeds verschillende resultaten. Deze variabiliteit, zelfs onder zogenaamd deterministische omstandigheden, heeft onderzoekers jarenlang voor een raadsel gesteld. De gangbare opvatting was dat dit nu eenmaal bij taalmodellen hoorde, een inherente eigenschap van de technologie. Het onderzoek van Thinking Machines laat echter zien dat deze aanname onvolledig was. De ware oorzaken van niet-determinisme zijn veel specifieker en, belangrijker nog, oplosbaar door gerichte technische ingrepen.

Waarom Reproduceerbaarheid Telt: Het Zakelijke en Wetenschappelijke Belang

Het belang van het verslaan van niet-determinisme reikt veel verder dan academische nieuwsgierigheid. In de praktijk is reproduceerbaarheid essentieel om betrouwbare AI-systemen te bouwen die organisaties met vertrouwen in productie kunnen inzetten. Wanneer een LLM inconsistente uitkomsten geeft, wordt het vrijwel onmogelijk om problemen effectief te debuggen. Als een model een foutief of schadelijk antwoord genereert, kunnen engineers het probleem niet betrouwbaar reproduceren om te begrijpen wat er misging. Hierdoor wordt het buitengewoon lastig te achterhalen of het probleem in het model zelf, de prompt engineering, de data of iets anders zit. Debuggen wordt een gokspel in plaats van een systematisch proces van uitsluiting.

Naast debugging is reproduceerbaarheid cruciaal voor auditing en verificatie. Toezichthouders, compliance officers en securityteams moeten begrijpen hoe AI-systemen beslissingen nemen. Bij niet-deterministische uitkomsten wordt auditing een nachtmerrie. Je kunt een specifieke uitkomst niet met zekerheid herleiden tot de oorzaak. Dit is vooral problematisch in gereguleerde sectoren zoals de gezondheidszorg, financiën en het recht, waar uitlegbaarheid en controleerbaarheid wettelijke vereisten zijn. Daarnaast wordt benchmarking onbetrouwbaar als input en output niet-deterministisch zijn. Vergelijk je twee modellen of twee versies van hetzelfde model, dan heb je stabiele, reproduceerbare resultaten nodig om zinvolle vergelijkingen te kunnen maken. Niet-determinisme introduceert ruis in benchmarks, waardoor het lastig is te bepalen of prestatieverschillen werkelijk zijn of het gevolg van willekeur.

Ook vanuit gebruikersvertrouwen is reproduceerbaarheid essentieel. Gebruikers willen weten dat wanneer ze een AI-systeem een vraag stellen, ze een consistent, betrouwbaar antwoord krijgen. Als dezelfde vraag steeds totaal verschillende antwoorden oplevert, verliezen gebruikers het vertrouwen in het systeem. Dit geldt met name voor toepassingen waarbij AI beslissingsondersteuning of informatievoorziening biedt. Bovendien maakt reproduceerbaarheid betere prompt engineering en optimalisatie mogelijk. Als je resultaten niet kunt reproduceren, kun je je prompts niet systematisch verbeteren of begrijpen welke variaties daadwerkelijk beter werken.

De Technische Oorzaken van Niet-Determinisme: Drijvende-Kommagetallen en Gelijktijdige Uitvoering

De gangbare hypothese voor het niet-determinisme van LLM’s richt zich op twee technische factoren: niet-associativiteit van drijvende-kommagetallen en gelijktijdige uitvoering op GPU’s. Om deze concepten te begrijpen, moeten we in de wiskundige en computationele basis van neurale netwerken duiken. Drijvende-kommagetallen zijn de standaardmanier waarop computers decimalen representeren—waarden als 5,23 of 3,14159. Computers kunnen echter geen oneindige precisie opslaan. Op een gegeven moment moet je het getal afronden om het in een vast geheugenformaat te passen. Dit afronden zorgt voor een klein beetje fout, en bij miljoenen of miljarden bewerkingen kunnen deze kleine fouten zich opstapelen en versterken.

Niet-associativiteit is hierbij belangrijk. In de zuivere wiskunde is optellen associatief: (a + b) + c is gelijk aan a + (b + c). Bij drijvende-kommagetallen geldt dit door afrondingsfouten niet altijd. Afhankelijk van de volgorde waarin je getallen optelt, kun je licht verschillende resultaten krijgen. Dit lijkt triviaal, maar bij neurale netwerken met miljarden parameters en bewerkingen kunnen deze kleine verschillen uiteindelijk bepalen welk token het model als volgende kiest.

De tweede factor is gelijktijdige uitvoering op GPU’s. Grafische kaarten zijn ontworpen om veel berekeningen tegelijk uit te voeren. Als je een GPU een bewerking geeft, voert hij deze niet sequentieel uit, maar verdeelt hij het werk over duizenden cores die parallel draaien. Het probleem is dat je vaak niet weet welke core als eerste klaar is. Deze willekeurige volgorde van afronden kan het eindresultaat beïnvloeden, vooral als bewerkingen van elkaar afhankelijk zijn of als resultaten samengevoegd worden. Sommige gespecialiseerde hardware, zoals chips van bedrijven als Groq, ondervangen dit met volledig symmetrische architecturen waarbij je exact weet hoe lang elke bewerking duurt. De meeste GPU’s hebben deze eigenschap echter niet.

De Werkelijke Oorzaak: Variabiliteit in Batchgrootte

Hoewel de hypothesen rond drijvende-kommagetallen en gelijktijdige uitvoering een kern van waarheid bevatten, laat het onderzoek van Thinking Machines zien dat ze niet het hele verhaal vertellen. De echte oorzaak van niet-determinisme in LLM’s is variabiliteit in de batchgrootte. Stel je hiervoor een carpool-systeem voor. Wanneer je een prompt indient bij een LLM, wordt je verzoek niet afzonderlijk verwerkt. In plaats daarvan wordt je aanvraag samengevoegd met andere verzoeken tot een batch—een carpool van queries. Als het systeem druk is, is de carpool groot, bij weinig druk juist klein. De batchgrootte is dus niet vast, maar verandert dynamisch met de systeembelasting.

Het cruciale inzicht is dat batchgrootte de volgorde beïnvloedt waarin kleine wiskundige bewerkingen in het neurale netwerk worden uitgevoerd. Verschillende batchgroottes kunnen ertoe leiden dat dezelfde bewerkingen in een andere volgorde plaatsvinden. Hoewel de bewerkingen zelf identiek zijn, maakt de volgorde uit vanwege de niet-associativiteit van drijvende-kommagetallen. Een iets andere volgorde leidt tot licht afwijkende tussentijdse resultaten, wat zich door het netwerk kan verspreiden en uiteindelijk bepaalt welk token het model als volgende kiest. Omdat LLM’s per token voorspellen en elke voorspelling afhankelijk is van alle voorgaande voorspellingen, kan één klein verschil aan het begin uiteindelijk leiden tot volledig verschillende uitkomsten.

Dit is een subtiel maar diepgaand inzicht. Het betekent dat het niet-determinisme niet inherent is aan de modelarchitectuur of de fundamentele aard van neurale netwerken. Het is juist een gevolg van hoe batching tijdens de inferentie is geïmplementeerd. De batchgrootte is een variabele die verandert afhankelijk van de systeemcondities, en deze variabiliteit vertaalt zich direct in variabele uitkomsten. Deze ontdekking is belangrijk omdat het erop wijst dat het probleem oplosbaar is door zorgvuldige engineering van de inferentie-pijplijn.

De Oplossing: Batch-Invariante Kernels en Deterministische Verwerking

De oplossing van Thinking Machines voor niet-determinisme bestaat uit drie gecoördineerde technische aanpassingen, samen batch-invariante kernels genoemd. De eerste aanpassing zorgt ervoor dat, ongeacht de batchgrootte, de berekeningen consistent worden gewogen en genormaliseerd. Stel je een restaurant voor: je maakt kommen eten en moet zorgen dat elke kom hetzelfde weegt, of het nu druk of rustig is in de keuken. Dit betekent dat je computationele kernels moet implementeren die consistente normalisatie en weging toepassen, ongeacht het aantal verzoeken in de batch. Het nadeel is dat je wat snelheid kunt verliezen—het systeem verwerkt mogelijk iets langzamer om consistentie te waarborgen. Maar de gewonnen consistentie is waardevoller dan het kleine snelheidsverlies.

De tweede aanpassing zorgt ervoor dat de mengstap in het neurale netwerk identiek blijft bij alle batchgroottes. In neurale netwerken zijn er mengbewerkingen waarbij verschillende componenten worden samengevoegd. Deze moeten op exact dezelfde manier worden uitgevoerd, ongeacht de batchgrootte. Hiervoor is een zorgvuldige implementatie van de computationele kernels nodig, zodat volgorde en methode van mengen gelijk blijven. Ook dit kan wat extra rekentijd kosten, maar de deterministische uitkomsten zijn deze investering waard.

De derde aanpassing richt zich op het attention-mechanisme, dat centraal staat in transformer-gebaseerde taalmodellen. Het attention-mechanisme stelt het model in staat terug te kijken naar eerder geproduceerde tekst en verschillende delen anders te wegen. Wanneer tekst in stukken van verschillende grootte wordt verwerkt, kan de volgorde van bewerkingen in het attention-mechanisme veranderen. De oplossing is om altijd dezelfde chunkgrootte te gebruiken, zodat het attention-mechanisme informatie steeds in dezelfde volgorde verwerkt. Deze consistentie in attention-verwerking is essentieel voor deterministische uitkomsten.

Validatie en Resultaten: Bewijs van Concept

De ultieme test van elke wetenschappelijke claim is empirische validatie. Thinking Machines testte hun oplossing met Qwen 2.5B, een groot taalmodel, en voerde een streng experiment uit. Ze genereerden 1.000 completions bij temperatuur nul (de laagste instelling voor willekeur) met dezelfde prompt: “Vertel me over Richard Feynman.” Elke completion genereerde 1.000 tokens. Voor de implementatie van hun batch-invariante kernels waren de resultaten teleurstellend maar veelzeggend. Van de 1.000 completions leverde het model 80 unieke antwoorden op, waarbij het meest voorkomende antwoord slechts 78 keer voorkwam. Deze nulmeting liet zien hoe ernstig het niet-determinisme is—zelfs bij temperatuur nul produceerde het model 80 verschillende uitkomsten.

Na het inschakelen van de batch-invariante kernels waren de resultaten spectaculair: alle 1.000 completions waren identiek. Perfect determinisme werd bereikt. Dit was geen marginale verbetering of gedeeltelijke oplossing; het niet-determinisme was volledig geëlimineerd. Elke uitvoering leverde exact hetzelfde resultaat op. Deze validatie is cruciaal omdat het bewijst dat het probleem daadwerkelijk oplosbaar is en dat de voorgestelde oplossing werkt. Het experiment is uitgevoerd met een echt, productie-schaal taalmodel, geen vereenvoudigde testversie, wat de resultaten nog belangrijker maakt.

Implicaties voor Vertrouwen, Debugging en Auditing van AI

De realisatie van deterministische LLM-uitkomsten heeft verstrekkende gevolgen voor de manier waarop we AI-systemen bouwen, inzetten en vertrouwen. Allereerst maakt determinisme betrouwbaar debuggen mogelijk. Wanneer een model een foutieve of onverwachte uitkomst geeft, kunnen engineers het probleem nu consistent reproduceren. Zo verandert debuggen van een frustrerend gokspel in een systematisch proces. Engineers kunnen exact het berekeningspad volgen dat leidde tot de probleemuitkomst, het probleem lokaliseren en met vertrouwen aanpassingen doen, wetende dat ze het probleem daadwerkelijk hebben opgelost.

Ten tweede verbetert determinisme de auditbaarheid drastisch. Toezichthouders, compliance officers en securityteams kunnen AI-systemen nu veel beter auditen. Als je uitkomsten consistent kunt reproduceren, kun je precies traceren welke factoren een beslissing beïnvloedden. Dit is vooral belangrijk in gereguleerde sectoren zoals de gezondheidszorg, financiën en het recht, waar uitlegbaarheid wettelijk vereist is. Auditors kunnen verifiëren dat het model zich gedraagt zoals verwacht en dat het niet door willekeurige niet-deterministische factoren bevooroordeelde of schadelijke uitkomsten geeft.

Ten derde wordt benchmarking veel betrouwbaarder. Bij het vergelijken van twee modellen of twee versies van hetzelfde model kunnen onderzoekers nu met vertrouwen zeggen dat prestatieverschillen echt zijn en geen artefact van willekeur. Dit maakt strengere wetenschappelijke evaluatie en beter onderbouwde keuzes mogelijk. Daarnaast maakt determinisme betere prompt engineering en optimalisatie mogelijk. Onderzoekers kunnen systematisch verschillende prompts testen en hun effect meten, met de zekerheid dat de resultaten reproduceerbaar zijn.

FlowHunt Toepassing: Betrouwbare AI-Workflows Automatiseren

Voor organisaties die FlowHunt gebruiken om hun AI-workflows te automatiseren, zijn deterministische LLM’s van grote betekenis. FlowHunt stelt gebruikers in staat complexe, meerstaps AI-workflows te bouwen waarin taalmodellen worden geïntegreerd met andere tools en processen. Wanneer LLM’s niet-deterministisch zijn, worden deze workflows onbetrouwbaar—dezelfde input kan tot verschillende uitkomsten leiden, wat inconsistente vervolgresultaten oplevert. Met deterministische LLM’s kunnen FlowHunt-gebruikers workflows bouwen waarin betrouwbaarheid en consistentie veel groter zijn.

De automatiseringsmogelijkheden van FlowHunt zijn vooral waardevol in combinatie met deterministische LLM’s. Gebruikers kunnen workflows maken die afhankelijk zijn van specifieke LLM-uitkomsten, in de wetenschap dat deze uitkomsten consistent en reproduceerbaar zullen zijn. Dit maakt geavanceerdere automatisering, betere foutafhandeling en betrouwbaardere integratie met andere systemen mogelijk. Zo kan bijvoorbeeld een workflow die informatie uit documenten haalt via een LLM, er nu op vertrouwen dat hetzelfde document altijd dezelfde informatie oplevert. Deze consistentie is essentieel voor het bouwen van betrouwbare, productieklare AI-automatisering.

Geavanceerde Overwegingen: Wanneer Determinisme Niet Gewenst Is

Hoewel deterministische uitkomsten doorgaans gewenst zijn, zijn er belangrijke toepassingen waar niet-determinisme juist voordelig is. Creatief schrijven is het meest voor de hand liggende voorbeeld. Als je een LLM gebruikt om creatieve content te genereren—verhalen, poëzie, marketingteksten—wil je juist variatie. Je wilt steeds andere creatieve uitkomsten, niet steeds dezelfde. In die gevallen willen gebruikers deterministische modus uitschakelen en het model variabele uitkomsten laten genereren.

Ook bij brainstormen of ideevorming kan variatie waardevol zijn. Gebruik je een LLM om meerdere ideeën of perspectieven op een onderwerp te genereren, dan wil je verschillende uitkomsten, niet steeds dezelfde. De oplossing is om determinisme optioneel te maken—gebruikers kunnen het inschakelen als reproduceerbaarheid nodig is en uitschakelen als variatie gewenst is. Deze flexibiliteit is belangrijk om te voorkomen dat deterministische LLM’s onnodig beperkend worden in toepassingen waar variatie gewenst is.

De Brede Impact op AI-ontwikkeling en -Uitrol

Het werk van Thinking Machines aan het verslaan van niet-determinisme is een belangrijke stap vooruit in het betrouwbaarder, vertrouwder en productiegeschikter maken van AI-systemen. Dit onderzoek pakt een fundamenteel probleem aan dat de AI-industrie sinds de opkomst van grote taalmodellen plaagt. Door dit probleem op te lossen, maakt Thinking Machines een nieuwe generatie AI-toepassingen mogelijk die met meer vertrouwen in gereguleerde sectoren en bedrijfskritische toepassingen kunnen worden ingezet.

De implicaties reiken verder dan alleen LLM’s. De technieken voor deterministische LLM-inferentie kunnen mogelijk ook worden toegepast op andere typen neurale netwerken en AI-systemen. De principes van batch-invariante kernels en consistente berekeningsvolgorde zijn algemene principes die de betrouwbaarheid van AI-systemen in het algemeen kunnen verbeteren. Naarmate AI meer wordt geïntegreerd in kritieke infrastructuur en besluitvormingsprocessen, zal het belang van reproduceerbaarheid en determinisme alleen maar toenemen.

Dit werk onderstreept bovendien het belang van fundamenteel onderzoek in AI. Waar een groot deel van de industrie zich richt op het opschalen van modellen en het toevoegen van nieuwe mogelijkheden, pakken onderzoeken als dit de basisproblemen aan die betrouwbare inzet en vertrouwen in AI-systemen mogelijk maken. Dat een voormalige OpenAI CTO zich aan deze uitdaging wijdt, onderstreept het belang ervan en wijst erop dat de AI-industrie begint te erkennen dat betrouwbaarheid en reproduceerbaarheid minstens zo belangrijk zijn als pure capaciteit.

Conclusie

Het Thinking Machines Lab van Mira Murati heeft een kritisch probleem bij grote taalmodellen geïdentificeerd en opgelost: niet-determinisme. Door te onderkennen dat variabiliteit in batchgrootte—en niet alleen drijvende-kommagetallen of GPU-concurrentie—de belangrijkste oorzaak is van niet-deterministische uitkomsten, en door batch-invariante kernels te ontwikkelen om dit op te lossen, hebben ze aangetoond dat deterministische LLM-inferentie haalbaar is. Hun experimentele validatie met Qwen 2.5B liet zien dat perfect determinisme mogelijk is—alle 1.000 testruns leverden identieke uitkomsten op na de implementatie van hun oplossing. Deze doorbraak heeft grote gevolgen voor vertrouwen in AI, debugging, auditing en de inzet van AI-systemen in gereguleerde sectoren. Naarmate organisaties steeds meer op LLM’s vertrouwen voor kritieke toepassingen, zal het vermogen om reproduceerbare, deterministische uitkomsten te produceren een fundamentele vereiste worden voor productieklare AI-systemen.

Veelgestelde vragen

Wat is niet-determinisme in grote taalmodellen?

Niet-determinisme in LLM's verwijst naar het fenomeen waarbij dezelfde inputprompt telkens verschillende uitkomsten oplevert. Dit gebeurt door de precisie van drijvende-kommagetallen, gelijktijdige GPU-uitvoering en variatie in batchgrootte, waardoor het moeilijk is om resultaten consistent te reproduceren.

Waarom is het verslaan van niet-determinisme belangrijk voor AI-systemen?

Het verslaan van niet-determinisme is cruciaal voor vertrouwen, debugging, auditing en verificatie van AI-systemen. Wanneer uitkomsten reproduceerbaar zijn, worden benchmarks betrouwbaarder, kunnen gebruikers beter op resultaten vertrouwen en is het eenvoudiger te begrijpen waarom een model specifieke uitkomsten geeft.

Wat is batch-invariante kerneltechnologie?

Batch-invariante kernels zijn een technische oplossing die ervoor zorgt dat LLM-berekeningen identieke resultaten opleveren ongeacht de batchgrootte. Door een consistente verwerkingsvolgorde en berekeningsstappen te behouden, elimineert deze technologie de variabiliteit die ontstaat door verschillende batchgroottes tijdens de inferentie.

Hoe werkt de oplossing van Thinking Machines?

De oplossing van Thinking Machines bestaat uit drie belangrijke aanpassingen: het behouden van consistente batchweging ongeacht de systeembelasting, het identiek houden van de mixingstap in alle batches en het verwerken van attention-mechanismen in dezelfde volgorde. Deze veranderingen zorgen voor deterministische uitkomsten met behoud van redelijke prestaties.

Wat zijn de praktische toepassingen van deterministische LLM's?

Deterministische LLM's zijn waardevol voor wetenschappelijk onderzoek, naleving van regelgeving, debugging, auditing, benchmarking en elke toepassing waarbij reproduceerbaarheid essentieel is. Ze zijn echter minder wenselijk voor creatieve toepassingen waarbij variatie juist gewenst is.

Arshia is een AI Workflow Engineer bij FlowHunt. Met een achtergrond in computerwetenschappen en een passie voor AI, specialiseert zij zich in het creëren van efficiënte workflows die AI-tools integreren in dagelijkse taken, waardoor productiviteit en creativiteit worden verhoogd.

Arshia Kahani
Arshia Kahani
AI Workflow Engineer

Automatiseer je AI-workflows met FlowHunt

Bouw betrouwbare, reproduceerbare AI-workflows met FlowHunt's intelligent automatiseringsplatform. Zorg voor consistentie in je AI-operaties, van onderzoek tot uitrol.

Meer informatie

LLM als Rechter voor AI-evaluatie
LLM als Rechter voor AI-evaluatie

LLM als Rechter voor AI-evaluatie

Een uitgebreid overzicht van het gebruik van Large Language Models als rechters voor het evalueren van AI-agenten en chatbots. Leer meer over de LLM als Rechter...

9 min lezen
AI LLM +10
AI-agenten: Hoe GPT-4o Denkt
AI-agenten: Hoe GPT-4o Denkt

AI-agenten: Hoe GPT-4o Denkt

Ontdek de denkprocessen van AI-agenten in deze uitgebreide evaluatie van GPT-4o. Kom erachter hoe het presteert bij taken als contentgeneratie, probleemoplossin...

7 min lezen
AI GPT-4o +6