
LLM som dommer til AI-evaluering
En omfattende guide til at bruge Large Language Models som dommere ved evaluering af AI-agenter og chatbots. Lær om LLM som dommer-metodologi, best practices fo...

Opdag hvordan Mira Muratis Thinking Machines Lab løser ikke-determinisme-problemet i store sprogmodeller og muliggør reproducerbare AI-resultater – en udvikling, der ændrer vores tillid til og audit af AI-systemer.
Reproducerbarhedskrisen i kunstig intelligens har længe været en torn i øjet på forskere, ingeniører og virksomheder, som er afhængige af store sprogmodeller. Når du stiller ChatGPT det samme spørgsmål to gange, får du sjældent identiske svar – et fænomen, der underminerer videnskabelig stringens og praktisk pålidelighed. For nylig lancerede Mira Murati, tidligere CTO i OpenAI, Thinking Machines Lab med en ambitiøs mission: at løse et af AI’s mest grundlæggende problemer – ikke-determinisme i LLM-inferens. Gennem deres forskningsblog, Connectionism, har de offentliggjort banebrydende arbejde med at overvinde ikke-determinisme og afsløret både de grundlæggende årsager til denne inkonsistens og praktiske løsninger, der kan forandre måden, vi bygger og har tillid til AI-systemer på. Denne artikel gennemgår deres resultater, forklarer de tekniske mekanismer bag LLM-variabilitet og udforsker konsekvenserne for fremtidens AI-pålidelighed.
Ikke-determinisme i store sprogmodeller er et tilsyneladende simpelt begreb med vidtrækkende konsekvenser. Når du giver en LLM præcis samme prompt flere gange, får du forskellige svar – nogle gange kun små variationer, andre gange markante forskelle. Denne inkonsistens bryder med et af de grundlæggende principper i videnskabelig metode: reproducerbarhed. Reproducerbarhed anses som fundamentet for videnskabelig fremdrift, men det er bemærkelsesværdigt svært at opnå med moderne store sprogmodeller. Problemet er ikke blot en irritation; det udgør en kritisk sårbarhed ved udrulning af AI-systemer på tværs af brancher, hvor konsistens og pålidelighed er altafgørende. Uanset om du bruger en LLM til medicinsk diagnosesupport, juridisk dokumentanalyse, finansielle forudsigelser eller forskning, skaber manglende mulighed for at genskabe resultater en kædereaktion af problemer, der påvirker tillid, validering og overholdelse af lovkrav.
Manifestationen af ikke-determinisme er både synlig og frustrerende. Kør den samme prompt gennem en LLM ti gange, og du får muligvis ti forskellige svar. Selv hvis du forsøger at eliminere tilfældighed ved at indstille temperaturparameteren til nul – hvilket teoretisk burde give deterministiske outputs – genererer modellen stadig forskellige resultater. Denne vedholdende variabilitet, selv under formodet deterministiske forhold, har forvirret forskere i årevis. Den gængse opfattelse har været, at det simpelthen er sådan, sprogteknologi fungerer; en iboende egenskab ved teknologien. Men Thinking Machines’ forskning afslører, at denne antagelse var ufuldstændig. De egentlige årsager til ikke-determinisme er langt mere konkrete og – vigtigst – kan adresseres med målrettede tekniske tiltag.
Vigtigheden af at overvinde ikke-determinisme rækker langt ud over akademisk nysgerrighed. I praksis er reproducerbarhed afgørende for at bygge AI-systemer, som organisationer trygt kan implementere i produktionen. Når en LLM giver inkonsistente outputs, bliver det næsten umuligt at fejlfinde effektivt. Hvis en model genererer et forkert eller skadeligt svar, kan ingeniører ikke pålideligt genskabe problemet for at forstå, hvad der gik galt. Det gør det ekstremt vanskeligt at afgøre, om fejlen skyldes selve modellen, prompt engineering, data eller noget helt fjerde. Fejlfinding bliver et spil om tilfældigheder snarere end en systematisk eliminationsproces.
Ud over fejlfinding er reproducerbarhed kritisk for audit og verifikation. Tilsynsmyndigheder, compliance-medarbejdere og sikkerhedsteams skal forstå, hvordan AI-systemer træffer beslutninger. Når output er ikke-deterministiske, bliver audit en mareridtsopgave. Du kan ikke spore et bestemt output tilbage til dets årsager med sikkerhed. Dette er særligt problematisk i regulerede brancher som sundhed, finans og jura, hvor forklarbarhed og auditbarhed er lovkrav. Derudover bliver benchmarking upålideligt, når input og output er ikke-deterministiske. Hvis du sammenligner to modeller eller to versioner af samme model, har du brug for stabile, reproducerbare resultater for at kunne lave meningsfulde sammenligninger. Ikke-determinisme tilfører støj til benchmarks, så det er svært at afgøre, om præstationsforskelle er reelle eller blot tilfældigheder.
Fra et brugertillids-perspektiv er reproducerbarhed lige så vigtig. Brugere vil vide, at når de stiller et AI-system et spørgsmål, får de et konsekvent, pålideligt svar. Hvis det samme spørgsmål giver vidt forskellige svar, mister brugeren tilliden til systemet. Dette gælder især for applikationer, hvor brugeren er afhængig af AI til beslutningsstøtte eller informationssøgning. Ydermere muliggør reproducerbarhed bedre prompt engineering og optimering. Hvis du ikke kan reproducere resultater, kan du heller ikke systematisk forbedre dine prompts eller vide, hvilke variationer der faktisk fungerer bedre.
Den traditionelle hypotese for, hvorfor LLM’er producerer ikke-deterministiske resultater, har kredset om to tekniske faktorer: ikke-associativitet i flydende komma-aritmetik og samtidige udregninger på GPU’er. Forståelse af disse begreber kræver et dyk ned i de matematiske og computertekniske fundamenter, som neurale netværk bygger på. Flydende komma-tal er standarden, når computere repræsenterer decimaltal – værdier som 5,23 eller 3,14159. Men computere kan ikke lagre uendelig præcision. På et tidspunkt skal tallet afrundes for at passe ind i den tilgængelige hukommelse. Denne afrunding introducerer en lille fejl, og når du udfører millioner eller milliarder af matematiske operationer, kan disse små fejl akkumuleres og ophobes.
Ikke-associativitet er især vigtig. I ren matematik er addition associativ: (a + b) + c er det samme som a + (b + c). Men i flydende komma-aritmetik er dette ikke altid sandt på grund af afrundingsfejl. Afhængigt af rækkefølgen, hvori du lægger tal sammen, kan du få lidt forskellige resultater. Det kan lyde trivielt, men i sammenhæng med neurale netværksberegninger med milliarder af parametre og operationer kan disse små forskelle forplante sig gennem netværket og til sidst påvirke, hvilket token modellen vælger som næste output.
Den anden faktor er samtidige udregninger på GPU’er. Grafikkort (GPU’er) er bygget til at udføre mange beregninger samtidigt. Når du giver en GPU en matematisk operation, udføres den ikke sekventielt; arbejdet fordeles i stedet på tusindvis af kerner, der kører parallelt. Problemet er, at du ofte ikke ved, hvilken kerne der bliver færdig først. Denne ikke-deterministiske rækkefølge kan påvirke slutresultatet, især når operationer afhænger af hinanden eller når resultater summeres. Nogle specialiserede hardwaretyper, som fx chips fra firmaer som Groq, løser dette med fuldstændigt symmetriske arkitekturer, hvor du præcis ved, hvor lang tid hver operation tager. De fleste GPU’er har dog ikke denne egenskab.
Selvom hypoteserne om flydende komma og samtidige udregninger indeholder elementer af sandhed, viser Thinking Machines’ forskning, at de ikke fortæller hele historien. Den egentlige synder bag ikke-determinisme i LLM’er er variabilitet i batchstørrelse. For at forstå dette kan du forestille dig et samkørselssystem. Når du sender en prompt til en LLM, behandles din anmodning ikke isoleret. I stedet grupperes den med andre anmodninger i en batch – et slags samkørselssystem for queries. Når systemet er travlt, er batchen stor og indeholder mange anmodninger. Når systemet er stille, er batchen lille. Batchstørrelsen er ikke fast; den ændrer sig dynamisk efter systemets belastning.
Den afgørende indsigt er, at batchstørrelsen påvirker rækkefølgen, hvori de små matematiske operationer udføres i det neurale netværk. Forskellige batchstørrelser kan få de samme matematiske operationer til at blive udført i forskellig rækkefølge. Selvom de matematiske operationer er identiske, betyder rækkefølgen noget på grund af ikke-associativiteten i flydende komma-aritmetik. En lidt anderledes rækkefølge giver lidt forskellige mellemresultater, som kan forplante sig gennem netværket og til sidst ændre, hvilket token modellen vælger som næste output. Da LLM’er fungerer ved at forudsige ét token ad gangen, og hver forudsigelse afhænger af de foregående, kan en enkelt forskel tidligt i processen føre til helt forskellige outputs til sidst.
Dette er en subtil, men skelsættende indsigt. Det betyder, at ikke-determinismen ikke er en uundgåelig del af modelarkitekturen eller den grundlæggende natur af neurale netværk. Det er derimod en konsekvens af, hvordan batching implementeres under inferens. Batchstørrelsen er en variabel, der ændrer sig afhængigt af systemforhold – og denne variabilitet oversættes direkte til outputvariabilitet. Denne opdagelse er vigtig, fordi den antyder, at problemet kan løses gennem omhyggelig engineering af inferens-pipelinen.
Thinking Machines’ løsning på ikke-determinisme består af tre koordinerede tekniske tiltag, samlet kaldet batchinvariante kerner. Den første rettelse sikrer, at uanset batchstørrelse vægtes og normaliseres de beregningsmæssige operationer ens. Hvis vi bruger en restaurant-analog, skal du sikre, at hver skål vejes ens, uanset om køkkenet er fyldt eller tomt. Det betyder, at man skal implementere beregningskerner, der fastholder konsistent normalisering og vægtning, uanset hvor mange anmodninger der er i batchen. Kompromisset er, at det muligvis koster lidt hastighed – systemet kan behandle anmodninger lidt langsommere for at opretholde konsistens. Men den opnåede konsistens er langt mere værdifuld end det marginale hastighedstab.
Den anden rettelse indebærer, at mixing-trinnet holdes identisk på tværs af alle batchstørrelser. I neurale netværksberegninger er der mixing-operationer, hvor forskellige komponenter kombineres. Disse operationer skal udføres på præcis samme måde uanset batchstørrelse. Det kræver omhyggelig implementering af beregningskernerne, så rækkefølgen og metoden for mixing forbliver konstant. Igen kan dette give lidt ekstra beregningsarbejde, men fordelen ved deterministiske outputs retfærdiggør omkostningen.
Den tredje rettelse handler om opmærksomhedsmekanismen, som er central i transformer-baserede sprogmodeller. Opmærksomhedsmekanismen giver modellen mulighed for at se tilbage på det, den tidligere har skrevet, og vægte forskellige tekstdele forskelligt. Når tekst behandles i bidder af varierende størrelse, kan rækkefølgen af operationer i opmærksomheden ændre sig. Løsningen er at bruge samme chunk-størrelse hver gang og sikre, at opmærksomhedsmekanismen behandler information i en ensartet rækkefølge. Denne konsistens i opmærksomhedsbehandlingen er afgørende for deterministiske outputs.
Den endelige test af enhver videnskabelig påstand er empirisk validering. Thinking Machines testede deres løsning med Qwen 2.5B, en stor sprogmodel, og gennemførte et grundigt eksperiment. De genererede 1.000 completions ved temperatur nul (lavest mulige tilfældighed) med samme prompt: “Fortæl mig om Richard Feynman.” Hver completion genererede 1.000 tokens. Før implementeringen af de batchinvariante kerner var resultaterne nedslående, men afslørende. Ud af 1.000 completions fik de 80 unikke svar, hvor det mest almindelige kun optrådte 78 gange. Dette viste alvoren af ikke-determinisme-problemet – selv med temperaturen sat til nul, producerede modellen 80 forskellige outputs.
Efter aktivering af de batchinvariante kerner var resultaterne dramatiske: alle 1.000 completions var identiske. Perfekt determinisme blev opnået. Dette var ikke blot en marginal forbedring eller delvis løsning; det var en fuldstændig eliminering af ikke-determinisme. Hver eneste kørsel gav præcis samme output. Denne validering er afgørende, fordi det beviser, at problemet faktisk kan løses, og at den foreslåede løsning virker. Eksperimentet blev udført med en reel, produktionsskaleret sprogmodel – ikke en forsimplet version – hvilket gør resultaterne endnu mere betydningsfulde.
Opnåelsen af deterministiske LLM-outputs har vidtrækkende konsekvenser for, hvordan vi bygger, implementerer og har tillid til AI-systemer. Først og fremmest muliggør determinisme pålidelig fejlfinding. Når en model producerer et forkert eller uventet output, kan ingeniører nu genskabe problemet konsekvent. Dette forvandler fejlfinding fra et frustrerende spil om tilfældigheder til en systematisk proces. Ingeniører kan spore den præcise beregningsvej, der førte til det problematiske output, identificere fejlen og rette den med sikkerhed for, at de faktisk har løst problemet.
For det andet forbedrer determinisme auditmulighederne dramatisk. Tilsynsmyndigheder, compliance-medarbejdere og sikkerhedsteams kan nu auditere AI-systemer med langt større tillid. Når du konsekvent kan genskabe outputs, kan du spore de præcise faktorer, der har påvirket en beslutning. Dette er især vigtigt i regulerede brancher som sundhed, finans og jura, hvor forklarbarhed er et lovkrav. Auditorer kan verificere, at modellen opfører sig som forventet, og at den ikke producerer skæve eller skadelige outputs på grund af ikke-deterministisk tilfældighed.
For det tredje bliver benchmarking langt mere pålideligt. Når man sammenligner to modeller eller to versioner af samme model, kan forskere nu være sikre på, at præstationsforskelle er reelle og ikke blot tilfældigheder. Dette muliggør mere stringente videnskabelige evalueringer af AI-systemer og bedre beslutninger om, hvilke modeller der skal implementeres. Desuden muliggør determinisme bedre prompt engineering og optimering. Forskere kan systematisk teste forskellige prompts og måle deres effekt med sikkerhed for, at resultaterne er reproducerbare.
For organisationer, der bruger FlowHunt til at automatisere deres AI-arbejdsgange, er konsekvenserne af deterministiske LLM’er markante. FlowHunt gør det muligt for brugere at bygge komplekse, flertrins AI-arbejdsgange, der integrerer sprogmodeller med andre værktøjer og processer. Når LLM’er er ikke-deterministiske, bliver disse arbejdsgange upålidelige – samme input kan give forskellige outputs og føre til inkonsistente downstream-resultater. Med deterministiske LLM’er kan FlowHunt-brugere bygge arbejdsgange med langt større sikkerhed for pålidelighed og konsistens.
FlowHunts automatiseringsmuligheder er særligt værdifulde i samspil med deterministiske LLM’er. Brugere kan skabe arbejdsgange, der er afhængige af specifikke LLM-outputs – velvidende at disse outputs vil være konsistente og reproducerbare. Det giver mulighed for mere sofistikeret automatisering, bedre fejlhåndtering og mere pålidelig integration med andre systemer. For eksempel kan en arbejdsgang, der udtrækker information fra dokumenter via en LLM, nu være sikker på, at det samme dokument altid giver samme udtrukne information. Denne konsistens er afgørende for at bygge troværdig, produktionsklar AI-automatisering.
Selvom deterministiske outputs generelt er ønskværdige, findes der vigtige anvendelsestilfælde, hvor ikke-determinisme faktisk er en fordel. Kreativ skrivning er det mest oplagte eksempel. Hvis du bruger en LLM til at generere kreativt indhold – historier, poesi, marketingtekster – ønsker du sandsynligvis variation. Du vil have modellen til at generere forskellige kreative outputs hver gang, ikke det samme output igen og igen. I disse tilfælde vil brugeren gerne kunne slå deterministisk tilstand fra og lade modellen generere varierende outputs.
Tilsvarende kan variation være værdifuldt ved idéudvikling eller brainstorming. Hvis du bruger en LLM til at generere flere idéer eller perspektiver på et emne, ønsker du forskellige outputs, ikke det samme gentaget. Løsningen er at gøre determinisme valgfri – brugeren kan aktivere den, når der er brug for reproducerbarhed, og deaktivere den, når variation ønskes. Denne fleksibilitet er vigtig for at sikre, at deterministiske LLM’er ikke unødigt begrænser brugen, hvor variation er en fordel.
Arbejdet fra Thinking Machines med at overvinde ikke-determinisme repræsenterer et væsentligt fremskridt mod mere pålidelige, troværdige og produktionsklare AI-systemer. Forskningen adresserer et grundlæggende problem, der har plaget AI-branchen, siden store sprogmodeller blev udbredt. Ved at løse dette problem gør Thinking Machines det muligt at udvikle en ny generation af AI-applikationer, som kan implementeres med større sikkerhed – især i regulerede brancher og missionkritiske anvendelser.
Konsekvenserne rækker ud over bare LLM’er. De teknikker, der er udviklet for at opnå deterministisk LLM-inferens, kan potentielt anvendes på andre typer neurale netværk og AI-systemer. Principperne om batchinvariante kerner og ensartet beregningsrækkefølge er generelle og kan forbedre pålideligheden i AI-systemer generelt. Efterhånden som AI integreres i kritisk infrastruktur og beslutningsprocesser, vil vigtigheden af reproducerbarhed og determinisme kun vokse.
Desuden understreger dette arbejde vigtigheden af grundforskning i AI. Mens store dele af AI-branchen fokuserer på at skalere modeller og tilføje nye funktioner, adresserer forskning som denne fundamentale problemer, der muliggør bedre implementering og tillid til AI-systemer. At en tidligere OpenAI CTO dedikerer sin indsats til at løse dette problem understreger dets betydning og indikerer, at AI-branchen er begyndt at anerkende, at pålidelighed og reproducerbarhed er mindst lige så vigtige som rå kapacitet.
Mira Muratis Thinking Machines Lab har identificeret og løst et kritisk problem i inferens med store sprogmodeller: ikke-determinisme. Ved at anerkende, at variabilitet i batchstørrelse – snarere end flydende komma-aritmetik eller GPU-samtidighed alene – er hovedårsagen til ikke-deterministiske outputs, og ved at udvikle batchinvariante kerner til at adressere dette problem, har de demonstreret, at deterministisk LLM-inferens er muligt. Deres eksperimentelle validering med Qwen 2.5B viste, at perfekt determinisme kan opnås – alle 1.000 test-completions var identiske efter implementering af deres løsning. Dette gennembrud har dybtgående betydning for AI-tillid, fejlfinding, audit og udrulning af AI-systemer i regulerede brancher. I takt med, at organisationer i stigende grad benytter LLM’er til kritiske formål, vil evnen til at levere reproducerbare, deterministiske outputs blive et grundlæggende krav til produktionsklare AI-systemer.
Ikke-determinisme i LLM’er refererer til det fænomen, hvor samme inputprompt giver forskellige output hver gang, den køres. Dette sker på grund af præcisionen i flydende komma-aritmetik, samtidige GPU-udførelser og variationer i batchstørrelse, hvilket gør det svært at genskabe resultater konsekvent.
At overvinde ikke-determinisme er afgørende for tillid, fejlfinding, audit og verifikation af AI-systemer. Når output er reproducerbare, bliver benchmarks mere pålidelige, brugerne kan have større tillid til resultaterne, og det bliver lettere at forstå, hvorfor en model producerer specifikke outputs.
Batchinvariante kerner er en teknisk løsning, der sikrer, at LLM-beregninger giver identiske resultater, uanset batchstørrelse. Ved at opretholde ensartet behandlingsrækkefølge og beregningstrin eliminerer teknologien variabilitet forårsaget af forskellige batchstørrelser under inferens.
Thinking Machines’ løsning involverer tre centrale rettelser: at opretholde ensartet batchvægtning uanset systemload, at holde mixing-trinnet identisk på tværs af alle batches samt at processere opmærksomhedsmekanismer i samme rækkefølge. Disse ændringer sikrer deterministiske outputs, mens ydelsen fortsat er rimelig.
Deterministiske LLM’er er værdifulde til videnskabelig forskning, overholdelse af lovkrav, fejlfinding, audit, benchmarking og enhver anvendelse, hvor reproducerbarhed er kritisk. De er dog mindre ønskværdige til kreative anvendelser, hvor variation er en fordel.
Arshia er AI Workflow Engineer hos FlowHunt. Med en baggrund inden for datalogi og en passion for AI, specialiserer han sig i at skabe effektive workflows, der integrerer AI-værktøjer i daglige opgaver og øger produktivitet og kreativitet.
Byg pålidelige, reproducerbare AI-arbejdsgange med FlowHunts intelligente automatiseringsplatform. Sikr konsistens i dine AI-operationer fra forskning til implementering.
En omfattende guide til at bruge Large Language Models som dommere ved evaluering af AI-agenter og chatbots. Lær om LLM som dommer-metodologi, best practices fo...
Opdag hvordan MIT-forskere fremmer store sprogmodeller (LLM'er) med nye indsigter i menneskelige overbevisninger, nye værktøjer til anomali-detektion og strateg...
Udforsk Anthropic-medstifter Jack Clarks bekymringer om AI-sikkerhed, situationsfornemmelse i store sprogmodeller og det regulatoriske landskab, der former frem...
Cookie Samtykke
Vi bruger cookies til at forbedre din browsingoplevelse og analysere vores trafik. See our privacy policy.


