
Benchmarking
Benchmarking van AI-modellen is de systematische evaluatie en vergelijking van kunstmatige intelligentiemodellen met behulp van gestandaardiseerde datasets, tak...

Ontdek hoe een piepklein model met 7 miljoen parameters Gemini, DeepSeek en Claude overtreft dankzij recursief redeneren en diepe supervisie. Leer de revolutionaire aanpak kennen die alles wat we weten over AI-schaalvergroting op zijn kop zet.
Het landschap van kunstmatige intelligentie is lange tijd gedomineerd door één fundamentele aanname: groter is beter. Grotere modellen met meer parameters, meer trainingsdata en meer rekenkracht presteren consequent beter dan hun kleinere tegenhangers. Een baanbrekend onderzoeksartikel van Samsung daagt deze conventionele wijsheid echter uit op een manier die onze kijk op AI-modelontwerp en efficiëntie volledig kan veranderen. Een piepklein neuraal netwerk met slechts 7 miljoen parameters—een fractie van de grootte van frontier-modellen als GPT-4, Gemini 2.5 Pro of DeepSeek—behaalt nu superieure prestaties op enkele van de meest uitdagende redeneerbenchmarks in kunstmatige intelligentie. Deze opmerkelijke prestatie is niet het resultaat van simpelweg meer data of rekenkracht toevoegen. Het is het gevolg van een fundamenteel andere manier van denken over hoe neurale netwerken complexe problemen oplossen: via een techniek die recursief hiërarchisch redeneren heet, in combinatie met diepe supervisie. In deze uitgebreide gids onderzoeken we hoe dit kleine model werkt, waarom het zo effectief is, en wat het betekent voor de toekomst van AI-ontwikkeling en -toepassing.
Voordat we de innovatie achter het Tiny Recursive Model kunnen waarderen, moeten we begrijpen waarom grote taalmodellen überhaupt moeite hebben met complexe redeneertaken. Moderne grote taalmodellen zoals GPT-4, Claude en Gemini werken volgens een fundamenteel principe: ze voorspellen het volgende teken in een reeks op basis van de voorgaande tekens. Deze autoregressieve aanpak is opmerkelijk effectief gebleken voor veel taken, van vertalen tot samenvatten en creatief schrijven. Maar als het gaat om moeilijke redeneerproblemen—vooral die waarbij meerdere stappen van logische deductie, constraint satisfaction of abstract patroonherkenning nodig zijn—komen de beperkingen van deze aanpak duidelijk naar voren. Het kernprobleem is dat één verkeerde voorspelling in een stap het hele antwoord ongeldig kan maken. Stel je voor dat je een wiskundige vergelijking oplost: als het model in de eerste stap een fout maakt, zijn alle volgende stappen zinloos. Dit cumulatieve foutprobleem wordt exponentieel erger naarmate de complexiteit toeneemt. Bovendien ‘redeneren’ grote taalmodellen niet echt zoals mensen. Ze voeren geavanceerde patroonherkenning uit op basis van hun trainingsdata, maar doen geen echte logische inferentie. Geconfronteerd met nieuwe problemen buiten hun trainingsdistributie falen ze vaak spectaculair. Daarom worstelen zelfs de meest geavanceerde frontier-modellen met benchmarks zoals ARC AGI (Abstraction and Reasoning Corpus), die juist bedoeld zijn om abstract redeneervermogen te testen in plaats van patroonherkenning.
De AI-onderzoeksgemeenschap heeft verschillende technieken ontwikkeld om de redeneerbeperkingen van grote taalmodellen aan te pakken, elk met hun eigen voor- en nadelen. De bekendste is chain-of-thought prompting, een techniek die tegenwoordig wijdverbreid is in moderne AI-systemen. Hierbij wordt het model gestimuleerd om stap-voor-stap redeneringen te genereren voordat het het eindantwoord geeft. Het model wordt dus aangemoedigd om het probleem ‘door te denken’ door tussenstappen te genereren die leiden tot het uiteindelijke antwoord. Deze aanpak is zeer effectief gebleken: studies tonen aan dat chain-of-thought de prestaties op redeneertaken aanzienlijk verbetert. Toch zijn er nadelen. Ten eerste is het computationeel duur—meerdere redeneerstappen genereren betekent meer tokens verwerken, wat de rekentijd en kosten verhoogt. Ten tweede vereist het kwalitatief hoogwaardige redeneerdata voor training, wat duur en tijdrovend is. En ten derde, misschien wel het belangrijkste, is chain-of-thought kwetsbaar. De gegenereerde redenering kan onjuist zijn, en als de redenering gebrekkig is, zal het eindantwoord fout zijn. Het model controleert zijn eigen redenering niet: het genereert slechts plausibel klinkende verklaringen die misschien niet logisch kloppen. Een andere techniek is pass-at-K sampling, waarbij het model meerdere kandidaat-antwoorden genereert en de beste kiest. Stel dat je vraagt “Wat is 5 keer 5?”, dan kan het model tien antwoorden geven en de meest juiste selecteren. Dit verhoogt de nauwkeurigheid, maar is ook computationeel duur en lost het fundamentele probleem niet op: het model redeneert nog steeds niet echt, maar gokt op meerdere voorspellingen. Dit soort technieken worden ook wel ’test-time compute scaling’ genoemd—meer rekenkracht inzetten tijdens het gebruik om betere antwoorden te krijgen. Maar zolang het onderliggende model geen echt redeneren uitvoert, blijven de grenzen van deze aanpak zichtbaar.
Om het belang van de prestaties van het Tiny Recursive Model te begrijpen, moeten we weten waarop het wordt geëvalueerd: ARC AGI (Abstraction and Reasoning Corpus). De ARC AGI-benchmark is ontworpen om iets te testen wat de meeste AI-benchmarks niet doen: echt abstract redeneervermogen. In tegenstelling tot tests die kennis of patroonherkenning meten, presenteert ARC AGI nieuwe visuele redeneerpuzzels die het vermogen vereisen om abstracte patronen te herkennen en toe te passen op nieuwe situaties. De benchmark bestaat uit taken waarbij het model enkele voorbeelden van input-output-paren krijgt te zien en het onderliggende transformatiepatroon moet achterhalen, dat vervolgens toegepast moet worden op nieuwe inputs. Dit zijn geen taken die je met memoriseren of patroonherkenning uit de trainingsdata kunt oplossen; ze vereisen echt redeneren en het vermogen tot abstract generaliseren. Sinds de introductie in 2019 is ARC AGI de gouden standaard geworden voor het evalueren van redeneercapaciteiten in AI. Ondanks zes jaar aan vooruitgang met grote taalmodellen is menselijke nauwkeurigheid op ARC AGI nog niet bereikt. Dit onderstreept dat moderne AI-systemen, hoe indrukwekkend ook, nog steeds worstelen met taken die mensen relatief eenvoudig vinden. Gemini 2.5 Pro, een van de meest geavanceerde frontier-modellen, behaalt slechts 4,9% nauwkeurigheid op ARC AGI 2, zelfs met veel extra rekenkracht tijdens de test. De recentere ARC AGI 3-benchmark is nog uitdagender, en frontier-modellen boeken hier nauwelijks vooruitgang. Tegen deze achtergrond zijn de prestaties van het Tiny Recursive Model ronduit bijzonder: een model met 7 miljoen parameters—minder dan 0,01% van het aantal in Gemini 2.5 Pro—haalt 45% nauwkeurigheid op ARC AGI 1 en 8% op ARC AGI 2, en overtreft daarmee deze enorme frontier-modellen.
De belangrijkste innovatie achter het Tiny Recursive Model is een techniek die recursief hiërarchisch redeneren heet. Dit is fundamenteel anders dan hoe neurale netwerken traditioneel complexe problemen aanpakken. Een analogie: stel je voor dat je een moeilijke sudoku oplost. Je lost die niet in één keer op, maar doet een gok, denkt na of die klopt gezien de regels, en zo niet, pas je je gok aan en probeer je het opnieuw. Je doorloopt deze cyclus tientallen keren, waarbij je elke keer je oplossing verbetert op basis van eerdere pogingen en je redenatie over wat er misging. Dit iteratieve verfijningsproces is precies wat recursief hiërarchisch redeneren doet. Het model houdt twee dingen bij: zijn huidige beste gok en een spoor van de redenering die tot die gok leidde. Bij elke recursiestap werkt het model beide bij: het kijkt naar zijn huidige gok, denkt na over de redenering die daarheen leidde, en genereert een verbeterde gok op basis van die redenering. Daarna herhaalt het deze cyclus, waarbij het de verbeterde gok en het bijgewerkte redeneertraject als input gebruikt voor de volgende iteratie. Het originele hiërarchische redeneermodel (HRM) waarop dit werk is geïnspireerd, gebruikte twee aparte neurale netwerken op verschillende hiërarchieën of ‘snelheden’. De biologische rechtvaardiging was dat het menselijk brein werkt op verschillende tijdsfrequenties—sommige processen zijn snel en reactief, andere langzaam en doordacht. De twee HRM-netwerken moesten dit nabootsen, met één netwerk dat snel werkt en één dat langzamer werkt, samenwerkend in een lus. Maar de Samsung-onderzoekers achter het Tiny Recursive Model stelden deze biologische rechtvaardiging ter discussie. Biologische analogieën zijn interessant, maar verklaren niet per se waarom een architecturale keuze effectief is. Het oorspronkelijke HRM-artikel vertrouwde sterk op biologische argumenten en complexe wiskundige stellingen (fixed-point theorems), maar gaf geen duidelijke ablaties van welke componenten echt bijdroegen aan de prestatieverbeteringen. De onderzoekers stelden een simpele, maar diepgaande vraag: waarom twee netwerken? Waarom niet één? Waarom niet drie of vier? En fundamenteler: waarom architecturale keuzes rechtvaardigen op basis van biologie in plaats van empirische resultaten?
Het antwoord op deze vragen leidde tot de ontwikkeling van het Tiny Recursive Model (TRM), dat het kernidee van recursief redeneren overneemt, maar de complexiteit en biologische rechtvaardigingen weglaat. In plaats van twee middelgrote netwerken op verschillende hiërarchieën, gebruikt TRM één klein netwerk met slechts twee lagen. Het model is opmerkelijk eenvoudig—de pseudocode voor TRM past op één scherm. Deze eenvoud is geen beperking, maar juist een kracht. Door onnodige complexiteit te schrappen, konden de onderzoekers zich richten op wat echt telt: het recursieve verfijningsproces zelf. Het belangrijkste inzicht is dat het model twee soorten informatie moet bijhouden: zijn huidige gok en het redeneertraject dat tot die gok leidde. Dit zijn niet per se verschillende hiërarchieën of tijdsfrequenties, maar simpelweg twee verschillende informatietypen die het model moet volgen. Bij elke recursiestap neemt het model deze twee stukken informatie als input, verwerkt ze door het kleine tweelaagse netwerk, en geeft bijgewerkte versies van zowel de gok als het redeneertraject terug. Dit proces herhaalt zich meerdere keren, waarbij elke iteratie mogelijk de oplossing verbetert. Het mooie van deze aanpak is dat het zorgt voor wat de onderzoekers ‘virtuele diepte’ noemen. Ook al heeft het netwerk slechts twee lagen, door het meerdere keren recursief te doorlopen ontstaat feitelijk een veel grotere diepte. Het is alsof het model een veel dieper netwerk simuleert door iteratie in plaats van extra lagen. Dit is een cruciaal inzicht, want het daagt de conventionele wijsheid uit dat diepere netwerken altijd beter zijn. Traditioneel voegen we meer lagen toe om de capaciteit voor complexe functies te vergroten. Maar het Tiny Recursive Model laat zien dat je vergelijkbare of betere resultaten kunt behalen door het netwerk ondiep te houden en het aantal recursiestappen te verhogen. Dit is een fundamenteel andere manier van denken over modelarchitectuur.
De tweede sleutelinnovatie van het Tiny Recursive Model is diepe supervisie. Terwijl recursief redeneren zorgt voor het iteratief verfijnen, zorgt diepe supervisie ervoor dat het model effectief leert bij iedere iteratie. In traditionele supervised learning maakt een model een voorspelling en krijgt alleen feedback op het eindresultaat. Als het eindantwoord fout is, leert het model dat het hele proces verkeerd was, maar niet welke tussenstappen problematisch waren. Diepe supervisie verandert dit door bij elke recursiestap supervisiesignalen te geven. Het model krijgt dus niet alleen feedback op het eindantwoord, maar bij iedere stap in het redeneerproces. Dit betekent dat het model leert of elke tussenstap in het proces de goede kant op gaat. Het effect van diepe supervisie op de prestaties is spectaculair. In eerste experimenten verdubbelde de nauwkeurigheid bij gebruik van diepe supervisie ten opzichte van enkel supervisie op het eindantwoord: van 19% naar 39% op bepaalde taken. Dit is een enorme sprong door één architecturale wijziging. Diepe supervisie werkt zo goed omdat het rijkere leerfeedback biedt. Als een model alleen feedback krijgt op het eindantwoord, moet het via backpropagation achterhalen welke tussenstappen verantwoordelijk waren voor een fout. Dit is een moeilijk probleem, vooral bij diepe netwerken. Door directe supervisie op iedere stap krijgt het model duidelijke feedback over welke stap correct was, waardoor het gemakkelijker wordt om juist gedrag te leren. Bovendien voorkomt diepe supervisie dat het model vastloopt in lokale optima. Als het model vroeg in het redeneerproces een verkeerde afslag neemt, wordt dit direct gecorrigeerd, in plaats van pas na meerdere stappen.
De prestatieverbeteringen van het Tiny Recursive Model zijn ronduit opmerkelijk. Op de Sudoku Extreme-benchmark stijgt de nauwkeurigheid van 55% naar 87%. Op de Maze Hard-benchmark van 75% naar 85%. Op ARC AGI 1 haalt het model 45% nauwkeurigheid tegenover 40% voor de eerdere aanpak; op ARC AGI 2 haalt het 8% tegenover 5%. Hoewel de verbetering op ARC AGI 2 misschien bescheiden lijkt—van 5% naar 8%—is dit een relatieve stijging van 60%, wat aanzienlijk is in een veld waar vooruitgang vaak in enkele procentpunten wordt gemeten. Maar belangrijker is de context van de modelgrootte. Het Tiny Recursive Model heeft slechts 7 miljoen parameters. Ter vergelijking: Gemini 2.5 Pro, DeepSeek R1 en Claude 3.7 hebben elk honderden miljarden parameters. Het Tiny Recursive Model presteert op deze benchmarks even goed of beter, terwijl het minder dan 0,01% van het aantal parameters gebruikt. Kijkend naar de prestatie-per-parameter-verhouding is het Tiny Recursive Model vele malen efficiënter. Dit heeft grote gevolgen voor AI-toepassingen: kleinere modellen zijn goedkoper, vragen minder infrastructuur en kunnen op edge-apparaten of in beperkte omgevingen worden ingezet. Als een model met 7 miljoen parameters vergelijkbare of betere prestaties levert dan modellen met honderden miljarden parameters, ontstaan er volledig nieuwe mogelijkheden voor AI-toepassingen. Het enige frontier-model dat het Tiny Recursive Model overtrof was Gro for Thinking, met meer dan een biljoen parameters—meer dan 140.000 keer zo groot als TRM. Zelfs met dit verschil is de efficiëntie van het Tiny Recursive Model opmerkelijk.
Om te begrijpen waarom recursief redeneren zo effectief is, moet je kijken naar de aard van complexe redeneertaken. Veel moeilijke redeneerproblemen hebben een bepaalde structuur: een oplossing vinden die aan meerdere beperkingen voldoet of een patroon ontdekken dat een reeks waarnemingen verklaart. Zulke problemen kun je zelden in één keer oplossen; ze vereisen iteratief verfijnen—een kandidaatoplossing genereren, toetsen aan de eisen, fouten vinden en bijstellen. Precies dat maakt recursief redeneren mogelijk. Door een huidige gok én een redeneertraject bij te houden, kan het model deze iteratieve cyclus doorlopen. Het redeneertraject fungeert als een soort werkgeheugen, zodat het model kan bijhouden wat het heeft geprobeerd, wat werkte en wat niet. Dit is fundamenteel anders dan traditionele neurale netwerken, die input door een aantal lagen sturen en een output genereren, zonder terug te grijpen op eerdere beslissingen of een redeneertraject bij te houden. Een traditioneel netwerk kan niet ’nadenken’: “Ik heb dit geprobeerd en het werkte niet, laat ik iets anders proberen.” Recursief redeneren bouwt expliciet een mechanisme in voor iteratief verfijnen en het bijhouden van een redeneertraject. Zo kan het model redeneren op een manier die veel meer lijkt op hoe mensen complexe problemen oplossen: proberen, toetsen, bijstellen. Een ander belangrijk inzicht is dat recursief redeneren als regularisatie werkt. Door het model te dwingen een redeneertraject bij te houden en antwoorden iteratief te verfijnen, leert het oplossingen die generaliseerbaarder zijn. Een model dat alleen een antwoord in één keer kan geven, kan specifieke patronen uit de trainingsdata memoriseren. Een model dat antwoorden moet verfijnen en een redeneertraject moet bijhouden, wordt gedwongen fundamentele principes te leren. Dit verklaart waarom het Tiny Recursive Model zo goed generaliseert, zelfs getraind op relatief weinig data.
De gevolgen van het Tiny Recursive Model reiken verder dan academisch onderzoek; ze zijn direct toepasbaar in de praktijk. Organisaties moeten steeds vaker complexe redeneertaken automatiseren—van data-analyse en patroonherkenning tot besluitvorming en probleemoplossing. Traditioneel vereisten deze taken ofwel menselijke expertise ofwel grote, dure AI-modellen. Het Tiny Recursive Model opent nieuwe mogelijkheden om deze taken efficiënt te automatiseren. FlowHunt, een platform voor AI-workflowautomatisering, kan profiteren van deze redeneerinnovaties om efficiëntere en kosteneffectievere automatiseringsoplossingen te bouwen. In plaats van te vertrouwen op enorme frontier-modellen met veel rekenkracht, kan FlowHunt kleine, efficiënte modellen zoals het Tiny Recursive Model integreren in workflows. Zo kunnen organisaties intelligente automatiseringssystemen bouwen die complexe redeneertaken aankunnen, zonder de hoge kosten van grote modellen. Stel bijvoorbeeld een workflow samen die klantdata analyseert, patronen herkent en aanbevelingen doet. Met een traditioneel groot taalmodel zou deze workflow duur zijn om op schaal uit te voeren. Met een tiny recursive model in een FlowHunt-workflow kan dezelfde taak tegen een fractie van de kosten. Het model kan zijn analyse stap voor stap verfijnen, een redeneertraject bijhouden dat zijn aanbevelingen verklaart, en zo transparantie bieden over hoe het tot conclusies komt. Dit is vooral waardevol in sectoren waar uitlegbaarheid belangrijk is, zoals de zorg, financiën of juridische toepassingen. Het redeneertraject van het recursieve model vormt een helder verslag van het denkproces, waardoor beslissingen beter te begrijpen en te verifiëren zijn. Bovendien maakt de efficiëntie van tiny recursive modellen het mogelijk om redeneercapaciteiten op edge-devices of in beperkte omgevingen te implementeren. Een mobiele app kan zo redenerende AI bevatten die voorheen cloudverwerking vereiste. Dit opent nieuwe mogelijkheden voor intelligente applicaties die offline of met minimale connectiviteit werken.
Ontdek hoe FlowHunt jouw AI-content- en SEO-workflows automatiseert — van onderzoek en contentgeneratie tot publicatie en analyse — alles op één plek.
Het succes van het Tiny Recursive Model tart een van de meest fundamentele aannames in moderne AI-ontwikkeling: de scaling laws die het veld het afgelopen decennium hebben geleid. Scaling laws stellen dat de prestaties voorspelbaar verbeteren naarmate het model, de data en de rekenkracht toenemen. Groter is beter. Meer data is beter. Meer rekenkracht is beter. Deze aanname leidde tot steeds grotere modellen, waarvoor bedrijven miljarden investeren om modellen met honderden miljarden tot zelfs biljoenen parameters te trainen. Het Tiny Recursive Model suggereert dat deze aanname in sommige contexten onvolledig of zelfs misleidend kan zijn. Door een andere architecturale aanpak—recursief redeneren met diepe supervisie—kan een piepklein model prestaties behalen die vergelijkbaar zijn met of zelfs beter zijn dan enorme modellen op bepaalde taken. Dat betekent niet dat scaling laws onjuist zijn; het suggereert dat er meerdere routes naar topprestaties zijn, en schaalvergroting is er slechts één van. Dit heeft grote gevolgen voor de toekomst van AI-ontwikkeling. Als kleinere modellen door slimme architectuurinnovaties vergelijkbaar presteren als grotere modellen, kan dat het vakgebied verschuiven van ‘groter is beter’ naar ’efficiënter is beter’. Dit zou grote voordelen hebben voor het milieu, de rekenefficiëntie en de toegankelijkheid. Het trainen en uitvoeren van enorme modellen vraagt gigantische hoeveelheden energie en infrastructuur. Als we dezelfde prestaties kunnen bereiken met modellen die vele malen kleiner zijn, vermindert dat de milieu-impact van AI en wordt AI toegankelijker voor organisaties met beperkte middelen. Het Tiny Recursive Model laat ook zien dat de relatie tussen modelgrootte en generalisatie complexer is dan gedacht. Traditioneel denken we dat grotere modellen beter generaliseren omdat ze meer patronen kunnen leren. Maar het Tiny Recursive Model laat zien dat kleinere modellen juist beter kunnen generaliseren als ze de juiste inductieve biases ingebouwd hebben. Door mechanismen voor iteratief verfijnen en redeneertrajecten in te bouwen, leert het model oplossingen die generaliseerbaarder zijn. Dit is een voorbeeld van hoe architecturale innovatie soms belangrijker is dan schaalgrootte.
Een van de meest opvallende kenmerken van het Tiny Recursive Model is zijn eenvoud. Het model heeft slechts twee lagen en behaalt zijn prestaties via recursieve verfijning in plaats van architecturale complexiteit. Deze eenvoud is bewust gekozen op basis van empirisch bewijs. De onderzoekers ontdekten dat meer lagen juist leidde tot slechtere generalisatie door overfitting. Dit is een tegenintuïtieve bevinding die de conventionele neural netwerk-wijsheid uitdaagt. Meestal denken we: hoe dieper het netwerk, hoe krachtiger. Maar bij redeneertaken blijkt diepte door recursie effectiever dan diepte door extra lagen. Waarom is dat zo? Een verklaring is dat extra lagen het model in staat stellen om specifieke patronen uit de trainingsdata te memoriseren, wat tot overfitting leidt. Door het netwerk ondiep te houden en het aantal recursiestappen te verhogen, wordt het model gedwongen meer generaliseerbare oplossingen te leren. Elke recursiestap gebruikt hetzelfde tweelaagse netwerk, dus het netwerk moet nuttige bewerkingen leren die iteratief kunnen worden toegepast. Deze beperking dwingt het netwerk om fundamentele principes te leren in plaats van details te memoriseren. Een andere verklaring heeft te maken met de aard van redeneertaken: deze vragen vaak om iteratief verfijnen en constraint satisfaction. Een ondiep netwerk dat recursief wordt toegepast past hier goed bij, omdat het zich kan richten op kleine verbeteringen. Een diep netwerk probeert het hele probleem in één keer op te lossen, wat minder effectief is voor taken die iteratief verfijnen vereisen. De eenvoud van het Tiny Recursive Model heeft ook praktische voordelen: eenvoudige modellen zijn makkelijker te begrijpen, te debuggen en aan te passen. Wil je weten waarom het model een beslissing nam? Je kunt stap voor stap door zijn redeneerproces lopen. Wil je het model aanpassen voor een nieuw type probleem? Je kunt de architectuur of training gericht wijzigen. Dit in tegenstelling tot gigantische modellen met miljarden parameters, die feitelijk black boxes zijn. Het principe ‘minder is meer’ gaat verder dan alleen de architectuur. De onderzoekers ontdekten dat het model geen complexe wiskundige stellingen of biologische rechtvaardigingen nodig heeft om effectief te zijn. Het oorspronkelijke hiërarchische redeneermodel steunde op fixed-point theorems en biologische argumenten. Het Tiny Recursive Model werkt zonder deze theorieën: het houdt gewoon twee stukken informatie bij en verfijnt ze iteratief. Soms is de simpelste uitleg de beste, en moeten we modellen niet nodeloos ingewikkeld maken met overbodige theorieën.
Het succes van het Tiny Recursive Model heeft grote invloed op hoe AI-systemen in de toekomst worden ontwikkeld en ingezet. Ten eerste suggereert het dat efficiëntie een primair ontwerpdoel moet zijn, geen bijzaak. In plaats van eerst enorme modellen te bouwen en die vervolgens te proberen comprimeren of te optimaliseren voor deployment, zouden we modellen vanaf het begin efficiënt moeten ontwerpen. Het Tiny Recursive Model laat zien dat hoge prestaties mogelijk zijn met een klein, efficiënt model als de architectuur zorgvuldig is ontworpen. Ten tweede wijst het op het belang van architecturale innovatie boven schaalgrootte. Waar het veld zich jarenlang vooral op schaalvergroting richtte, toont het Tiny Recursive Model dat slimme architectuur soms effectiever is dan simpelweg grotere modellen bouwen. Dit kan leiden tot een hernieuwde focus op ontwerp en minder op ‘groter is beter’. Ten derde betekent het dat redeneercapaciteit ingebouwd kan worden via architectuur, niet per se via schaalgrootte. Het Tiny Recursive Model presteert goed op redeneertaken door mechanismen voor iteratief verfijnen en redeneertrajecten, niet doordat het enorm groot is. Dit kan leiden tot nieuwe manieren om redeneercapaciteit in AI te bouwen. Ten vierde heeft het gevolgen voor de manier waarop we AI-systemen evalueren en benchmarken. De ARC AGI-benchmark is waardevol gebleken voor het testen van redeneercapaciteit, en het succes van TRM op deze benchmark suggereert dat we meer benchmarks moeten ontwikkelen voor echt redeneren in plaats van alleen patroonherkenning of kennisopzoeking. Vooruitkijkend zijn er verschillende richtingen mogelijk: recursief redeneren combineren met technieken als chain-of-thought of retrieval-augmented generation; recursief redeneren toepassen op andere probleemtypen dan visuele redeneertaken; recursief redeneren opschalen naar grotere modellen; en het redeneerproces verder interpreteerbaar en transparant maken.
Het Tiny Recursive Model is een belangrijke doorbraak in kunstmatige intelligentie. Het laat zien dat kleinere, efficiëntere modellen superieure prestaties kunnen leveren op complexe redeneertaken, dankzij slimme architectuurinnovaties. Door recursief hiërarchisch redeneren te combineren met diepe supervisie, behaalt het model 45% nauwkeurigheid op ARC AGI 1 en 8% op ARC AGI 2, met slechts 7 miljoen parameters—minder dan 0,01% van het aantal in frontier-modellen als Gemini 2.5 Pro. Deze prestatie daagt fundamentele aannames over AI-ontwikkeling uit en suggereert dat innovatie en efficiëntie minstens zo belangrijk zijn als schaal. De implicaties reiken verder dan onderzoek: organisaties kunnen kleinere, efficiënte modellen inzetten om complexe redeneertaken te automatiseren tegen een fractie van de kosten van grote modellen. Naarmate het veld zich verder ontwikkelt, zullen de principes die door het Tiny Recursive Model zijn aangetoond—eenvoud, iteratieve verfijning en efficiënte architectuur—waarschijnlijk steeds belangrijker worden bij het ontwikkelen van de volgende generatie AI-systemen.
Het Tiny Recursive Model is een neurale netwerk met 7 miljoen parameters dat recursief hiërarchisch redeneren en diepe supervisie gebruikt om superieure prestaties te leveren op complexe redeneertaken in vergelijking met veel grotere modellen zoals Gemini 2.5 Pro en DeepSeek.
TRM gebruikt een innovatieve aanpak door recursief redeneren (meerdere verbeterslagen) te combineren met diepe supervisie (geleerde kenmerken tussen stappen doorgeven). Hierdoor kan het kleine model problemen iteratief doordenken, vergelijkbaar met menselijk redeneren, in plaats van antwoorden in één keer te voorspellen.
TRM behaalt 45% nauwkeurigheid op ARC AGI 1 en 8% op ARC AGI 2, en presteert daarmee beter dan Gemini 2.5 Pro (4,9%), DeepSeek R1 en Claude 3.7, terwijl het minder dan 0,01% van hun parameters gebruikt.
Recursief redeneren maakt het mogelijk voor het model om zijn antwoord stap voor stap te verfijnen door twee belangrijke elementen bij te houden: de huidige gok en het redeneertraject. Dit creëert een feedbacklus waarbij het model zichzelf kan beoordelen en antwoorden meerdere keren kan bijstellen, net als mensen complexe problemen oplossen via trial-and-error.
Diepe supervisie verhoogt de nauwkeurigheid door supervisiesignalen te geven bij meerdere stappen in het redeneerproces. In plaats van alleen het eindantwoord te controleren, krijgt het model bij iedere tussenstap feedback, wat in eerste experimenten de nauwkeurigheid verdubbelde van 19% naar 39%.
Arshia is een AI Workflow Engineer bij FlowHunt. Met een achtergrond in computerwetenschappen en een passie voor AI, specialiseert zij zich in het creëren van efficiënte workflows die AI-tools integreren in dagelijkse taken, waardoor productiviteit en creativiteit worden verhoogd.
Bouw intelligente automatiseringsflows die gebruikmaken van geavanceerde AI-modellen en redeneertechnieken om complexe problemen efficiënt op te lossen.
Benchmarking van AI-modellen is de systematische evaluatie en vergelijking van kunstmatige intelligentiemodellen met behulp van gestandaardiseerde datasets, tak...
Een diepgaande analyse van LG's EXAONE Deep 32B redeneringsmodel, getest tegen DeepSeek R1 en Alibaba's QwQ. We onderzoeken de claims van superieure prestaties ...
Parameter-Efficient Fine-Tuning (PEFT) is een innovatieve benadering in AI en NLP waarmee grote, voorgetrainde modellen kunnen worden aangepast aan specifieke t...
Cookie Toestemming
We gebruiken cookies om uw browse-ervaring te verbeteren en ons verkeer te analyseren. See our privacy policy.

