Thumbnail for World Models & General Intuition: Khosla's grootste gok sinds LLMs & OpenAI

World Models en Algemene Intuïtie: De Volgende Grens in AI na Grote Taalmodellen

AI Machine Learning World Models Robotics

Introductie

Het landschap van kunstmatige intelligentie ondergaat een fundamentele verschuiving. Na jaren van dominantie door grote taalmodellen richten de slimste geesten in de industrie zich nu op een nieuw grensgebied: world models. Deze systemen vertegenwoordigen een kwalitatief andere benadering van machine-intelligentie — een aanpak die zich richt op het begrijpen van ruimtelijke relaties, het voorspellen van uitkomsten van acties en het mogelijk maken dat machines betekenisvol met fysieke omgevingen kunnen interageren. Dit artikel verkent de opkomst van world models als de volgende grote doorbraak in AI, bekijkt de technologie, de bedrijven die hierin vooroplopen en de implicaties voor de toekomst van belichaamde kunstmatige intelligentie.

Thumbnail for World Models & General Intuition: Khosla's grootste gok sinds LLMs

Wat zijn World Models en Waarom Zijn Ze Belangrijk

World models vormen een fundamentele breuk met traditionele videovoorspellingssystemen. Waar conventionele videomodellen zich richten op het voorspellen van het volgende waarschijnlijke frame of de meest vermakelijke sequentie, moeten world models iets veel complexers doen: ze moeten het volledige spectrum van mogelijkheden en uitkomsten begrijpen die kunnen voortvloeien uit de huidige toestand en de acties die binnen een omgeving worden uitgevoerd. In essentie leert een world model om de realiteit te simuleren — te voorspellen hoe de wereld verandert op basis van wat jij doet.

Dit onderscheid is cruciaal. Een videovoorspellingsmodel kan een aannemelijk volgend frame genereren, maar begrijpt niet per se causaliteit of de relatie tussen acties en consequenties. Een world model daarentegen moet deze causale relaties doorgronden. Wanneer je een actie onderneemt, genereert het world model de volgende toestand op basis van een daadwerkelijk begrip van hoe die actie invloed heeft op de omgeving. Dit is exponentieel complexer dan traditionele video­modellering, omdat het systeem de onderliggende fysica, regels en dynamiek van een omgeving moet leren.

De betekenis van world models gaat veel verder dan academische interesse. Ze vormen het ontbrekende stuk in belichaamde AI — de technologie die nodig is om machines te creëren die fysieke ruimtes kunnen begrijpen en ermee kunnen interageren. Nu het vakgebied zich beweegt van taalgebaseerde AI richting robotica en autonome systemen, worden world models essentieel fundament.

Waarom World Models de Volgende Grens Zijn na Grote Taalmodellen

De AI-industrie heeft een ongekende transformatie doorgemaakt dankzij grote taalmodellen. Systemen als GPT-4 en vergelijkbare architecturen hebben indrukwekkende capaciteiten getoond op het gebied van taalbegrip, redeneren en genereren. Toch hebben LLMs fundamentele beperkingen als het gaat om ruimtelijk redeneren en fysieke interactie. Ze kunnen beschrijven hoe je een taak uitvoert, maar kunnen niet visualiseren of voorspellen wat de fysieke gevolgen zijn van acties in echte omgevingen.

Dit tekort is steeds duidelijker geworden nu onderzoekers en bedrijven de volgende generatie AI-toepassingen verkennen. Verschillende belangrijke ontwikkelingen hebben de interesse in world models versneld:

  • Ruimtelijke intelligentiekloof: LLMs blinken uit in taal, maar worstelen met ruimtelijk redeneren, 3D-begrip en fysieke voorspelling — essentieel voor robotica en autonome systemen.
  • Vereisten voor belichaamde AI: Robots en autonome agents moeten begrijpen hoe hun acties de fysieke omgeving beïnvloeden, iets waar world models specifiek voor zijn ontworpen.
  • Investeringen vanuit de sector: Grote spelers zoals DeepMind (met Genie en SEMA-modellen), OpenAI en durfkapitaalbedrijven investeren zwaar in onderzoek naar world models.
  • Potentie van transfer learning: World models getraind op diverse databronnen kunnen kennis overdragen tussen verschillende omgevingen en domeinen.
  • Toepassingen in de echte wereld: Van autonome voertuigen tot industriële robotica en contentcreatie — world models maken praktische toepassingen mogelijk waar LLMs tekortschieten.

De samenloop van deze factoren zorgt ervoor dat world models breed erkend worden als de volgende grote grens in AI-ontwikkeling. In tegenstelling tot het relatief smalle pad naar verbeteringen bij LLMs, openen world models meerdere onderzoeksrichtingen en toepassingsdomeinen tegelijk.

Het Unieke Data-Voordeel: Metal’s 3,8 Miljard Gameclips

Centraal in de aanpak van General Intuition staat een buitengewoon waardevol bezit: toegang tot 3,8 miljard hoogwaardige videogameclips die piekmenselijk gedrag en besluitvorming weergeven. Deze data zijn afkomstig van Metal, een gamingplatform dat in 10 jaar tijd clips heeft verzameld van 12 miljoen gebruikers — een gebruikersbestand groter dan de 7 miljoen maandelijkse streamers van Twitch.

De dataverzamelmethode van Metal is ingenieus en lijkt op benaderingen van toonaangevende bedrijven in autonome voertuigen. In plaats van gebruikers te vragen bewust content op te nemen en te selecteren, draait Metal op de achtergrond terwijl je games speelt. Wanneer er iets interessants gebeurt, drukt de gebruiker simpelweg op een knop om de laatste 30 seconden op te slaan. Deze retroactieve clipping, vergelijkbaar met Tesla’s bugreporting voor zelfrijdende auto’s, heeft geleid tot een ongeëvenaarde dataset van interessante momenten en piekprestaties van mensen.

De waarde van deze dataset kan nauwelijks worden overschat. In tegenstelling tot synthetische data of zorgvuldig samengestelde trainingssets vertegenwoordigen Metal’s clips authentiek menselijk gedrag — de beslissingen, strategieën en reacties van miljoenen spelers in uiteenlopende gamescenario’s. Deze diversiteit is cruciaal voor het trainen van world models die kunnen generaliseren over verschillende omgevingen en situaties. De dataset bevat niet alleen geslaagde acties, maar ook fouten, herstelacties en creatieve probleemoplossingen — het volledige spectrum van menselijke interactie met complexe omgevingen.

Metal is bovendien zorgvuldig omgegaan met privacy- en datavraagstukken door acties te koppelen aan visuele input en game-uitkomsten, zodat de data verantwoord gebruikt kan worden voor AI-training met respect voor gebruikersprivacy.

FlowHunt en de Toekomst van AI Content Intelligence

Nu world models steeds centraler komen te staan in AI-ontwikkeling, wordt het begrijpen, analyseren en communiceren van deze vooruitgang complexer. Hier worden platforms zoals FlowHunt onmisbaar. FlowHunt specialiseert zich in het automatiseren van het volledige workflowproces van AI-onderzoek, contentgeneratie en publicatie — van ruwe videotranscripten en onderzoek tot gepolijste, SEO-geoptimaliseerde content.

Voor organisaties die ontwikkelingen op het gebied van world models en belichaamde AI volgen, stroomlijnt FlowHunt het proces van:

  • Transcriptanalyse: Automatisch verwerken van videocontent om belangrijke inzichten en technische details te extraheren
  • Contentgeneratie: Het creëren van uitgebreide, goed gestructureerde artikelen die complexe AI-concepten uitleggen aan diverse doelgroepen
  • SEO-optimalisatie: Zorgen dat content onderzoekers, professionals en besluitvormers bereikt die zoeken naar informatie over world models en aanverwante technologieën
  • Publicatieautomatisering: Het volledige publicatieproces beheren — van onderzoek tot live content

De kruising van world models en content intelligence is een logische volgende stap in hoe AI-onderzoek gecommuniceerd en verspreid wordt. Terwijl world models machines in staat stellen visuele omgevingen te begrijpen, stellen tools zoals FlowHunt organisaties in staat de enorme hoeveelheid AI-onderzoek en -ontwikkeling wereldwijd te benutten.

Visie-gebaseerde Agents: Leren van Pixels Zoals Mensen

Een van de meest indrukwekkende demonstraties van General Intuition’s technologie is de ontwikkeling van visie-gebaseerde agents die leren interageren met omgevingen door te kijken naar pixels en acties te voorspellen — precies zoals mensen dat doen. Deze agents krijgen visuele frames als input en genereren acties als output, zonder toegang tot gamestaten, interne variabelen of andere voorkennis over de omgeving.

De voortgang van deze agents door de tijd laat zien hoe krachtig het opschalen van data en rekenkracht is. Vroege versies, slechts vier maanden voor de demonstratie ontwikkeld, toonden basale competentie: agents konden omgevingen navigeren, interageren met UI-elementen zoals scoreborden (menselijk gedrag imiterend) en zich herstellen uit vastgelopen situaties dankzij een geheugenvenster van vier seconden. Hoewel indrukwekkend, maakten deze vroege agents fouten en ontbrak het hen aan verfijning.

Toen het team hun aanpak opschaalde — zowel qua data als rekenkracht, en de modelarchitectuur verbeterde — namen de capaciteiten van de agents spectaculair toe. De huidige versies tonen:

MogelijkheidBeschrijvingBelang
Imitatie-lerenLouter leren van menselijke demonstraties zonder reinforcement learningAgents nemen menselijke strategieën en besluitvorming over
Realtime prestatiesAgents werken op volledige snelheid, gelijk aan menselijke reactietijdenMaakt praktische inzet in interactieve omgevingen mogelijk
Ruimtelijk geheugenAgents houden context bij over hun omgeving in de tijdOndersteunt planning en strategische beslissingen
Adaptief gedragAgents passen hun tactiek aan op basis van beschikbare items en gamestatusToont begrip van context en beperkingen
Bovenmenselijke prestatiesAgents voeren soms acties uit die de typische menselijke capaciteit overstijgenToont het overnemen van uitzonderlijke acties uit de trainingsdata

Wat deze prestatie bijzonder maakt, is dat de agents puur getraind zijn via imitatie-leren — dus door menselijke demonstraties, zonder reinforcement learning of fine-tuning. Het startpunt van de trainingsdata is menselijk niveau, maar de agents nemen niet alleen gemiddeld gedrag over, ze krijgen ook de uitzonderlijke momenten uit de dataset mee. Dit verschilt fundamenteel van benaderingen zoals AlphaGo’s Zet 37, waar systemen bovenmenselijke strategieën leren via reinforcement learning. Hier komt bovenmenselijke prestatie vanzelf voort uit het leren van hoogtepunten en uitzonderlijke momenten uit menselijk spel.

World Models: Voorspellen en Begrijpen van Fysieke Dynamica

Naast actievoorspelling heeft General Intuition world models ontwikkeld die toekomstige frames kunnen genereren op basis van huidige observaties en voorspelde acties. Deze modellen beschikken over eigenschappen die ze onderscheiden van eerdere videogeneratiesystemen en tonen een echt begrip van fysieke dynamica.

De world models bevatten diverse geavanceerde mogelijkheden:

Muissensitiviteit en snelle bewegingen: In tegenstelling tot eerdere world models begrijpen deze systemen snelle camerabewegingen en precieze bedieningsinputs — eigenschappen die gamers verwachten en essentieel zijn voor realistische simulatie.

Ruimtelijk geheugen en lange horizon-generatie: De modellen kunnen samenhangende sequenties van meer dan 20 seconden genereren, met behoud van ruimtelijke consistentie en geheugen van de omgeving.

Fysiek begrip buiten game-logica: In één opvallend voorbeeld genereert het model cameratrilling tijdens een explosie — een fysiek fenomeen dat in de echte wereld voorkomt, maar niet in de game-engine zelf. Dit toont aan dat het model echte natuurkundige principes heeft geleerd uit echte videodata, niet alleen gamespecifieke regels.

Omgaan met gedeeltelijke waarneembaarheid: Misschien nog indrukwekkender is dat de modellen situaties aankunnen waarin delen van de omgeving verborgen zijn. Wanneer rook of andere obstakels verschijnen, stort het model niet in. Het voorspelt juist correct wat er achter het obstakel vandaan komt en toont begrip van objectpermanentie en ruimtelijk redeneren.

Transfer Learning: Van Games naar Echte Wereld Video

Een van de krachtigste aspecten van de aanpak van General Intuition is het vermogen om world models tussen domeinen te transfereren. Het team trainde modellen op minder realistische games, bracht ze over naar realistischere gameomgevingen en uiteindelijk naar echte videobeelden. Dit is cruciaal omdat echte video geen ground truth voor actie-labels biedt — je kunt niet precies weten welke toetsenbord- en muisinvoer een bepaalde videosequentie heeft veroorzaakt.

Door eerst te trainen op games waar die ground truth beschikbaar is, vervolgens stapsgewijs over te stappen naar realistischere omgevingen en ten slotte naar echte video, leren de modellen generaliseren over de reality gap. De modellen voorspellen acties alsof een mens de sequentie met toetsenbord en muis bestuurt — ze leren dus echte video te begrijpen alsof het een game is die door een mens wordt gespeeld.

Deze transfer learning-mogelijkheid heeft diepe implicaties. Het betekent dat iedere video op internet potentieel als pre-trainingsdata kan dienen voor world models. De enorme hoeveelheid door mensen gegenereerde videocontent — van sportbeelden tot instructievideo’s en bewakingsbeelden — wordt zo trainingsmateriaal voor systemen die begrijpen hoe de wereld werkt.

Het Investeringslandschap: Khosla’s Grootste Gok Sinds OpenAI

Het belang van world models als technologische grens wordt onderstreept door het investeringslandschap. Toen OpenAI $500 miljoen bood voor Metal’s videogameclipdata, was dat een duidelijk signaal dat grote AI-labs world models als kritieke infrastructuur zien. Maar de oprichters van General Intuition kozen voor een andere weg: in plaats van de data te verkopen, bouwden ze een onafhankelijk world model-lab.

Khosla Ventures leidde een seedronde van $134 miljoen voor General Intuition — Khosla’s grootste enkele seed-investering sinds OpenAI. Dit investeringsniveau weerspiegelt het vertrouwen dat world models een paradigma­verschuiving vormen die vergelijkbaar is met de opkomst van grote taalmodellen. De keuze om een onafhankelijk bedrijf te financieren in plaats van het over te nemen, suggereert dat Khosla en andere investeerders verwachten dat world models fundamentele technologie worden waarop veel bedrijven en toepassingen zullen bouwen.

Dit investeringspatroon doet denken aan de begindagen van het LLM-tijdperk, toen durfkapitaal inzag dat foundation models essentiële infrastructuur zouden worden. Hetzelfde geldt voor world models: ze zullen waarschijnlijk fundamentele technologie worden voor robotica, autonome systemen, simulatie en belichaamde AI-toepassingen.

Implicaties voor Robotica en Belichaamde AI

De samenkomst van world models met robotica en belichaamde AI vormt een van de meest veelbelovende grenzen in kunstmatige intelligentie. Robots moeten begrijpen hoe hun acties fysieke omgevingen beïnvloeden — ze hebben world models nodig. Autonome voertuigen moeten voorspellen hoe andere agents zich gedragen en hoe hun eigen acties verkeersdynamiek beïnvloeden — ze hebben world models nodig. Industriële automatiseringssystemen moeten complexe fysieke interacties begrijpen — ze hebben world models nodig.

De technologie van General Intuition suggereert dat world models, getraind op diverse videodata, kunnen worden overgezet naar robotbesturingstaken. Een robot die getraind is op world models die fysica, ruimtelijke relaties en gevolgen van acties begrijpen, heeft een fundament om te generaliseren naar nieuwe taken en omgevingen. Dit is een grote stap richting algemene kunstmatige intelligentie in fysieke domeinen.

De implicaties reiken verder dan robotica. World models zouden kunnen zorgen voor:

  • Autonome systemen: Betere voorspelling en planning voor zelfrijdende auto’s en autonome agents
  • Simulatie en training: Realistische simulaties voor het trainen van andere AI-systemen en voor menselijke training
  • Contentcreatie: Genereren van realistische videocontent op basis van beschrijvingen of input
  • Wetenschappelijk begrip: Gebruik van world models om complexe fysieke fenomenen te begrijpen en te voorspellen

Conclusie

World models vormen een fundamentele verschuiving in hoe kunstmatige intelligentie de fysieke wereld leert begrijpen en ermee interageert. In tegenstelling tot grote taalmodellen, die uitblinken in taal maar moeite hebben met ruimtelijk redeneren, zijn world models specifiek ontworpen om causaliteit te begrijpen, uitkomsten van acties te voorspellen en machines betekenisvol te laten interageren met omgevingen.

De opkomst van General Intuition, gesteund door Khosla Ventures’ grootste seed-investering sinds OpenAI, laat zien dat de industrie world models erkent als de volgende grote grens in AI-ontwikkeling. De toegang van het bedrijf tot 3,8 miljard hoogwaardige videogameclips — die authentiek menselijk gedrag en besluitvorming representeren — biedt een uniek fundament om world models te trainen die kunnen generaliseren over uiteenlopende omgevingen.

De getoonde capaciteiten van General Intuition’s visie-gebaseerde agents en world models — van realtime actievoorspelling tot omgaan met gedeeltelijke waarneembaarheid en transfer over de reality gap — suggereren dat we de beginfase meemaken van een technologie die robotica, autonome systemen en belichaamde AI zal hervormen. Naarmate deze systemen volwassen worden en opschalen, zullen ze waarschijnlijk net zo fundamenteel worden voor het volgende AI-tijdperk als grote taalmodellen voor het huidige tijdperk zijn geweest.

Versnel Uw Workflow met FlowHunt

Ervaar hoe FlowHunt uw AI-content en SEO-workflows automatiseert — van onderzoek en contentgeneratie tot publicatie en analyse — allemaal op één plek.

Veelgestelde vragen

Wat is een world model in AI?

Een world model is een AI-systeem dat leert om het volledige scala aan mogelijke uitkomsten en toestanden te begrijpen en te voorspellen op basis van huidige observaties en genomen acties. In tegenstelling tot traditionele videovoorspellingsmodellen die alleen het volgende frame voorspellen, moeten world models causaliteit, fysica en de gevolgen van acties in een omgeving begrijpen.

Hoe verschillen world models van grote taalmodellen?

Waar LLMs tekst verwerken en genereren op basis van patronen in taal, richten world models zich op ruimtelijke intelligentie en fysiek begrip. Ze voorspellen hoe omgevingen zullen veranderen op basis van acties, wat ze essentieel maakt voor robotica, autonome systemen en belichaamde AI-toepassingen.

Wat is General Intuition en waarom is het belangrijk?

General Intuition (GI) is een spin-off bedrijf dat world models bouwt, getraind op miljarden videogameclips van Metal, een 10 jaar oud gamingplatform met 12 miljoen gebruikers. Het bedrijf ontving een seedronde van $134 miljoen van Khosla Ventures — Khosla’s grootste enkele seed-investering sinds OpenAI — om onafhankelijke world model-technologie te ontwikkelen.

Hoe kunnen world models worden toegepast buiten gaming?

World models getraind op gamingdata kunnen worden toegepast op video-interpretatie en control taken in de echte wereld. Ze stellen visie-gebaseerde agents in staat om fysieke omgevingen te begrijpen en ermee te interageren, wat ze toepasbaar maakt voor robotica, autonome voertuigen, industriële automatisering en andere belichaamde AI-gebruikssituaties.

Arshia is een AI Workflow Engineer bij FlowHunt. Met een achtergrond in computerwetenschappen en een passie voor AI, specialiseert zij zich in het creëren van efficiënte workflows die AI-tools integreren in dagelijkse taken, waardoor productiviteit en creativiteit worden verhoogd.

Arshia Kahani
Arshia Kahani
AI Workflow Engineer

Automatiseer Uw AI-onderzoek en Content Workflows

FlowHunt stroomlijnt het volledige proces van onderzoek doen, analyseren en publiceren van AI-inzichten — van transcriptverwerking tot SEO-geoptimaliseerde contentgeneratie.

Meer informatie