Thumbnail for Verdensmodeller & Generel Intuition: Khoslas største satsning siden LLMs & OpenAI

Verdensmodeller og Generel Intuition: Den næste grænse i AI efter store sprogmodeller

AI Machine Learning World Models Robotics

Introduktion

Landskabet for kunstig intelligens oplever et fundamentalt skift. Efter flere års dominans fra store sprogmodeller vender branchens skarpeste hjerner nu blikket mod en ny grænse: verdensmodeller. Disse systemer repræsenterer en kvalitativt anderledes tilgang til maskinintelligens—en tilgang, der fokuserer på at forstå rumlige relationer, forudsige resultater af handlinger og gøre det muligt for maskiner at interagere meningsfuldt med fysiske omgivelser. Denne artikel udforsker fremkomsten af verdensmodeller som det næste store gennembrud i AI, ser nærmere på teknologien, virksomhederne bag og konsekvenserne for fremtiden for indlejret kunstig intelligens.

Thumbnail for Verdensmodeller & Generel Intuition: Khoslas største satsning siden LLMs

Hvad er verdensmodeller, og hvorfor er de vigtige

Verdensmodeller repræsenterer et grundlæggende brud med traditionelle videoforudsigelsessystemer. Hvor konventionelle videomodeller fokuserer på at forudsige næste sandsynlige billede eller den mest underholdende sekvens, skal verdensmodeller opnå noget langt mere komplekst: de skal forstå hele spektret af muligheder og udfald, der kan opstå ud fra den aktuelle tilstand og de handlinger, der udføres i et miljø. I bund og grund lærer en verdensmodel at simulere virkeligheden—forudsige, hvordan verden ændrer sig baseret på det, du gør.

Denne forskel er afgørende. En videoforudsigelsesmodel kan generere et plausibelt næste billede, men den forstår ikke nødvendigvis årsagssammenhænge eller forholdet mellem handlinger og konsekvenser. En verdensmodel derimod skal begribe disse kausale relationer. Når du foretager en handling, genererer verdensmodellen den næste tilstand baseret på en reel forståelse af, hvordan handlingen påvirker miljøet. Dette er eksponentielt mere komplekst end traditionel videomodellering, fordi systemet skal lære miljøets underliggende fysik, regler og dynamikker.

Betydningen af verdensmodeller rækker langt ud over akademisk interesse. De udgør den manglende brik i indlejret AI—teknologien der skal til for at skabe maskiner, som kan forstå og interagere med fysiske rum. I takt med at feltet bevæger sig ud over sprog-baseret AI og mod robotik og autonome systemer, bliver verdensmodeller essentiel infrastruktur.

Hvorfor verdensmodeller er den næste grænse efter store sprogmodeller

AI-branchen har oplevet en hidtil uset transformation drevet af store sprogmodeller. Systemer som GPT-4 og lignende arkitekturer har demonstreret bemærkelsesværdige evner inden for sprogforståelse, ræsonnement og generering. Men LLMs har grundlæggende begrænsninger, når det gælder rumlig ræsonnering og fysisk interaktion. De kan beskrive, hvordan en opgave udføres, men de kan ikke visualisere eller forudsige de fysiske konsekvenser af handlinger i virkelige miljøer.

Denne mangel bliver stadig mere tydelig, efterhånden som forskere og virksomheder udforsker næste generation af AI-applikationer. Flere store udviklinger har accelereret interessen for verdensmodeller:

  • Rumlig intelligens-kløft: LLMs er stærke i sprog, men har svært ved rumlig ræsonnering, 3D-forståelse og fysisk forudsigelse—afgørende for robotik og autonome systemer.
  • Krav til indlejret AI: Robotter og autonome agenter skal forstå, hvordan deres handlinger påvirker de fysiske omgivelser, hvilket verdensmodeller er specifikt designet til.
  • Branchens investeringer: Store aktører som DeepMind (med Genie- og SEMA-modeller), OpenAI og venturekapital har begyndt at investere massivt i verdensmodelforskning.
  • Transfer learning-potentiale: Verdensmodeller, der er trænet på forskelligartede datakilder, kan overføre viden på tværs af miljøer og domæner.
  • Virkelige anvendelser: Fra autonome køretøjer til industriel robotik og indholdsskabelse åbner verdensmodeller for praktiske anvendelser, som LLMs ikke kan løse.

Sammenfaldet af disse faktorer har skabt en situation, hvor verdensmodeller anerkendes bredt som den næste store grænse inden for AI-udvikling. I modsætning til det relativt smalle spor for forbedringer af LLMs åbner verdensmodeller for flere forskningsretninger og anvendelsesområder på én gang.

Den unikke datamæssige fordel: Metals 3,8 milliarder spilklip

Kernen i General Intuitions tilgang er en usædvanligt værdifuld ressource: adgang til 3,8 milliarder højkvalitets videospilklip, der repræsenterer topmenneskelig adfærd og beslutningstagning. Disse data stammer fra Metal, en 10 år gammel gamingplatform, der har indsamlet klip fra 12 millioner brugere—en brugerbase større end Twitchs 7 millioner månedlige aktive streamere.

Metals datainindsamlingsmetode er genial og spejler metoder brugt af førende virksomheder inden for autonome køretøjer. I stedet for at brugerne bevidst skal optage og kuratere indhold, kører Metal i baggrunden, mens brugerne spiller. Når noget interessant sker, trykker brugeren bare på en knap for at gemme de sidste 30 sekunder. Denne retroaktive klipning, der minder om Teslas fejlrapporteringssystem for selvkørende biler, har resulteret i et enestående datasæt af interessante øjeblikke og toppræstationer.

Værdien af dette datasæt kan ikke overvurderes. I modsætning til syntetiske data eller omhyggeligt udvalgte træningssæt repræsenterer Metals klip autentisk menneskelig adfærd—beslutninger, strategier og reaktioner fra millioner af spillere i forskelligartede scenarier. Denne diversitet er afgørende for at træne verdensmodeller, der kan generalisere på tværs af miljøer og situationer. Datasættet rummer ikke kun succesfulde spil, men også fejl, genopretninger og kreativ problemløsning—hele spektret af menneskelig interaktion med komplekse miljøer.

Metal har også håndteret privatlivs- og datainnsamlingsspørgsmål omhyggeligt ved at matche handlinger til visuelle input og spiludfald, så dataene kan bruges ansvarligt til AI-træning med respekt for brugernes privatliv.

FlowHunt og fremtiden for AI-indholdsintelligens

I takt med at verdensmodeller bliver mere centrale i AI-udvikling, vokser udfordringen med at forstå, analysere og formidle disse fremskridt. Her bliver platforme som FlowHunt uvurderlige. FlowHunt specialiserer sig i at automatisere hele workflowet omkring AI-forskning, indholdsgenerering og publicering—og forvandler rå videotranseksskripter og forskning til færdigt, SEO-optimeret indhold.

For organisationer, der følger udviklingen af verdensmodeller og indlejret AI, strømliner FlowHunt processen med:

  • Transkriptanalyse: Automatisk behandling af videoinhold for at udtrække centrale indsigter og tekniske detaljer
  • Indholdsgenerering: Skabelse af omfattende, velstrukturerede artikler, der forklarer komplekse AI-begreber til forskellige målgrupper
  • SEO-optimering: Sikrer, at indholdet når forskere, praktikere og beslutningstagere, der søger information om verdensmodeller og relateret teknologi
  • Automatiseret publicering: Håndtering af hele publiceringsprocessen fra research til live-indhold

Krydset mellem verdensmodeller og indholdsintelligens repræsenterer en naturlig udvikling i måden, AI-forskning formidles og spredes på. Ligesom verdensmodeller gør det muligt for maskiner at forstå visuelle miljøer, gør værktøjer som FlowHunt det muligt for organisationer at forstå og udnytte de enorme mængder AI-forskning og -udvikling globalt.

Visionsbaserede agenter: Lærer fra pixels som mennesker

En af de mest bemærkelsesværdige demonstrationer af General Intuitions teknologi er udviklingen af visionsbaserede agenter, der lærer at interagere med miljøer ved at observere pixels og forudsige handlinger—præcis som mennesker gør. Disse agenter modtager visuelle billeder som input og genererer handlinger som output, uden adgang til spiltilstande, interne variabler eller privilegeret viden om miljøet.

Udviklingen af disse agenter over tid viser styrken ved at skalere data og regnekraft. Tidlige versioner, udviklet kun fire måneder før demonstrationen, viste basal kompetence: agenterne kunne navigere i miljøer, interagere med UI-elementer som scoreboards (og efterligne menneskelig adfærd) og komme fri, hvis de sad fast, ved at udnytte et fire sekunders hukommelsesvindue. Selvom det var imponerende, lavede disse tidlige agenter fejl og manglede raffinement.

Efterhånden som teamet skalerede tilgangen—forøgede både data- og regneressourcer samt forbedrede modelarkitekturen—blev agenternes evner markant udvidet. Nuværende versioner demonstrerer:

FunktionBeskrivelseBetydning
ImitationslæringRen læring fra menneskelige demonstrationer uden reinforcement learningAgenter arver menneskelige strategier og beslutningsmønstre
Realtime-ydelseAgenter opererer i fuld fart, på niveau med menneskelige reaktionstiderMuliggør praktisk brug i interaktive miljøer
Rumlig hukommelseAgenter holder styr på deres miljø over tidGør planlægning og strategisk beslutningstagning mulig
Adaptiv adfærdAgenter tilpasser taktik baseret på tilgængelige genstande og spiltilstandViser forståelse for kontekst og begrænsninger
Overmenneskelig præstationAgenter udfører lejlighedsvis træk ud over det menneskeligt muligeViser arv af exceptionelle sekvenser fra træningsdata

Det særligt bemærkelsesværdige ved denne præstation er, at agenterne alene er trænet gennem imitationslæring—altså læring fra menneskelige demonstrationer uden reinforcement learning eller finjustering. Udgangspunktet for træningsdataene er menneskelig præstation, men agenterne arver ikke kun gennemsnitlig adfærd, men også de exceptionelle øjeblikke, der er fanget i datasættet. Dette adskiller sig fundamentalt fra tilgange som AlphaGo’s træk 37, hvor systemer lærer overmenneskelige strategier gennem reinforcement learning. Her opstår overmenneskelig præstation naturligt gennem læring af højdepunkter og exceptionelle situationer i menneskelig spiladfærd.

Verdensmodeller: Forudsigelse og forståelse af fysiske dynamikker

Udover handlingsforudsigelse har General Intuition udviklet verdensmodeller, der kan generere fremtidige billeder baseret på aktuelle observationer og forudsagte handlinger. Disse modeller udviser egenskaber, der adskiller dem fra tidligere videogenereringssystemer og viser reel forståelse for fysiske dynamikker.

Verdensmodellerne indeholder flere avancerede evner:

Mus-sensitivitet og hurtige bevægelser: I modsætning til tidligere verdensmodeller forstår disse systemer og kan generere hurtige kamerabevægelser og præcise kontrolinput—egenskaber, som gamere forventer, og som er essentielle for realistisk simulering.

Rumlig hukommelse og langhorisont-generering: Modellerne kan generere sammenhængende sekvenser på over 20 sekunder og samtidig bevare rumlig konsistens og miljøhukommelse.

Fysisk forståelse ud over spillogik: I et opsigtsvækkende eksempel genererer modellen kamerarystelser under en eksplosion—et fysisk fænomen, der opstår i virkeligheden, men aldrig i selve spillets motor. Det viser, at modellen har lært ægte fysikprincipper fra virkelige videooptagelser, ikke blot spil-specifikke regler.

Håndtering af delvis synlighed: Måske mest imponerende kan modellerne håndtere situationer, hvor dele af miljøet er skjult. Når røg eller andre forhindringer dukker op, bryder modellen ikke sammen, men forudsiger korrekt, hvad der kommer frem bag forhindringen, og demonstrerer forståelse for objektpermanens og rumlig ræsonnering.

Transfer learning: Fra spil til virkelighedens video

En af de stærkeste aspekter ved General Intuitions tilgang er evnen til at overføre verdensmodeller på tværs af domæner. Teamet trænede modeller på mindre realistiske spil, overførte dem til mere realistiske spilmiljøer og til sidst til virkelige videoer. Denne progression er afgørende, fordi virkelige videoer ikke indeholder sandhedsværdier for handlingslabels—man kan ikke med sikkerhed vide, hvilke tastatur- og museinput der har frembragt en given videosekvens.

Ved først at træne på spil, hvor sandhedsværdien er kendt, derefter gradvist overføre til mere realistiske miljøer og til sidst til virkelighedens video, lærer modellerne at generalisere over realitetskløften. Modellerne forudsiger handlinger, som om et menneske styrede sekvensen via tastatur og mus—de lærer reelt at forstå virkelige videoer, som var det et spil, der blev spillet af et menneske.

Denne transfer learning-evne har vidtrækkende konsekvenser. Det betyder, at enhver video på internettet potentielt kan bruges som pretraining-data for verdensmodeller. Den enorme mængde menneskeskabt videoindhold—fra sportsoptagelser til instruktionsvideoer og overvågningsvideoer—bliver træningsmateriale for systemer, der forstår, hvordan verden fungerer.

Investeringslandskabet: Khoslas største satsning siden OpenAI

Betydningen af verdensmodeller som teknologisk frontlinje understreges af investeringslandskabet. Da OpenAI tilbød 500 millioner dollars for Metals videospilklipdata, var det et klart signal om, at store AI-laboratorier anser verdensmodeller for kritisk infrastruktur. Men General Intuitions grundlæggere valgte en anden vej: I stedet for at sælge dataene byggede de et uafhængigt verdensmodellaboratorium.

Khosla Ventures ledede en seed-runde på 134 millioner dollars for General Intuition—Khoslas største enkeltstående seed-investering siden OpenAI. Dette investeringsniveau afspejler en tro på, at verdensmodeller repræsenterer et paradigmeskifte på linje med fremkomsten af store sprogmodeller. Beslutningen om at investere i en uafhængig virksomhed i stedet for at opkøbe den antyder, at Khosla og andre investorer tror, at verdensmodeller vil blive grundlæggende teknologi, som flere virksomheder og applikationer vil bygge videre på.

Dette investeringsmønster minder om de tidlige dage af LLM-æraen, hvor venturekapital anerkendte, at grundmodeller ville blive essentiel infrastruktur. Det samme gælder verdensmodeller: de bliver formentlig fundamentet for robotik, autonome systemer, simulering og indlejret AI.

Konsekvenser for robotik og indlejret AI

Sammenfaldet mellem verdensmodeller og robotik/indlejret AI repræsenterer en af de mest lovende grænser for kunstig intelligens. Robotter skal forstå, hvordan deres handlinger påvirker fysiske miljøer—de har brug for verdensmodeller. Autonome køretøjer skal kunne forudsige, hvordan andre agenter opfører sig, og hvordan deres egne handlinger påvirker trafikdynamikken—de har brug for verdensmodeller. Industrielle automationssystemer skal forstå komplekse fysiske interaktioner—de har brug for verdensmodeller.

Teknologien, som General Intuition har demonstreret, antyder, at verdensmodeller trænet på forskelligartede videodata kan overføres til robotkontrol. En robot, der er trænet på verdensmodeller, som forstår fysik, rumlige relationer og konsekvenser af handlinger, vil have et fundament for at generalisere til nye opgaver og miljøer. Det repræsenterer et betydeligt skridt mod generel kunstig intelligens inden for fysiske domæner.

Konsekvenserne rækker ud over robotik. Verdensmodeller kan muliggøre:

  • Autonome systemer: Bedre forudsigelse og planlægning for selvkørende biler og autonome agenter
  • Simulering og træning: Skabelse af realistiske simuleringer til træning af andre AI-systemer og mennesker
  • Indholdsskabelse: Generering af realistisk videoindhold ud fra beskrivelser eller kontrolinput
  • Videnskabelig forståelse: Brug af verdensmodeller til at forstå og forudsige komplekse fysiske fænomener

Konklusion

Verdensmodeller markerer et fundamentalt skift i, hvordan kunstig intelligens nærmer sig forståelse og interaktion med den fysiske verden. I modsætning til store sprogmodeller, der excellerer i sprog men har svært ved rumlig ræsonnering, er verdensmodeller specifikt designet til at forstå kausalitet, forudsige konsekvenser af handlinger og gøre maskiner i stand til at interagere meningsfuldt med deres omgivelser.

Fremkomsten af General Intuition, bakket op af Khosla Ventures’ største seed-investering siden OpenAI, signalerer, at branchen anerkender verdensmodeller som den næste store grænse i AI-udviklingen. Virksomhedens adgang til 3,8 milliarder højkvalitets spilklip—der repræsenterer autentisk menneskelig adfærd og beslutningstagning—giver et unikt grundlag for at træne verdensmodeller, der kan generalisere på tværs af miljøer.

De demonstrerede evner hos General Intuitions visionsbaserede agenter og verdensmodeller—fra realtids handlingsforudsigelse til håndtering af delvis synlighed og transfer på tværs af realitetskløften—tyder på, at vi er vidne til de tidlige stadier af en teknologi, der vil forme robotik, autonome systemer og indlejret AI. I takt med at disse systemer modnes og skaleres, vil de formentlig blive lige så grundlæggende for den næste AI-æra, som store sprogmodeller har været for den nuværende.

Supercharge dit workflow med FlowHunt

Oplev, hvordan FlowHunt automatiserer dine AI-indholds- og SEO-workflows — fra research og indholdsgenerering til publicering og analyse — alt samlet ét sted.

Ofte stillede spørgsmål

Hvad er en verdensmodel i AI?

En verdensmodel er et AI-system, der lærer at forstå og forudsige alle mulige udfald og tilstande baseret på nuværende observationer og de handlinger, der udføres. I modsætning til traditionelle videoforudsigelsesmodeller, der blot forudsiger næste billede, skal verdensmodeller forstå årsagssammenhænge, fysik og konsekvenser af handlinger i et miljø.

Hvordan adskiller verdensmodeller sig fra store sprogmodeller?

Hvor LLMs behandler og genererer tekst ud fra mønstre i sprog, fokuserer verdensmodeller på rumlig intelligens og fysisk forståelse. De forudsiger, hvordan miljøer ændrer sig baseret på handlinger, hvilket gør dem essentielle for robotik, autonome systemer og indlejrede AI-applikationer.

Hvad er General Intuition, og hvorfor er det væsentligt?

General Intuition (GI) er et spinout-selskab, der bygger verdensmodeller trænet på milliarder af videospilklip fra Metal, en 10 år gammel gamingplatform med 12 millioner brugere. Virksomheden modtog en seed-investering på 134 millioner dollars fra Khosla Ventures — Khoslas største enkeltstående seed-investering siden OpenAI — for at udvikle uafhængig verdensmodelteknologi.

Hvordan kan verdensmodeller anvendes uden for gaming?

Verdensmodeller trænet på gamingdata kan overføres til virkelige video- og kontrolopgaver. De muliggør visionsbaserede agenter, der kan forstå og interagere med fysiske miljøer, hvilket gør dem relevante for robotik, autonome køretøjer, industriel automatisering og andre indlejrede AI-brugsscenarier.

Arshia er AI Workflow Engineer hos FlowHunt. Med en baggrund inden for datalogi og en passion for AI, specialiserer han sig i at skabe effektive workflows, der integrerer AI-værktøjer i daglige opgaver og øger produktivitet og kreativitet.

Arshia Kahani
Arshia Kahani
AI Workflow Engineer

Automatisér dine AI-forsknings- og indholdsworkflows

FlowHunt strømliner hele processen med at researche, analysere og udgive AI-indhold — fra transskriptbehandling til SEO-optimeret indholdsgenerering.

Lær mere

Qwen3-Max, OpenAI-restrukturering, Claude-opdateringer
Qwen3-Max, OpenAI-restrukturering, Claude-opdateringer

Qwen3-Max, OpenAI-restrukturering, Claude-opdateringer

Udforsk de nyeste AI-udviklinger, herunder Alibabas Qwen3-Max, OpenAI's udfordringer ved overgang til for-profit, nye billedmodeller, og hvordan konkurrence omf...

18 min læsning
AI Machine Learning +3