Thumbnail for Weltmodelle & Allgemeine Intuition: Khoslas größte Wette seit LLMs & OpenAI

Weltmodelle und allgemeine Intuition: Die nächste Grenze der KI nach großen Sprachmodellen

AI Machine Learning World Models Robotics

Einführung

Die Landschaft der künstlichen Intelligenz erlebt einen grundlegenden Wandel. Nach Jahren der Vorherrschaft großer Sprachmodelle richten die klügsten Köpfe der Branche ihren Blick auf eine neue Grenze: Weltmodelle. Diese Systeme stellen einen qualitativ anderen Ansatz für maschinelle Intelligenz dar – einen, der sich auf das Verständnis räumlicher Beziehungen, das Vorhersagen von Ergebnissen aus Handlungen und die sinnvolle Interaktion von Maschinen mit physischen Umgebungen konzentriert. Dieser Artikel beleuchtet das Aufkommen von Weltmodellen als nächsten großen Durchbruch in der KI, betrachtet die Technologie, die Unternehmen, die sie vorantreiben, und die Auswirkungen auf die Zukunft der verkörperten künstlichen Intelligenz.

Thumbnail for Weltmodelle & Allgemeine Intuition: Khoslas größte Wette seit LLMs

Was sind Weltmodelle und warum sind sie wichtig

Weltmodelle stellen einen grundlegenden Wandel gegenüber traditionellen Videovorhersagesystemen dar. Während herkömmliche Videomodelle darauf abzielen, das nächste wahrscheinliche Bild oder die unterhaltsamste Sequenz vorherzusagen, müssen Weltmodelle etwas weitaus Komplexeres leisten: Sie müssen die gesamte Bandbreite an Möglichkeiten und Ergebnissen verstehen, die sich aus dem aktuellen Zustand und den getätigten Handlungen in einer Umgebung ergeben können. Im Wesentlichen lernt ein Weltmodell, die Realität zu simulieren – vorherzusagen, wie sich die Welt basierend auf dem eigenen Handeln verändert.

Dieser Unterschied ist entscheidend. Ein Videovorhersagemodell kann zwar ein plausibles nächstes Bild erzeugen, versteht aber nicht zwangsläufig Kausalität oder die Beziehung zwischen Handlung und Konsequenz. Ein Weltmodell hingegen muss diese kausalen Zusammenhänge erfassen. Wenn Sie eine Handlung ausführen, erzeugt das Weltmodell den nächsten Zustand auf Basis eines echten Verständnisses davon, wie diese Handlung die Umgebung beeinflusst. Das ist exponentiell komplexer als traditionelle Videomodellierung, da das System die zugrunde liegende Physik, Regeln und Dynamiken einer Umgebung erlernen muss.

Die Bedeutung von Weltmodellen geht weit über akademisches Interesse hinaus. Sie stellen das fehlende Bindeglied in der verkörperten KI dar – die Technologie, die benötigt wird, um Maschinen zu erschaffen, die physische Räume verstehen und mit ihnen interagieren können. Während sich das Feld von sprachbasierter KI hin zu Robotik und autonomen Systemen bewegt, werden Weltmodelle zur essentiellen Infrastruktur.

Logo

Bereit, Ihr Geschäft zu erweitern?

Starten Sie heute Ihre kostenlose Testversion und sehen Sie innerhalb weniger Tage Ergebnisse.

Warum Weltmodelle die nächste Grenze nach großen Sprachmodellen sind

Die KI-Branche hat durch große Sprachmodelle einen beispiellosen Wandel erlebt. Systeme wie GPT-4 und ähnliche Architekturen haben bemerkenswerte Fähigkeiten im Sprachverständnis, in der Argumentation und in der Generierung gezeigt. Dennoch stoßen LLMs an grundlegende Grenzen, wenn es um räumliches Denken und physische Interaktion geht. Sie können beschreiben, wie eine Aufgabe zu erledigen ist, aber sie können nicht visualisieren oder die physischen Konsequenzen von Handlungen in realen Umgebungen vorhersagen.

Diese Lücke wird zunehmend offensichtlich, während Forscher und Unternehmen die nächste Generation von KI-Anwendungen erkunden. Mehrere Entwicklungen haben das Interesse an Weltmodellen beschleunigt:

  • Lücke bei räumlicher Intelligenz: LLMs sind stark in Sprache, haben aber Schwierigkeiten mit räumlichem Denken, 3D-Verständnis und physischer Vorhersage – entscheidend für Robotik und autonome Systeme.
  • Anforderungen verkörperter KI: Roboter und autonome Agenten müssen verstehen, wie ihre Handlungen physische Umgebungen beeinflussen – hierfür sind Weltmodelle explizit konzipiert.
  • Brancheninvestitionen: Große Player wie DeepMind (mit Genie- und SEMA-Modellen), OpenAI und Venture-Capital-Firmen investieren massiv in Weltmodell-Forschung.
  • Transfer-Learning-Potenzial: Auf vielfältigen Datenquellen trainierte Weltmodelle können Wissen zwischen verschiedenen Umgebungen und Domänen transferieren.
  • Reale Anwendungen: Von autonomen Fahrzeugen über Industrierobotik bis hin zur Content-Erstellung erschließen Weltmodelle praktische Anwendungsfälle, die LLMs nicht abdecken können.

Das Zusammentreffen dieser Faktoren hat einen Moment geschaffen, in dem Weltmodelle allgemein als nächste große Entwicklungsstufe in der KI anerkannt werden. Im Gegensatz zum vergleichsweise linearen Fortschritt bei LLMs eröffnen Weltmodelle gleichzeitig mehrere Forschungsrichtungen und Anwendungsgebiete.

Der einzigartige Datenvorteil: Metals 3,8 Milliarden Spiel-Clips

Im Zentrum von General Intuitions Ansatz steht ein außergewöhnlich wertvoller Schatz: der Zugang zu 3,8 Milliarden hochwertigen Videospiel-Clips, die menschliches Spitzenverhalten und Entscheidungsfindung repräsentieren. Diese Daten stammen von Metal, einer 10 Jahre alten Gaming-Plattform, die Clips von 12 Millionen Nutzern gesammelt hat – eine Nutzerbasis, die größer ist als die 7 Millionen monatlich aktiver Streamer bei Twitch.

Metals Datenerfassungsmethode ist genial und ähnelt Ansätzen führender Unternehmen im Bereich autonomes Fahren. Anstatt Nutzer dazu zu zwingen, Inhalte bewusst aufzuzeichnen und zu kuratieren, läuft Metal im Hintergrund während des Spielens. Wenn etwas Interessantes passiert, drückt der Nutzer einfach einen Knopf, um die letzten 30 Sekunden zu speichern. Dieser retrospektive Clipping-Ansatz, ähnlich wie Teslas Fehlerberichtssystem für selbstfahrende Fahrzeuge, hat zu einem beispiellosen Datensatz an interessanten Momenten und menschlicher Spitzenleistung geführt.

Der Wert dieses Datensatzes kann kaum überschätzt werden. Im Gegensatz zu synthetischen Daten oder sorgfältig kuratierten Trainingssets repräsentieren die Metal-Clips authentisches menschliches Verhalten – die Entscheidungen, Strategien und Reaktionen von Millionen Spielern in unterschiedlichsten Spielsituationen. Diese Diversität ist entscheidend, um Weltmodelle zu trainieren, die generalisieren können. Der Datensatz enthält nicht nur erfolgreiche Spielzüge, sondern auch Fehlversuche, Erholungen und kreative Problemlösungen – das gesamte Spektrum menschlicher Interaktion mit komplexen Umgebungen.

Auch in Bezug auf Datenschutz und Datenerhebung ging Metal überlegt vor, indem Aktionen mit visuellen Eingaben und Spielergebnissen verknüpft wurden. So konnte sichergestellt werden, dass die Daten verantwortungsbewusst für das KI-Training genutzt werden, ohne die Privatsphäre der Nutzer zu verletzen.

FlowHunt und die Zukunft der KI-Content-Intelligenz

Während Weltmodelle immer zentraler für die KI-Entwicklung werden, wächst die Herausforderung, diese Fortschritte zu verstehen, zu analysieren und zu kommunizieren. Hier kommen Plattformen wie FlowHunt ins Spiel. FlowHunt automatisiert den gesamten Workflow von KI-Forschung, Content-Generierung und Veröffentlichung – und verwandelt rohe Video-Transkripte und Forschungsergebnisse in ausgereifte, SEO-optimierte Inhalte.

Für Organisationen, die Entwicklungen im Bereich Weltmodelle und verkörperte KI verfolgen, rationalisiert FlowHunt die Prozesse:

  • Transkriptanalyse: Automatische Verarbeitung von Videoinhalten zur Extraktion zentraler Erkenntnisse und technischer Details
  • Content-Generierung: Erstellung umfassender, gut strukturierter Artikel, die komplexe KI-Konzepte für verschiedene Zielgruppen verständlich machen
  • SEO-Optimierung: Sicherstellen, dass Inhalte Forscher, Praktiker und Entscheider erreichen, die nach Informationen zu Weltmodellen und verwandten Technologien suchen
  • Publikationsautomatisierung: Verwaltung des gesamten Veröffentlichungsprozesses – von der Recherche bis zum Live-Content

Die Schnittstelle von Weltmodellen und Content Intelligence markiert eine natürliche Weiterentwicklung in der Vermittlung und Verbreitung von KI-Forschung. Während Weltmodelle Maschinen befähigen, visuelle Umgebungen zu verstehen, ermöglichen es Tools wie FlowHunt Unternehmen, die globale KI-Forschungslandschaft zu verstehen und zu nutzen.

Visionsbasierte Agenten: Lernen von Pixeln wie Menschen

Eine der beeindruckendsten Demonstrationen der Technologie von General Intuition ist die Entwicklung von visionsbasierten Agenten, die lernen, mit Umgebungen zu interagieren, indem sie Pixel beobachten und Handlungen vorhersagen – genau wie Menschen. Diese Agenten erhalten Bildfolgen als Eingabe und geben Handlungen aus, ohne Zugriff auf Spielzustände, interne Variablen oder privilegierte Informationen über die Umgebung.

Die Entwicklung dieser Agenten im Zeitverlauf zeigt die Kraft von Skalierung bei Daten und Rechenleistung. Frühere Versionen, die nur vier Monate vor der Demonstration entwickelt wurden, zeigten grundlegende Kompetenzen: Die Agenten konnten Umgebungen navigieren, mit UI-Elementen wie Anzeigetafeln interagieren (menschliches Verhalten imitieren) und sich durch ein 4-Sekunden-Gedächtnisfenster aus festgefahrenen Situationen befreien. Beeindruckend – aber diese frühen Agenten machten Fehler und waren noch nicht ausgereift.

Mit zunehmender Skalierung des Ansatzes – mehr Daten, mehr Rechenleistung, bessere Modellarchitektur – wuchsen die Fähigkeiten der Agenten dramatisch. Aktuelle Versionen demonstrieren:

FähigkeitBeschreibungBedeutung
ImitationslernenReines Lernen aus menschlichen Demonstrationen ohne Reinforcement LearningAgenten übernehmen menschliche Strategien und Entscheidungsprozesse
Echtzeit-PerformanceAgenten agieren in voller Geschwindigkeit, vergleichbar mit menschlichen ReaktionszeitenErmöglicht praktischen Einsatz in interaktiven Umgebungen
Räumliches GedächtnisAgenten behalten Kontext zur Umgebung über die ZeitErlaubt Planung und strategische Entscheidungen
Adaptives VerhaltenAgenten passen Taktik an verfügbare Items und Spielzustand anZeigt Verständnis von Kontext und Einschränkungen
Übermenschliche LeistungAgenten führen gelegentlich Spielzüge aus, die über typische menschliche Fähigkeiten hinausgehenZeigt Übernahme außergewöhnlicher Leistungen aus Trainingsdaten

Besonders bemerkenswert ist, dass diese Agenten ausschließlich durch Imitationslernen trainiert werden – also aus menschlichen Demonstrationen ohne Reinforcement Learning oder Fine-Tuning lernen. Das Leistungsniveau der Trainingsdaten ist menschliches Verhalten, doch die Agenten übernehmen nicht nur durchschnittliches, sondern auch außergewöhnliches Verhalten, das im Datensatz erfasst wurde. Dies unterscheidet sich grundlegend von Ansätzen wie AlphaGos Zug 37, wo Systeme durch Reinforcement Learning übermenschliche Strategien entwickeln. Hier entsteht übermenschliche Leistung natürlich aus dem Lernen der Highlights und außergewöhnlichen Momente menschlichen Spiels.

Weltmodelle: Vorhersage und Verstehen physischer Dynamik

Über die Handlungsvorhersage hinaus hat General Intuition Weltmodelle entwickelt, die in der Lage sind, zukünftige Bildfolgen auf Basis aktueller Beobachtungen und vorhergesagter Handlungen zu generieren. Diese Modelle weisen Eigenschaften auf, die sie von bisherigen Videogenerierungssystemen abheben und zeigen echtes Verständnis physischer Dynamik.

Die Weltmodelle integrieren mehrere fortschrittliche Fähigkeiten:

Maus-Sensitivität und schnelle Bewegungen: Anders als frühere Weltmodelle verstehen und generieren diese Systeme schnelle Kamerabewegungen und präzise Steuerungseingaben – Eigenschaften, die Gamer erwarten und die für realistische Simulation unabdingbar sind.

Räumliches Gedächtnis und Langzeitgenerierung: Die Modelle können zusammenhängende Sequenzen von über 20 Sekunden erzeugen, während räumliche Konsistenz und Gedächtnis zur Umgebung gewahrt bleiben.

Physikalisches Verständnis jenseits von Spiel-Logik: In einem auffälligen Beispiel erzeugt das Modell Kamerawackeln während einer Explosion – ein physikalisches Phänomen, das in der Realität auftritt, aber nicht in der Spiel-Engine selbst. Das zeigt, dass das Modell echte physikalische Prinzipien aus realen Videoquellen gelernt hat, und nicht nur spielinterne Regeln.

Umgang mit partieller Beobachtbarkeit: Vielleicht am beeindruckendsten ist, dass die Modelle mit Situationen umgehen können, in denen Teile der Umgebung verdeckt sind. Wenn Rauch oder andere Hindernisse auftreten, bricht das Modell nicht zusammen. Stattdessen sagt es korrekt voraus, was hinter der Sichtbehinderung hervorkommt und demonstriert echtes Verständnis von Objektpermanenz und räumlichem Denken.

Transfer-Learning: Von Spielen zu realen Videos

Einer der stärksten Aspekte im Ansatz von General Intuition ist die Fähigkeit, Weltmodelle domänenübergreifend zu übertragen. Das Team trainierte Modelle zunächst auf weniger realistischen Spielen, übertrug sie dann auf realistischere Spielumgebungen und schließlich auf reale Videos. Dieser Fortschritt ist entscheidend, da reale Videos keine Ground-Truth-Labels für Aktionen enthalten – man kann nicht definitiv wissen, welche Tastatur- oder Mauseingaben eine bestimmte Videosequenz erzeugt haben.

Indem sie zunächst auf Spielen mit bekannter Ground Truth trainieren, dann schrittweise auf realistischere Umgebungen und schließlich auf reale Videos übertragen, lernen die Modelle, über die Realitätslücke hinweg zu generalisieren. Sie sagen Handlungen so vorher, als würde ein Mensch die Sequenz mit Tastatur und Maus steuern – sie lernen also, reale Videos zu verstehen, als würde ein Mensch ein Spiel spielen.

Diese Fähigkeit zum Transfer-Learning hat weitreichende Folgen. Sie bedeutet, dass potenziell jedes Video im Internet als Pre-Training-Datenquelle für Weltmodelle dienen kann. Der riesige Korpus menschlich erzeugter Videoinhalte – von Sportaufnahmen über Anleitungen bis hin zu Überwachungsvideos – wird zum Trainingsmaterial für Systeme, die verstehen, wie die Welt funktioniert.

Die Investitionslandschaft: Khoslas größte Wette seit OpenAI

Die Bedeutung von Weltmodellen als Technologiefeld zeigt sich auch in den Investitionen. Als OpenAI 500 Millionen Dollar für Metals Videospiel-Clip-Daten bot, war das ein klares Signal, dass die großen KI-Labore Weltmodelle als entscheidende Infrastruktur ansehen. Die Gründer von General Intuition entschieden sich jedoch für einen anderen Weg: Statt die Daten zu verkaufen, bauten sie ein unabhängiges Weltmodell-Labor auf.

Khosla Ventures führte eine Seed-Runde von 134 Millionen Dollar für General Intuition an – Khoslas größte Einzelinvestition seit OpenAI. Diese Summe spiegelt das Vertrauen wider, dass Weltmodelle einen Paradigmenwechsel darstellen, vergleichbar mit dem Aufkommen großer Sprachmodelle. Die Entscheidung, ein unabhängiges Unternehmen zu finanzieren, statt es zu übernehmen, deutet darauf hin, dass Khosla und andere Investoren Weltmodelle als Basistechnologie betrachten, auf der viele Firmen und Anwendungen aufbauen werden.

Dieses Investitionsmuster erinnert an die frühen Tage der LLM-Ära, als Wagniskapitalgeber erkannten, dass Foundation Models zur Schlüssel-Infrastruktur werden würden. Dasselbe gilt nun für Weltmodelle: Sie dürften zur Basistechnologie für Robotik, autonome Systeme, Simulation und verkörperte KI-Anwendungen werden.

Auswirkungen auf Robotik und verkörperte KI

Das Zusammenwirken von Weltmodellen mit Robotik und verkörperter KI stellt eine der vielversprechendsten Fronten der künstlichen Intelligenz dar. Roboter müssen verstehen, wie ihre Handlungen physische Umgebungen beeinflussen – sie benötigen Weltmodelle. Autonome Fahrzeuge müssen voraussagen, wie sich andere Agenten verhalten und wie die eigenen Handlungen die Verkehrsdynamik beeinflussen – sie benötigen Weltmodelle. Systeme zur Industrieautomation müssen komplexe physische Interaktionen verstehen – sie benötigen Weltmodelle.

Die Technologie von General Intuition zeigt, dass auf vielfältigen Videodaten trainierte Weltmodelle auf Robotersteuerungsaufgaben übertragbar sind. Ein Roboter, der auf Weltmodellen trainiert wurde, die Physik, räumliche Beziehungen und die Konsequenzen von Handlungen verstehen, hätte ein Fundament, um auf neue Aufgaben und Umgebungen zu generalisieren. Das ist ein bedeutender Schritt in Richtung künstlicher allgemeiner Intelligenz in physischen Domänen.

Die Auswirkungen reichen aber über die Robotik hinaus. Weltmodelle könnten ermöglichen:

  • Autonome Systeme: Bessere Vorhersage und Planung für selbstfahrende Autos und autonome Agenten
  • Simulation und Training: Realistische Simulationen für das Training anderer KI-Systeme und für Menschen
  • Content-Erstellung: Generierung realistischer Videoinhalte auf Basis von Beschreibungen oder Steuereingaben
  • Wissenschaftliches Verständnis: Nutzung von Weltmodellen, um komplexe physikalische Phänomene zu verstehen und vorherzusagen

Fazit

Weltmodelle markieren einen grundlegenden Wandel darin, wie künstliche Intelligenz die physische Welt versteht und mit ihr interagiert. Im Gegensatz zu großen Sprachmodellen, die bei Sprache glänzen, aber bei räumlichem Denken an ihre Grenzen stoßen, sind Weltmodelle darauf ausgelegt, Kausalität zu erfassen, Ergebnisse aus Handlungen vorherzusagen und Maschinen sinnvolle Interaktion mit Umgebungen zu ermöglichen.

Das Aufkommen von General Intuition, unterstützt durch Khosla Ventures’ größte Seed-Investition seit OpenAI, zeigt, dass die Branche Weltmodelle als nächste große Grenze der KI-Entwicklung erkennt. Der Zugang des Unternehmens zu 3,8 Milliarden hochwertigen Videospiel-Clips – die authentisches menschliches Verhalten und Entscheidungsfindung abbilden – bietet eine einzigartige Grundlage, um Weltmodelle zu trainieren, die in verschiedensten Umgebungen generalisieren können.

Die demonstrierten Fähigkeiten von General Intuitions visionsbasierten Agenten und Weltmodellen – von Echtzeit-Handlungsvorhersage über den Umgang mit partieller Beobachtbarkeit bis hin zur Übertragung über die Realitätslücke – deuten darauf hin, dass wir die Anfänge einer Technologie erleben, die Robotik, autonome Systeme und verkörperte KI grundlegend verändern wird. Während diese Systeme reifen und skalieren, werden sie vermutlich so grundlegend für die nächste Ära der KI, wie es große Sprachmodelle für die aktuelle waren.

Beschleunigen Sie Ihren Workflow mit FlowHunt

Erleben Sie, wie FlowHunt Ihre KI-Content- und SEO-Workflows automatisiert – von Recherche und Contenterstellung bis hin zu Veröffentlichung und Analyse – alles an einem Ort.

Häufig gestellte Fragen

Was ist ein Weltmodell in der KI?

Ein Weltmodell ist ein KI-System, das lernt, die gesamte Bandbreite möglicher Ergebnisse und Zustände basierend auf aktuellen Beobachtungen und getätigten Handlungen zu verstehen und vorherzusagen. Im Gegensatz zu herkömmlichen Videovorhersagemodellen, die lediglich das nächste Bild vorhersagen, muss ein Weltmodell Kausalität, Physik und die Konsequenzen von Handlungen in einer Umgebung begreifen.

Wie unterscheiden sich Weltmodelle von großen Sprachmodellen?

Während LLMs Texte anhand von Sprachmustern verarbeiten und generieren, konzentrieren sich Weltmodelle auf räumliche Intelligenz und physikalisches Verständnis. Sie sagen voraus, wie sich Umgebungen durch Handlungen verändern, und sind daher unverzichtbar für Robotik, autonome Systeme und verkörperte KI-Anwendungen.

Was ist General Intuition und warum ist es bedeutend?

General Intuition (GI) ist ein Spin-off-Unternehmen, das Weltmodelle entwickelt, die auf Milliarden von Videospiel-Clips von Metal, einer 10 Jahre alten Gaming-Plattform mit 12 Millionen Nutzern, trainiert werden. Das Unternehmen erhielt eine Startfinanzierung von 134 Millionen Dollar von Khosla Ventures – Khoslas größte Einzelinvestition seit OpenAI –, um unabhängige Weltmodell-Technologie zu entwickeln.

Wie können Weltmodelle über den Gaming-Bereich hinaus angewendet werden?

Weltmodelle, die auf Gaming-Daten trainiert wurden, lassen sich auf das Verständnis und die Steuerung von realen Videos übertragen. Sie ermöglichen visionsbasierten Agenten, physische Umgebungen zu verstehen und mit ihnen zu interagieren, was sie für Robotik, autonome Fahrzeuge, Industrieautomation und weitere verkörperte KI-Anwendungsfälle nutzbar macht.

Arshia ist eine AI Workflow Engineerin bei FlowHunt. Mit einem Hintergrund in Informatik und einer Leidenschaft für KI spezialisiert sie sich darauf, effiziente Arbeitsabläufe zu entwickeln, die KI-Tools in alltägliche Aufgaben integrieren und so Produktivität und Kreativität steigern.

Arshia Kahani
Arshia Kahani
AI Workflow Engineerin

Automatisieren Sie Ihre KI-Forschungs- und Content-Workflows

FlowHunt rationalisiert den gesamten Prozess der Recherche, Analyse und Veröffentlichung von KI-Insights – von der Transkriptverarbeitung bis zur SEO-optimierten Content-Generierung.

Mehr erfahren

Wie ein 7-Millionen-Parameter-Modell Frontier-AI-Modelle schlägt
Wie ein 7-Millionen-Parameter-Modell Frontier-AI-Modelle schlägt

Wie ein 7-Millionen-Parameter-Modell Frontier-AI-Modelle schlägt

Entdecken Sie, wie ein winziges 7-Millionen-Parameter-Modell Gemini, DeepSeek und Claude mit rekursivem Denken und Deep Supervision übertrifft. Lernen Sie den r...

18 Min. Lesezeit
AI Machine Learning +3
Großes Sprachmodell (LLM)
Großes Sprachmodell (LLM)

Großes Sprachmodell (LLM)

Ein Großes Sprachmodell (LLM) ist eine KI, die auf riesigen Textmengen trainiert wurde, um menschliche Sprache zu verstehen, zu generieren und zu verarbeiten. L...

8 Min. Lesezeit
AI Large Language Model +4