Thumbnail for Modèles du monde & Intuition générale : le plus grand pari de Khosla depuis les LLM & OpenAI

Modèles du monde et intuition générale : la prochaine frontière de l’IA après les grands modèles de langage

AI Machine Learning World Models Robotics

Introduction

Le paysage de l’intelligence artificielle connaît une transformation fondamentale. Après des années de domination des grands modèles de langage, les esprits les plus brillants de l’industrie tournent désormais leur attention vers une nouvelle frontière : les modèles du monde. Ces systèmes représentent une approche qualitativement différente de l’intelligence machine – une approche axée sur la compréhension des relations spatiales, la prédiction des conséquences des actions et la capacité des machines à interagir de manière significative avec des environnements physiques. Cet article explore l’émergence des modèles du monde comme prochaine grande avancée de l’IA, en examinant la technologie, les entreprises pionnières dans ce domaine et les implications pour l’avenir de l’intelligence artificielle incarnée.

Thumbnail for Modèles du monde & Intuition générale : le plus grand pari de Khosla depuis les LLM

Que sont les modèles du monde et pourquoi sont-ils importants

Les modèles du monde représentent un changement fondamental par rapport aux systèmes traditionnels de prédiction vidéo. Alors que les modèles vidéo classiques se concentrent sur la prédiction de la prochaine image probable ou de la séquence la plus divertissante, les modèles du monde doivent accomplir quelque chose de beaucoup plus complexe : ils doivent comprendre toute la gamme des possibilités et des issues qui peuvent résulter de l’état actuel et des actions entreprises dans un environnement. En essence, un modèle du monde apprend à simuler la réalité – à prédire comment le monde va changer en fonction de ce que vous faites.

Cette distinction est cruciale. Un modèle de prédiction vidéo peut générer une prochaine image plausible, mais il ne comprend pas nécessairement la causalité ou le lien entre actions et conséquences. Un modèle du monde, en revanche, doit saisir ces relations causales. Lorsque vous effectuez une action, le modèle du monde génère l’état suivant sur la base d’une compréhension réelle de la manière dont cette action affecte l’environnement. C’est exponentiellement plus complexe que la modélisation vidéo traditionnelle, car cela exige du système qu’il apprenne la physique, les règles et la dynamique sous-jacentes d’un environnement.

L’importance des modèles du monde va bien au-delà de l’intérêt académique. Ils constituent la pièce manquante de l’IA incarnée – la technologie nécessaire pour créer des machines capables de comprendre et d’interagir avec des espaces physiques. À mesure que le domaine dépasse l’IA basée sur le langage pour s’orienter vers la robotique et les systèmes autonomes, les modèles du monde deviennent une infrastructure essentielle.

Pourquoi les modèles du monde sont la prochaine frontière après les grands modèles de langage

L’industrie de l’IA a connu une transformation sans précédent grâce aux grands modèles de langage. Des systèmes comme GPT-4 et des architectures similaires ont démontré des capacités remarquables en compréhension, raisonnement et génération de texte. Cependant, les LLM présentent des limites fondamentales concernant le raisonnement spatial et l’interaction physique. Ils peuvent décrire comment accomplir une tâche, mais ne peuvent pas visualiser ni prédire les conséquences physiques des actions dans des environnements réels.

Cette lacune est devenue de plus en plus évidente à mesure que chercheurs et entreprises explorent la prochaine génération d’applications de l’IA. Plusieurs développements majeurs ont accéléré l’intérêt pour les modèles du monde :

  • Lacune en intelligence spatiale : Les LLM excellent dans le langage mais peinent avec le raisonnement spatial, la compréhension 3D et la prédiction physique – essentiels pour la robotique et les systèmes autonomes.
  • Exigences de l’IA incarnée : Les robots et agents autonomes doivent comprendre comment leurs actions affectent les environnements physiques, ce à quoi les modèles du monde répondent spécifiquement.
  • Investissement industriel : Des acteurs majeurs comme DeepMind (avec les modèles Genie et SEMA), OpenAI et des fonds de capital-risque investissent massivement dans la recherche sur les modèles du monde.
  • Potentiel de transfert d’apprentissage : Les modèles du monde entraînés sur des données variées peuvent transférer leurs connaissances à travers différents environnements et domaines.
  • Applications concrètes : Des véhicules autonomes à la robotique industrielle en passant par la création de contenu, les modèles du monde ouvrent des usages pratiques inaccessibles aux LLM.

La convergence de ces facteurs fait aujourd’hui des modèles du monde la prochaine grande frontière largement reconnue du développement de l’IA. Contrairement à la trajectoire relativement étroite d’amélioration des LLM, les modèles du monde ouvrent simultanément de multiples axes de recherche et de nouveaux domaines d’application.

L’avantage unique des données : 3,8 milliards de clips de jeux Metal

Au cœur de l’approche de General Intuition se trouve un atout d’une valeur extraordinaire : l’accès à 3,8 milliards de clips de jeux vidéo de haute qualité représentant le comportement humain de pointe et la prise de décision. Ces données proviennent de Metal, une plateforme de jeux vieille de 10 ans ayant accumulé des clips de 12 millions d’utilisateurs – une base d’utilisateurs plus importante que les 7 millions de streamers actifs mensuels de Twitch.

La méthodologie de collecte de données de Metal est ingénieuse et reflète l’approche des leaders de la voiture autonome. Plutôt que de demander aux utilisateurs d’enregistrer et de sélectionner consciemment du contenu, Metal fonctionne en arrière-plan pendant que les joueurs jouent. Lorsqu’un événement intéressant survient, l’utilisateur appuie simplement sur un bouton pour enregistrer les 30 dernières secondes. Cette approche de « clipping » rétroactif, similaire au système de remontée de bugs chez Tesla pour la conduite autonome, a permis de constituer un jeu de données inégalé de moments marquants et de performances humaines de pointe.

La valeur de ce jeu de données ne saurait être surestimée. Contrairement aux données synthétiques ou aux ensembles d’entraînement soigneusement sélectionnés, les clips de Metal reflètent le comportement humain authentique – les décisions, stratégies et réactions de millions de joueurs dans une grande diversité de situations de jeu. Cette diversité est cruciale pour entraîner des modèles du monde capables de généraliser à travers différents environnements et situations. Le jeu de données inclut non seulement des réussites, mais aussi des échecs, des récupérations et des résolutions de problèmes créatives – tout le spectre de l’interaction humaine avec des environnements complexes.

Metal a également géré avec soin les questions de confidentialité et de collecte de données en associant les actions aux entrées visuelles et aux résultats des parties, garantissant une utilisation responsable des données pour l’entraînement de l’IA tout en respectant la vie privée des utilisateurs.

FlowHunt et l’avenir de l’intelligence de contenu en IA

À mesure que les modèles du monde deviennent centraux dans le développement de l’IA, le défi de comprendre, d’analyser et de communiquer ces avancées devient plus complexe. C’est là que des plateformes comme FlowHunt deviennent précieuses. FlowHunt se spécialise dans l’automatisation de l’ensemble du flux de recherche, de génération et de publication de contenu en IA – transformant des transcriptions vidéo brutes et de la recherche en contenu optimisé SEO prêt à publier.

Pour les organisations qui suivent les avancées dans les modèles du monde et l’IA incarnée, FlowHunt simplifie :

  • L’analyse de transcription : Traitement automatique du contenu vidéo pour extraire les points clés et les détails techniques
  • La génération de contenu : Création d’articles complets et structurés expliquant des concepts d’IA complexes à des publics variés
  • L’optimisation SEO : S’assurer que le contenu atteint chercheurs, praticiens et décideurs recherchant des informations sur les modèles du monde et technologies associées
  • L’automatisation de la publication : Gestion de l’ensemble du flux de publication, de la recherche à la mise en ligne

L’intersection des modèles du monde et de l’intelligence de contenu représente une évolution naturelle de la communication et de la diffusion de la recherche en IA. Tandis que les modèles du monde permettent aux machines de comprendre des environnements visuels, des outils comme FlowHunt permettent aux organisations de tirer parti de l’immense production mondiale de recherche et de développement en IA.

Agents basés sur la vision : apprendre à partir des pixels comme les humains

L’une des démonstrations les plus remarquables de la technologie de General Intuition est le développement d’agents basés sur la vision qui apprennent à interagir avec des environnements en observant les pixels et en prédisant les actions – exactement comme le font les humains. Ces agents reçoivent des images comme entrée et émettent des actions, sans accès aux états du jeu, variables internes ou informations privilégiées sur l’environnement.

L’évolution de ces agents au fil du temps illustre la puissance de la montée en échelle des données et du calcul. Les premières versions, développées seulement quatre mois avant la démonstration, montraient une compétence basique : les agents pouvaient naviguer, interagir avec des éléments d’interface comme les tableaux de score (imitant le comportement humain) et se sortir de situations bloquées grâce à une mémoire de 4 secondes. Bien qu’impressionnants, ces premiers agents commettaient des erreurs et manquaient de sophistication.

En augmentant l’échelle – à la fois en données et en puissance de calcul, tout en améliorant l’architecture des modèles – les capacités des agents se sont considérablement accrues. Les versions actuelles démontrent :

CapacitéDescriptionImportance
Apprentissage par imitationApprentissage pur à partir de démonstrations humaines sans renforcementLes agents héritent des stratégies et modes de décision humains
Performance en temps réelAgents opérant à pleine vitesse, avec des temps de réaction humainsPermet le déploiement dans des environnements interactifs
Mémoire spatialeAgents gardant le contexte de leur environnement dans le tempsPermet la planification et la prise de décision stratégique
Comportement adaptatifAgents ajustant leurs tactiques selon les objets et l’état du jeuDémontre la compréhension du contexte et des contraintes
Performance surhumaineAgents exécutant parfois des actions au-delà des capacités humaines typiquesMontre l’héritage des moments d’exception issus des données d’entraînement

Ce qui rend cette avancée particulièrement significative, c’est que ces agents sont formés uniquement par apprentissage par imitation – à partir de démonstrations humaines, sans apprentissage par renforcement ni ajustement. Le niveau de base des données d’entraînement est la performance humaine, mais les agents héritent non seulement du comportement moyen, mais aussi des moments d’exception capturés dans le jeu de données. Cela diffère fondamentalement d’approches comme le coup 37 d’AlphaGo, où les systèmes apprennent des stratégies surhumaines via le renforcement. Ici, la performance surhumaine émerge naturellement de l’apprentissage des moments forts du jeu humain.

Modèles du monde : prédire et comprendre la dynamique physique

Au-delà de la prédiction d’actions, General Intuition a développé des modèles du monde capables de générer les images futures à partir des observations actuelles et des actions prédites. Ces modèles possèdent des propriétés qui les distinguent des anciens systèmes de génération vidéo et témoignent d’une véritable compréhension de la dynamique physique.

Les modèles du monde intègrent plusieurs capacités sophistiquées :

Sensibilité à la souris et mouvements rapides : Contrairement aux modèles précédents, ces systèmes comprennent et peuvent générer des mouvements rapides de caméra et des contrôles précis – des propriétés attendues par les joueurs et essentielles pour une simulation réaliste.

Mémoire spatiale et génération longue durée : Les modèles peuvent générer des séquences cohérentes de plus de 20 secondes tout en maintenant la consistance spatiale et la mémoire de l’environnement.

Compréhension physique au-delà de la logique du jeu : Dans un exemple frappant, le modèle génère un effet de secousse de caméra lors d’une explosion – phénomène physique réel n’apparaissant jamais dans le moteur de jeu lui-même. Cela montre que le modèle a réellement appris des principes physiques à partir de vidéos du monde réel, et pas seulement les règles du jeu.

Gestion de l’observabilité partielle : Plus impressionnant encore, les modèles savent gérer les situations où une partie de l’environnement est masquée. Lorsque de la fumée ou d’autres obstacles apparaissent, le modèle ne s’effondre pas. Au contraire, il prédit correctement ce qui émerge derrière l’obstacle, illustrant la compréhension de la permanence des objets et du raisonnement spatial.

Transfert d’apprentissage : des jeux à la vidéo du monde réel

L’un des aspects les plus puissants de l’approche de General Intuition est la capacité à transférer les modèles du monde entre différents domaines. L’équipe a d’abord entraîné des modèles sur des jeux peu réalistes, puis les a transférés sur des jeux plus réalistes, et enfin sur de la vidéo du monde réel. Cette progression est cruciale, car la vidéo réelle ne fournit aucun « ground truth » sur les actions – il est impossible de savoir exactement quelles touches ou mouvements de souris ont produit une séquence vidéo donnée.

En s’entraînant d’abord sur des jeux où la vérité terrain est disponible, puis en transférant progressivement vers des environnements plus réalistes, et enfin vers la vidéo réelle, les modèles apprennent à généraliser et à franchir le gap entre simulation et réalité. Les modèles prédisent les actions comme si un humain contrôlait la séquence au clavier et à la souris – ils apprennent en quelque sorte à comprendre la vidéo réelle comme s’il s’agissait d’un jeu joué par un humain.

Cette capacité de transfert d’apprentissage a des implications profondes. Cela signifie que n’importe quelle vidéo sur internet peut potentiellement servir de pré-entraînement aux modèles du monde. L’immense corpus de vidéos produites par les humains – du sport aux tutoriels en passant par la vidéosurveillance – devient une mine de données pour entraîner des systèmes capables de comprendre le fonctionnement du monde.

Paysage de l’investissement : le plus gros pari de Khosla depuis OpenAI

L’importance des modèles du monde en tant que technologie de rupture se reflète dans le paysage de l’investissement. Lorsque OpenAI a proposé 500 millions de dollars pour acquérir les données de clips de jeux de Metal, cela a clairement montré que les grands laboratoires d’IA considéraient les modèles du monde comme des infrastructures critiques. Mais les fondateurs de General Intuition ont choisi une autre voie : plutôt que de vendre les données, ils ont bâti un laboratoire indépendant de modèles du monde.

Khosla Ventures a mené un tour d’amorçage de 134 millions de dollars pour General Intuition – le plus gros investissement « seed » unique de Khosla depuis OpenAI. Ce niveau d’investissement reflète la conviction que les modèles du monde représentent un changement de paradigme comparable à l’émergence des grands modèles de langage. Le choix de financer une entreprise indépendante plutôt que de l’acquérir suggère que Khosla et d’autres investisseurs anticipent que les modèles du monde deviendront une technologie fondamentale sur laquelle de nombreuses sociétés et applications s’appuieront.

Ce schéma d’investissement rappelle les débuts de l’ère des LLM, lorsque le capital-risque a compris que les modèles fondamentaux allaient devenir une infrastructure essentielle. La logique est la même pour les modèles du monde : ils devraient devenir la pierre angulaire de la robotique, des systèmes autonomes, de la simulation et des applications d’IA incarnée.

Implications pour la robotique et l’IA incarnée

La convergence des modèles du monde avec la robotique et l’IA incarnée représente l’une des frontières les plus prometteuses de l’intelligence artificielle. Les robots doivent comprendre comment leurs actions affectent les environnements physiques – ils ont besoin de modèles du monde. Les véhicules autonomes doivent prédire le comportement d’autres agents et l’impact de leurs propres actions sur la dynamique du trafic – ils ont besoin de modèles du monde. Les systèmes d’automatisation industrielle doivent comprendre des interactions physiques complexes – ils ont besoin de modèles du monde.

La technologie démontrée par General Intuition suggère que des modèles du monde entraînés sur des vidéos variées peuvent être transférés à des tâches de contrôle robotique. Un robot doté de modèles du monde comprenant la physique, les relations spatiales et les conséquences des actions disposerait d’une base pour généraliser à de nouvelles tâches et environnements. C’est un pas important vers l’intelligence artificielle générale dans le domaine physique.

Les implications dépassent la robotique. Les modèles du monde pourraient permettre :

  • Systèmes autonomes : Meilleure prédiction et planification pour les voitures autonomes et les agents intelligents
  • Simulation et formation : Création de simulations réalistes pour former d’autres IA et pour la formation humaine
  • Création de contenu : Génération de vidéos réalistes à partir de descriptions ou d’entrées de contrôle
  • Compréhension scientifique : Utilisation des modèles du monde pour comprendre et prédire des phénomènes physiques complexes

Conclusion

Les modèles du monde représentent un changement fondamental dans la façon dont l’intelligence artificielle aborde la compréhension et l’interaction avec le monde physique. Contrairement aux grands modèles de langage, qui excellent dans le langage mais peinent avec le raisonnement spatial, les modèles du monde sont spécifiquement conçus pour comprendre la causalité, prédire les conséquences des actions et permettre aux machines d’interagir de manière pertinente avec leur environnement.

L’émergence de General Intuition, soutenue par le plus gros investissement seed de Khosla Ventures depuis OpenAI, montre que l’industrie considère les modèles du monde comme la prochaine grande frontière de l’IA. L’accès de l’entreprise à 3,8 milliards de clips de jeux vidéo de haute qualité – représentant le comportement humain authentique et la prise de décision – offre une base unique pour entraîner des modèles du monde capables de généraliser à travers de nombreux environnements.

Les capacités démontrées des agents basés sur la vision et des modèles du monde de General Intuition – de la prédiction d’action en temps réel à la gestion de l’observabilité partielle en passant par le transfert entre simulation et réalité – suggèrent que nous assistons aux débuts d’une technologie qui va transformer la robotique, les systèmes autonomes et l’IA incarnée. À mesure que ces systèmes gagneront en maturité et en échelle, ils deviendront probablement aussi essentiels à la prochaine ère de l’IA que l’ont été les grands modèles de langage à l’ère actuelle.

Boostez vos workflows avec FlowHunt

Découvrez comment FlowHunt automatise vos workflows de contenu et SEO en IA – de la recherche à la génération de contenu, la publication et l’analyse – tout en un seul endroit.

Questions fréquemment posées

Qu’est-ce qu’un modèle du monde en IA ?

Un modèle du monde est un système d’IA qui apprend à comprendre et à prédire l’ensemble des issues et états possibles à partir des observations actuelles et des actions entreprises. Contrairement aux modèles de prédiction vidéo traditionnels qui prédisent simplement la prochaine image, les modèles du monde doivent comprendre la causalité, la physique et les conséquences des actions dans un environnement.

En quoi les modèles du monde diffèrent-ils des grands modèles de langage ?

Alors que les LLM traitent et génèrent du texte à partir de motifs linguistiques, les modèles du monde se concentrent sur l’intelligence spatiale et la compréhension physique. Ils prédisent comment les environnements évolueront selon les actions, ce qui les rend essentiels pour la robotique, les systèmes autonomes et les applications d’IA incarnée.

Qu’est-ce qu’Intuition Générale et pourquoi est-ce important ?

General Intuition (GI) est une entreprise dérivée qui construit des modèles du monde entraînés sur des milliards de clips de jeux vidéo issus de Metal, une plateforme de jeu vieille de 10 ans avec 12 millions d’utilisateurs. L’entreprise a reçu un financement initial de 134 millions de dollars de Khosla Ventures – le plus gros investissement seed unique de Khosla depuis OpenAI – pour développer une technologie de modèles du monde indépendante.

Comment les modèles du monde peuvent-ils être appliqués au-delà du jeu vidéo ?

Les modèles du monde entraînés sur des données de jeux peuvent être transférés vers la compréhension vidéo et les tâches de contrôle dans le monde réel. Ils permettent aux agents basés sur la vision de comprendre et d’interagir avec des environnements physiques, ce qui les rend applicables à la robotique, aux véhicules autonomes, à l’automatisation industrielle et à d’autres cas d’usage de l’IA incarnée.

Arshia est ingénieure en workflows d'IA chez FlowHunt. Avec une formation en informatique et une passion pour l’IA, elle se spécialise dans la création de workflows efficaces intégrant des outils d'IA aux tâches quotidiennes, afin d’accroître la productivité et la créativité.

Arshia Kahani
Arshia Kahani
Ingénieure en workflows d'IA

Automatisez vos recherches et workflows de contenu en IA

FlowHunt simplifie l’ensemble du processus de recherche, d’analyse et de publication d’insights en IA – du traitement de transcription à la génération de contenu optimisé SEO.

En savoir plus