Solaris: Building a Multiplayer Video World Model in Minecraft

Le papier présente Solaris, un modèle de monde vidéo multijoueur pour Minecraft qui, grâce à un système de collecte de données automatisé et une stratégie d'entraînement progressive incluant le « Checkpointed Self Forcing », génère des observations multivues cohérentes et surpasse les modèles existants limités aux perspectives d'un seul agent.

Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie

Publié 2026-02-27
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🌍 Solaris : Le "Cerveau" qui imagine le monde de Minecraft pour plusieurs joueurs

Imaginez que vous jouez à Minecraft avec un ami. Vous êtes tous les deux dans le même monde, mais vous voyez des choses différentes selon l'endroit où vous vous trouvez. Si vous construisez un mur, votre ami le voit aussi, mais sous un angle différent.

Jusqu'à présent, les intelligences artificières (IA) capables de "rêver" ou de prédire ce qui va se passer dans un jeu vidéo (ce qu'on appelle un modèle du monde) ne pouvaient faire cela que pour un seul joueur. C'est comme si l'IA ne pouvait imaginer que votre point de vue, sans savoir ce que votre ami voit ou fait.

Les chercheurs de l'Université de New York ont créé Solaris, une nouvelle IA capable de simuler un monde où plusieurs joueurs interagissent en même temps, en gardant une cohérence parfaite entre tous les points de vue.

Voici comment ils ont fait, expliqué avec des analogies simples :

1. Le Problème : L'IA aveugle aux autres

Les anciens modèles étaient comme des caméras de surveillance fixes. Ils pouvaient prédire ce qui se passait devant la caméra, mais s'il y avait deux caméras, ils ne savaient pas comment les images des deux caméras devaient correspondre. Si un joueur cassait un bloc, l'autre joueur devait le voir disparaître aussi, mais l'IA avait du mal à synchroniser cela.

2. La Solution : Construire une usine de données (SolarisEngine)

Pour apprendre à l'IA, il faut des milliers d'heures de jeu vidéo. Mais trouver des humains qui jouent ensemble et enregistrent tout est trop lent et désorganisé.

Les chercheurs ont donc construit SolarisEngine, une sorte d'usine automatisée.

  • L'analogie : Imaginez un stade de football rempli de robots (des bots) qui jouent ensemble.
  • Le système : Ils ont créé des robots intelligents capables de miner, de construire, de se battre et de se déplacer de manière réaliste.
  • La magie : Chaque robot a un "double" invisible qui enregistre exactement ce qu'il voit et ce qu'il fait.
  • Le résultat : En quelques heures, ils ont collecté 12,6 millions de images de jeux en multijoueur. C'est comme avoir un film de 300 jours de jeu continu, parfait pour entraîner l'IA.

3. L'Entraînement : Apprendre à marcher avant de courir

Entraîner une IA à gérer deux joueurs d'un coup est très difficile. C'est comme essayer d'apprendre à un enfant à faire du vélo à deux roues alors qu'il ne sait pas encore marcher.

Les chercheurs ont utilisé une méthode en 4 étapes (un pipeline progressif) :

  1. Apprendre à marcher (Joueur unique) : D'abord, l'IA apprend à comprendre le monde d'un seul joueur (comme un enfant qui apprend à marcher).
  2. Apprendre à jouer à deux (Multijoueur) : Ensuite, on lui montre les données des robots jouant ensemble, mais l'IA peut encore "voir" le passé et le futur en même temps (comme si elle avait une boule de cristal).
  3. Apprendre à prédire (Causalité) : On lui enlève la boule de cristal. Elle doit maintenant prédire le futur uniquement en regardant le passé, comme un vrai joueur.
  4. L'entraînement intensif (Self Forcing) : C'est ici que ça devient astucieux. L'IA se regarde elle-même jouer. Elle essaie de prédire la prochaine image, regarde si elle a raison, et se corrige.

4. L'Innovation Clé : Le "Checkpoint" pour ne pas exploser la mémoire

Le plus gros défi technique était la mémoire. Pour prédire une longue séquence de jeu (par exemple, 100 secondes), l'IA doit se souvenir de tout ce qui s'est passé. Normalement, cela demande une quantité de mémoire informatique énorme, comme essayer de retenir tout un livre page par page en même temps.

Les chercheurs ont inventé une technique appelée "Checkpointed Self Forcing".

  • L'analogie : Imaginez que vous écrivez un roman très long. Au lieu de garder tout le manuscrit sur votre bureau (ce qui prendrait trop de place), vous écrivez une page, vous la notez dans un carnet de notes rapide, puis vous effacez la page de votre bureau. Plus tard, si vous avez besoin de vérifier une page, vous la réécrivez rapidement à partir de votre carnet.
  • Le résultat : Cela permet à l'IA de générer des vidéos très longues et complexes sans faire exploser l'ordinateur.

5. Les Résultats : Un monde cohérent

Grâce à Solaris, l'IA peut maintenant :

  • Générer une vidéo où deux joueurs construisent une maison ensemble.
  • Si le joueur A pose une torche, le joueur B la voit s'allumer instantanément sous son angle de vue.
  • Si un joueur cache un objet, l'autre joueur ne le voit plus.
  • Mémoriser l'environnement : si un joueur tourne le dos, l'IA sait toujours où il est par rapport à l'autre.

En résumé

Solaris est un pas de géant vers des mondes virtuels intelligents. Au lieu de simplement regarder un film, l'IA comprend maintenant que le monde est partagé. C'est comme passer d'un dessin animé où les personnages ne se regardent jamais, à un film où les personnages interagissent vraiment, se voient, et réagissent les uns aux autres.

Cela ouvre la porte à de futures applications : des robots qui apprennent à travailler en équipe, des jeux vidéo qui s'adaptent intelligemment aux joueurs, ou des simulateurs pour tester comment les humains et les IA pourraient collaborer dans le futur.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →