Solaris: Building a Multiplayer Video World Model in Minecraft

Each language version is independently generated for its own context, not a direct translation.

🌍 Solaris : Le "Cerveau" qui imagine le monde de Minecraft pour plusieurs joueurs

Imaginez que vous jouez à Minecraft avec un ami. Vous êtes tous les deux dans le même monde, mais vous voyez des choses différentes selon l'endroit où vous vous trouvez. Si vous construisez un mur, votre ami le voit aussi, mais sous un angle différent.

Jusqu'à présent, les intelligences artificières (IA) capables de "rêver" ou de prédire ce qui va se passer dans un jeu vidéo (ce qu'on appelle un modèle du monde) ne pouvaient faire cela que pour un seul joueur. C'est comme si l'IA ne pouvait imaginer que votre point de vue, sans savoir ce que votre ami voit ou fait.

Les chercheurs de l'Université de New York ont créé Solaris, une nouvelle IA capable de simuler un monde où plusieurs joueurs interagissent en même temps, en gardant une cohérence parfaite entre tous les points de vue.

Voici comment ils ont fait, expliqué avec des analogies simples :

1. Le Problème : L'IA aveugle aux autres

Les anciens modèles étaient comme des caméras de surveillance fixes. Ils pouvaient prédire ce qui se passait devant la caméra, mais s'il y avait deux caméras, ils ne savaient pas comment les images des deux caméras devaient correspondre. Si un joueur cassait un bloc, l'autre joueur devait le voir disparaître aussi, mais l'IA avait du mal à synchroniser cela.

2. La Solution : Construire une usine de données (SolarisEngine)

Pour apprendre à l'IA, il faut des milliers d'heures de jeu vidéo. Mais trouver des humains qui jouent ensemble et enregistrent tout est trop lent et désorganisé.

Les chercheurs ont donc construit SolarisEngine, une sorte d'usine automatisée.

L'analogie : Imaginez un stade de football rempli de robots (des bots) qui jouent ensemble.
Le système : Ils ont créé des robots intelligents capables de miner, de construire, de se battre et de se déplacer de manière réaliste.
La magie : Chaque robot a un "double" invisible qui enregistre exactement ce qu'il voit et ce qu'il fait.
Le résultat : En quelques heures, ils ont collecté 12,6 millions de images de jeux en multijoueur. C'est comme avoir un film de 300 jours de jeu continu, parfait pour entraîner l'IA.

3. L'Entraînement : Apprendre à marcher avant de courir

Entraîner une IA à gérer deux joueurs d'un coup est très difficile. C'est comme essayer d'apprendre à un enfant à faire du vélo à deux roues alors qu'il ne sait pas encore marcher.

Les chercheurs ont utilisé une méthode en 4 étapes (un pipeline progressif) :

Apprendre à marcher (Joueur unique) : D'abord, l'IA apprend à comprendre le monde d'un seul joueur (comme un enfant qui apprend à marcher).
Apprendre à jouer à deux (Multijoueur) : Ensuite, on lui montre les données des robots jouant ensemble, mais l'IA peut encore "voir" le passé et le futur en même temps (comme si elle avait une boule de cristal).
Apprendre à prédire (Causalité) : On lui enlève la boule de cristal. Elle doit maintenant prédire le futur uniquement en regardant le passé, comme un vrai joueur.
L'entraînement intensif (Self Forcing) : C'est ici que ça devient astucieux. L'IA se regarde elle-même jouer. Elle essaie de prédire la prochaine image, regarde si elle a raison, et se corrige.

4. L'Innovation Clé : Le "Checkpoint" pour ne pas exploser la mémoire

Le plus gros défi technique était la mémoire. Pour prédire une longue séquence de jeu (par exemple, 100 secondes), l'IA doit se souvenir de tout ce qui s'est passé. Normalement, cela demande une quantité de mémoire informatique énorme, comme essayer de retenir tout un livre page par page en même temps.

Les chercheurs ont inventé une technique appelée "Checkpointed Self Forcing".

L'analogie : Imaginez que vous écrivez un roman très long. Au lieu de garder tout le manuscrit sur votre bureau (ce qui prendrait trop de place), vous écrivez une page, vous la notez dans un carnet de notes rapide, puis vous effacez la page de votre bureau. Plus tard, si vous avez besoin de vérifier une page, vous la réécrivez rapidement à partir de votre carnet.
Le résultat : Cela permet à l'IA de générer des vidéos très longues et complexes sans faire exploser l'ordinateur.

5. Les Résultats : Un monde cohérent

Grâce à Solaris, l'IA peut maintenant :

Générer une vidéo où deux joueurs construisent une maison ensemble.
Si le joueur A pose une torche, le joueur B la voit s'allumer instantanément sous son angle de vue.
Si un joueur cache un objet, l'autre joueur ne le voit plus.
Mémoriser l'environnement : si un joueur tourne le dos, l'IA sait toujours où il est par rapport à l'autre.

En résumé

Solaris est un pas de géant vers des mondes virtuels intelligents. Au lieu de simplement regarder un film, l'IA comprend maintenant que le monde est partagé. C'est comme passer d'un dessin animé où les personnages ne se regardent jamais, à un film où les personnages interagissent vraiment, se voient, et réagissent les uns aux autres.

Cela ouvre la porte à de futures applications : des robots qui apprennent à travailler en équipe, des jeux vidéo qui s'adaptent intelligemment aux joueurs, ou des simulateurs pour tester comment les humains et les IA pourraient collaborer dans le futur.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de monde vidéo existants (video world models) sont actuellement limités à la simulation de perspectives d'un seul agent. Ils échouent à capturer les interactions complexes et les états du monde cohérents dans des environnements multi-agents réels.

Le défi : Générer des observations futures qui sont non seulement cohérentes dans le temps, mais aussi cohérentes entre les perspectives de plusieurs agents. Une action effectuée par un agent (ex: placer un bloc, se déplacer) doit être reflétée instantanément et précisément dans la vue de tous les autres agents.
Le contexte : Le jeu Minecraft est choisi comme terrain d'essai idéal en raison de son monde 3D illimité, de sa dynamique modifiable, de sa stochasticité environnementale et de sa complexité de construction, ce qui teste rigoureusement la mémoire spatiale, la gestion des occlusions et la consistance des perspectives.

2. Méthodologie

L'approche proposée par les auteurs repose sur trois piliers principaux : un système de collecte de données, une architecture de modèle adaptée et un pipeline d'entraînement innovant.

A. SolarisEngine : Système de collecte de données multi-joueurs

Pour pallier l'absence de systèmes publics capables de simuler du gameplay Minecraft multi-joueurs, les auteurs ont développé SolarisEngine.

Architecture : Basée sur Docker, elle orchestre un serveur de jeu, des bots de contrôle (utilisant la bibliothèque Mineflayer) et des bots "caméra" (clients Java officiels en mode sans tête avec rendu GPU).
Fonctionnement : Les bots de contrôle exécutent des scripts de haut niveau (minage, combat, construction) et synchronisent leurs actions avec les bots caméra en temps réel via un plugin serveur personnalisé. Cela permet de capturer des vidéos et des actions parfaitement alignées pour plusieurs joueurs simultanément.
Données : Le système a permis de collecter 12,64 millions de frames (6,32 M par joueur) couvrant des scénarios de construction, de combat, de mouvement et de minage.

B. Architecture du Modèle : Solaris

Le modèle Solaris est un modèle de diffusion vidéo basé sur l'architecture DiT (Diffusion Transformer), adaptée pour gérer plusieurs perspectives.

Adaptation Multi-joueur : Le modèle étend l'espace d'état pour inclure une dimension "joueur" ( $P$ ). Il utilise un mécanisme d'interleaving visuel (entrelacement) le long de la dimension de la séquence.
Mécanisme d'Attention : Une couche d'Auto-Attention Multi-joueur partagée permet l'échange d'informations entre les tokens des différents joueurs. Des embeddings d'ID de joueur sont injectés pour distinguer les perspectives.
Conditionnement : Le modèle prend en entrée les observations passées et les actions de tous les agents pour prédire les futures observations.

C. Pipeline d'Entraînement en Étapes

L'entraînement suit une stratégie progressive pour stabiliser l'apprentissage :

Étape 1 (Single-Player Bidirectionnel) : Affinage d'un modèle pré-entraîné (Matrix Game 2.0) sur des données de jeu en solo (VPT) pour acquérir une bonne compréhension des actions et de la dynamique du jeu.
Étape 2 (Multi-Player Bidirectionnel) : Entraînement sur les données multi-joueurs avec une attention bidirectionnelle pour apprendre la cohérence entre les vues.
Étape 3 (Multi-Player Causal) : Conversion du modèle en mode causal (génération autoregressive) en utilisant un masque glissant et le Diffusion Forcing (bruit indépendant par frame).
Étape 4 (Self Forcing) : Amélioration de la génération à long terme en supervisant le modèle sur ses propres générations.

D. Innovation Clé : Checkpointed Self Forcing

Un problème majeur du Self Forcing avec génération glissante est la consommation excessive de mémoire (nécessité de garder en mémoire tous les contextes glissants pour la rétropropagation).

Solution : Les auteurs introduisent le Checkpointed Self Forcing. Cette technique découple la génération autoregressive (sans gradient) de la rétropropagation.
Fonctionnement : Le modèle génère d'abord la séquence complète en cachant les états intermédiaires. Ensuite, il recompute la séquence en une seule passe parallèle avec la rétropropagation activée, en utilisant un masque d'attention spécifique ("Teacher Forcing Mask") pour simuler les dépendances causales. Cela réduit la complexité mémoire de $O(L_t \cdot L_s)$ à $O(L_t)$ , permettant un entraînement efficace sur de longues horizons.

3. Résultats

Les auteurs ont évalué Solaris sur un benchmark spécifique couvrant cinq capacités : Mouvement, Ancrage (Grounding), Mémoire, Construction et Cohérence des vues.

Qualité Visuelle et Cohérence : Solaris surpasse les méthodes de base (comme la concaténation de frames utilisée par Multiverse ou l'initialisation sans pré-entraînement). Il maintient une fidélité visuelle sur de longues séquences (ex: 224 frames) sans dégradation, contrairement aux baselines qui souffrent d'artefacts ou de comportements incohérents.
Performances Quantitatives (VLM et FID) :
- Solaris obtient les meilleurs scores FID (Fréchet Inception Distance) dans la plupart des catégories, indiquant une meilleure qualité d'image.
- En utilisant un VLM (Vision Language Model) comme juge, Solaris démontre une compréhension sémantique supérieure, notamment pour les tâches complexes de Construction et de Cohérence (où les autres modèles échouent souvent).
- Le modèle gère correctement des dynamiques complexes comme la synchronisation des inventaires, le changement de météo simultané et les animations de combat.
Ablations : L'étude montre que le pré-entraînement en solo est crucial et que l'approche simplifiée d'initialisation causale (sans ODE regression complexe) fonctionne mieux que les méthodes précédentes. L'activation de la rétropropagation sur les caches KV (grâce à l'économie de mémoire) améliore encore la qualité visuelle.

4. Contributions Clés

SolarisEngine : Un système open-source scalable pour la collecte automatisée de données de gameplay multi-joueurs avec rendu vidéo de haute qualité.
Dataset Multi-joueurs : Le premier jeu de données annoté par actions pour Minecraft multi-joueurs (12,64M de frames), essentiel pour entraîner des modèles de monde collaboratifs.
Architecture Solaris : Une adaptation efficace des Transformers de diffusion vidéo pour la modélisation multi-perspectives, permettant une cohérence spatiale et temporelle entre agents.
Checkpointed Self Forcing : Une nouvelle méthode d'entraînement mémoire-économique qui permet l'apprentissage de modèles de monde à long horizon avec une cohérence multi-agents, résolvant le problème de la consommation de mémoire dans les boucles de rétropropagation glissantes.
Benchmark d'Évaluation : Un cadre d'évaluation complet mesurant la mémoire, l'ancrage spatial et la cohérence des vues dans des environnements multi-agents.

5. Signification et Perspectives

Ce travail marque une étape importante vers la création de modèles de monde fondationnels pour les agents multi-agents.

Impact : Il démontre qu'il est possible de simuler des mondes partagés où les actions d'un agent sont comprises et reflétées par les autres, une condition sine qua non pour l'apprentissage par renforcement multi-agents, la planification collaborative et l'entraînement d'agents autonomes complexes.
Limitations et Futur : Les données étant entièrement synthétiques, il existe un écart de distribution avec le jeu humain réel. De plus, le modèle manque de mémoire persistante à long terme (il perd le contexte lorsque les agents se séparent visuellement).
Potentiel : La plateforme SolarisEngine et les modèles ouverts ouvrent la voie à de nouvelles recherches sur la collaboration IA, la génération de données pour les modèles Vision-Language-Action (VLA) et la compréhension de l'espace 3D dynamique.

En résumé, Solaris établit un nouveau standard pour la modélisation du monde vidéo multi-agents, combinant ingénierie système robuste et avancées algorithmiques pour dépasser les limites des modèles mono-agent actuels.