Beyond Pixel Histories: World Models with Persistent 3D State

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : Le Cinéma qui Oublie son Scénario

Imaginez un réalisateur de film très talentueux, mais qui a une mémoire très courte. À chaque fois qu'il doit tourner la prochaine scène d'un jeu vidéo ou d'un film interactif, il ne regarde que les 5 dernières secondes de ce qui vient de se passer.

Le résultat ? Si vous demandez au réalisateur de revenir dans une pièce visitée il y a 10 minutes, il ne s'en souvient plus. Les meubles ont changé de place, les couleurs ont changé, ou pire, le mur a disparu.
La cause : Les modèles actuels (comme ceux qui génèrent des vidéos) fonctionnent comme une caméra qui filme uniquement les pixels (les points de couleur). Ils n'ont pas de "mémoire 3D" du monde. Ils doivent deviner où sont les objets en se basant uniquement sur ce qu'ils voient à l'instant T. C'est comme essayer de reconstruire un château de sable en regardant seulement une photo de la dernière vague.

💡 La Solution : PERSIST (Le Monde qui a une Mémoire)

Les auteurs de ce papier ont créé PERSIST. Au lieu de se fier uniquement aux images (pixels), ils donnent au modèle une mémoire 3D persistante.

Voici l'analogie pour comprendre comment ça marche :

1. Le Monde Virtuel (Le "Cahier de Dessins")

Imaginez que le modèle ne génère pas directement l'image finale. D'abord, il dessine et met à jour un modèle 3D complet du monde dans un cahier spécial.

Ce cahier contient la position de chaque arbre, de chaque pierre et de chaque nuage.
Même si le joueur ne regarde pas la forêt, l'arbre reste là, dans le cahier. Il ne disparaît pas. C'est la mémoire spatiale.

2. La Caméra (Le "Regard")

Le joueur bouge, la caméra tourne. Dans PERSIST, la caméra est comme un projecteur ou une loupe qui va chercher des informations dans ce "Cahier 3D".

Au lieu de deviner où est l'arbre, le modèle va simplement chercher dans son cahier : "Où est l'arbre par rapport à la caméra ?"
Ensuite, il projette cette information 3D sur l'écran pour créer l'image finale.

3. Le Résultat : Une Cohérence Magique

Grâce à cette méthode :

Si vous revenez en arrière : L'arbre est exactement là où vous l'avez laissé.
Si vous tournez la tête : Les objets derrière vous restent cohérents.
Si vous modifiez le monde : Vous pouvez changer la couleur d'un mur ou ajouter un arbre directement dans le "Cahier 3D", et le modèle le verra instantanément, même si vous ne le regardiez pas avant.

🚀 Pourquoi c'est révolutionnaire ?

Plus de "Hallucinations" : Dans les jeux vidéo générés par IA, il arrive souvent que des murs se déforment ou que des objets changent de forme. Avec PERSIST, la géométrie est solide comme du béton parce qu'elle est basée sur une structure 3D réelle, pas juste sur des pixels flous.
Des mondes infinis : Comme le modèle a une mémoire 3D, il peut gérer des mondes beaucoup plus grands que ce qu'il peut "voir" à un instant donné. Il peut se souvenir de ce qui se passe dans une grotte lointaine, même si le joueur est à l'autre bout de la carte.
Contrôle total : Vous pouvez dire au modèle : "Ajoute un pont ici" ou "Change la météo", et il le fera directement dans la structure 3D du monde, ce qui rend l'expérience beaucoup plus naturelle.

🏁 En Résumé

Pensez à la différence entre dessiner une image (les anciennes méthodes) et construire un Lego (PERSIST).

Avec l'ancienne méthode, si vous voulez changer un détail, vous devez tout redessiner et espérer que ça ressemble au dessin d'avant.
Avec PERSIST, vous avez un monde de Lego virtuel. Vous pouvez déplacer une pièce, changer sa couleur, et tout le reste s'adapte parfaitement. Le monde reste stable, cohérent et réaliste, peu importe combien de temps vous y jouez.

C'est un pas de géant vers des jeux vidéo et des mondes virtuels qui ne "cassent" jamais, où l'IA comprend vraiment l'espace dans lequel elle évolue.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles du monde interactifs actuels visent à générer des expériences vidéo réalistes en réponse aux actions d'un utilisateur. Cependant, les approches existantes reposent principalement sur des modèles autoregressifs (AR) basés sur l'historique des pixels (images passées). Cette approche présente deux limitations majeures :

Absence de représentation 3D explicite : La cohérence 3D doit être apprise implicitement à partir des données, ce qui est difficile et souvent imparfait.
Mémoire spatiale limitée : La mémoire est restreinte à une fenêtre temporelle courte (quelques secondes de vidéo). Pour étendre la génération, les méthodes actuelles utilisent des stratégies de récupération de "key-frames" (images clés) dans une banque de mémoire. Cela devient inefficace car les observations pixeliques sont redondantes, dépendantes du point de vue et ne capturent qu'une partie de l'état caché du monde.

Cela entraîne une expérience utilisateur irréaliste (incohérences géométriques, objets qui disparaissent ou changent de forme) et pose des obstacles majeurs pour l'entraînement d'agents autonomes dans des simulations à long terme.

2. Méthodologie : Le Framework PERSIST

Pour surmonter ces limites, les auteurs proposent PERSIST (Persistent Environment Representations for Simulating Interactive Space-Time). Au lieu de traiter les pixels comme la source principale de mémoire, PERSIST modélise l'évolution d'un état latent 3D persistant du monde.

Le système décompose la simulation du monde en trois composants couplés, entraînés de manière différentiable :

A. Représentation de l'Environnement (World-Frame)

Au lieu de stocker des images, le modèle maintient une représentation 3D dynamique (un "world-frame") centrée sur l'agent.

Structure : C'est une grille de voxels latents ( $\bar{w}$ ) qui encode la géométrie et la sémantique de l'environnement.
Fonctionnement : À chaque pas de temps, un modèle de prédiction ( $W_\theta$ ) met à jour cet état 3D en fonction des actions passées, de la caméra et de l'état 3D précédent. Cela permet de simuler des processus dynamiques même hors champ de vision.

B. Modèle de Caméra

Un modèle ( $C_\theta$ ) prédit les paramètres de la caméra (position, rotation, champ de vision) à chaque étape.

La caméra agit comme une clé de recherche pour extraire les informations pertinentes de l'état 3D global afin de générer l'image actuelle.

C. Génération World-to-Pixel (Rendu)

Un module de rendu ( $P_\theta$ ) projette l'état 3D latent sur le plan de l'image pour générer les pixels.

Projection : L'état 3D est projeté via un opérateur de rendu différentiable ( $R$ ) pour créer une pile de caractéristiques ordonnées par profondeur ( $w_{2D}$ ).
Rendu Différé : $P_\theta$ agit comme un "shader neuronal différé". Il utilise les informations 3D projetées comme guide principal pour générer les pixels, mais peut aussi apprendre des détails non capturés par la géométrie brute (textures, éclairage, effets de particules).

D. Entraînement et Architecture

Modèle de base : Le système utilise des modèles de flux rectifié (Rectified Flow Matching) et des Transformers de diffusion (DiT) avec des mécanismes d'attention causale.
VAE : Des auto-encodeurs variationnels (2D pour les pixels, 3D pour les voxels) compressent les données dans un espace latent.
Gestion du biais d'exposition : Pour éviter que les erreurs ne s'accumulent lors de la génération autoregressive, le système utilise le "Diffusion Forcing" (bruitage indépendant des frames passées) et une augmentation aléatoire du bruit lors de l'entraînement des composants.

3. Contributions Clés

Paradigme de Mémoire Persistante : Passage d'une mémoire basée sur l'historique des pixels (redondant et limité) à une mémoire basée sur un état 3D latent dynamique et persistant.
Cohérence Géométrique par Construction : En générant les images à partir d'une représentation 3D unique, la cohérence spatiale et la stabilité géométrique sont garanties par conception, même lors de retours sur des zones visitées précédemment.
Nouvelles Capacités de Contrôle :
- Initialisation 3D explicite : Possibilité de démarrer une génération à partir d'un état 3D complet, offrant un contrôle plus fin qu'une simple image.
- Édition en cours de génération : Possibilité de modifier l'état 3D ( $w_t$ ) à n'importe quel moment (ex: changer le terrain, ajouter un arbre) et de reprendre la génération avec cette nouvelle configuration.
- Dynamiques hors champ : Le modèle peut simuler des événements se produisant hors du champ de vision de l'agent (ex: une grotte qui se remplit d'eau) et qui ont un impact visible plus tard.

4. Résultats Expérimentaux

Les expériences ont été menées dans Luanti (un moteur de jeu voxel open-source inspiré de Minecraft) avec un ensemble de données de 40 millions d'interactions.

Comparaison : PERSIST a été comparé à des modèles de base comme Oasis et WorldMem (qui utilisent des mécanismes de récupération de frames clés).
Métriques Quantitatives :
- FVD (Fréchet Video Distance) : PERSIST obtient un score nettement inférieur (meilleur), indiquant une meilleure distribution globale des vidéos générées (ex: 181 pour PERSIST-XL contre 596 pour WorldMem).
Étude Utilisateur (Qualitative) :
- Une étude avec 28 participants a évalué la fidélité visuelle, la cohérence 3D et la stabilité temporelle.
- Résultat : PERSIST surpasse systématiquement les baselines sur tous les critères, en particulier la cohérence 3D et la stabilité temporelle sur des horizons longs (600 pas de temps). Les utilisateurs ont noté une réduction drastique des artefacts géométriques et des incohérences spatiales.
Robustesse : Même avec une résolution spatiale réduite de la représentation 3D, les performances restent élevées, démontrant la robustesse de l'approche.

5. Signification et Perspectives

Signification :
Ce travail marque un changement de paradigme dans la génération de mondes interactifs. Il démontre que pour obtenir une simulation réaliste et durable, il est crucial de maintenir une représentation interne explicite de l'état du monde (3D) plutôt que de simplement prédire la prochaine image basée sur les précédentes. Cela ouvre la voie à des simulateurs plus fiables pour l'entraînement d'agents d'IA (embodied AI) et à des expériences de jeu vidéo génératives plus immersives.

Limites et Futur :

Dépendance aux données 3D : Actuellement, PERSIST nécessite des annotations 3D (voxels) pour l'entraînement, ce qui limite son application aux simulateurs. Les auteurs suggèrent d'utiliser des modèles fondationnels 2D-to-3D pour générer ces annotations automatiquement.
Biais d'exposition : Bien que le système soit robuste, une dégradation progressive de la qualité visuelle apparaît sur des épisodes très longs (2000+ pas) en raison de l'accumulation d'erreurs. Un post-entraînement end-to-end sur les rollouts générés est envisagé pour corriger cela.
Mémoire spatiale infinie : Le modèle actuel gère une région 3D finie autour de l'agent. Une future direction consiste à implémenter une banque de mémoire 3D pour gérer des environnements de taille illimitée.

En résumé, PERSIST établit un nouvel état de l'art en prouvant que l'intégration d'un état 3D persistant dans les modèles du monde améliore considérablement la cohérence, la stabilité et le contrôle des générations interactives à long terme.