Inference-time Physics Alignment of Video Generative Models with Latent World Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un artiste très talentueux de dessiner une vidéo d'un ballon qui rebondit. L'artiste a un style magnifique, les couleurs sont superbes, mais il y a un petit problème : le ballon traverse parfois le sol, ou il rebondit plus haut que le plafond, comme s'il avait oublié les lois de la gravité. C'est exactement le problème des modèles de génération de vidéo actuels : ils sont beaux, mais ils ne comprennent pas vraiment comment le monde physique fonctionne.

Ce papier de recherche, intitulé "Alignement de la physique au moment de l'inférence", propose une solution ingénieuse pour corriger cela sans avoir à réapprendre tout le métier à l'artiste.

Voici l'explication simple, avec quelques analogies pour bien comprendre :

1. Le Problème : L'Artiste qui rêve trop

Les modèles de vidéo actuels (comme Sora ou d'autres IA) sont entraînés à regarder des millions de vidéos pour apprendre à copier les pixels. Ils sont excellents pour le style, mais ils ne "comprennent" pas la physique.

L'analogie : C'est comme un acteur qui joue un rôle de pilote de course. Il a l'air cool, il porte le bon casque, mais s'il doit conduire une vraie voiture, il risque de faire des virages impossibles ou de traverser les murs parce qu'il n'a jamais vraiment conduit.

2. La Solution : Un "Expert Physicien" invisible

Au lieu de réentraîner l'artiste (ce qui prendrait des mois et des ressources énormes), les chercheurs ajoutent un expert physique qui regarde le travail en temps réel.

L'outil magique : Ils utilisent un modèle appelé VJEPA-2. Imaginez que c'est un professeur de physique très intelligent qui a lu tous les manuels de mécanique, mais qui ne regarde pas les détails superficiels (comme la couleur de la voiture), mais plutôt le mouvement et la structure.
Le concept : Ce professeur ne dessine pas la vidéo. Il la regarde et dit : "Hé, ce mouvement est impossible ! Un objet ne peut pas traverser cet autre objet."

3. La Méthode : Le jeu du "Meilleur des N" et du "Guide"

Comment utilisent-ils cet expert pour améliorer la vidéo ? Ils utilisent deux techniques principales, que l'on peut comparer à un concours de cuisine ou à une boussole.

A. Le Concours "Meilleur des N" (Best-of-N)

Imaginez que vous demandez à l'artiste de dessiner 16 versions différentes de la même scène (par exemple, 16 vidéos où le ballon rebondit).

Ensuite, le professeur de physique (VJEPA-2) regarde les 16 vidéos.
Il note chacune d'elles : "Ah, celle-ci, le ballon traverse le sol, note 0/10. Celle-là, le ballon rebondit correctement, note 10/10."
Le résultat : On ne garde que la vidéo la mieux notée. C'est comme si vous commandiez 16 pizzas et que vous ne gardiez que celle qui est parfaitement cuite.

B. Le Guide Invisible (Guidance)

Parfois, au lieu de faire 16 vidéos, on guide l'artiste pendant qu'il dessine.

Imaginez que l'artiste dessine au fur et à mesure. Le professeur de physique lui chuchote : "Attention, tu vas faire tomber la tasse, corrige ton trait !"
Cela permet de dévier le dessin vers une trajectoire physiquement correcte, comme un GPS qui vous redirige si vous faites une erreur de route.

4. Le Résultat : Une vidéo qui a du "sens"

En combinant ces deux méthodes (faire plusieurs essais ET guider le processus), les chercheurs ont obtenu des résultats incroyables :

Gagnant du championnat : Leur méthode a gagné le premier prix du "PhysicsIQ Challenge" (un test très difficile pour évaluer la physique dans les vidéos), battant tous les records précédents.
Ce qui change : Les vidéos générées montrent maintenant des objets qui ne traversent pas les murs, des liquides qui tombent correctement, et des rebonds réalistes.
La surprise : Même si l'IA n'a pas été réentraînée, elle produit des vidéos plus belles et plus cohérentes simplement parce qu'on lui a donné un "guide" intelligent au moment de la création.

En résumé

Ce papier nous dit : "Pas besoin de réapprendre à l'IA comment fonctionne le monde. Donnez-lui simplement un expert physique qui la surveille pendant qu'elle travaille, et elle produira des résultats beaucoup plus réalistes."

C'est comme si vous donniez un correcteur de grammaire à un écrivain génial mais étourdi : l'écrivain garde son style, mais il ne fait plus de fautes de logique. C'est une avancée majeure pour créer des vidéos réalistes pour les jeux vidéo, les films, ou même pour aider les robots à comprendre notre monde.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles génératifs vidéo de l'état de l'art (comme Sora, MAGI-1, Wan, etc.) produisent des contenus visuellement convaincants, mais ils souffrent d'une compréhension physique insuffisante. Cela se traduit par des vidéos où les objets traversent des murs, la gravité est ignorée, ou les interactions fluides sont irréalistes.

Bien que la communauté attribue souvent ce problème à un manque de connaissances physiques durant la phase de pré-entraînement (basée sur la minimisation d'erreurs de reconstruction pixel), les auteurs identifient une cause sous-estimée : des stratégies d'inférence sous-optimales. Les méthodes actuelles ne parviennent pas à exploiter pleinement le "manifold" (variété) appris par le modèle pour trouver des trajectoires physiquement plausibles. L'objectif est donc d'améliorer la plausibilité physique sans réentraîner le modèle générateur, en agissant directement au moment de l'inférence.

2. Méthodologie : WMReward

Les auteurs proposent WMReward, une méthode d'alignement au moment de l'inférence qui utilise un modèle de monde latent (Latent World Model) comme fonction de récompense pour guider la génération.

A. Le Cœur du Système : Le Modèle de Monde Latent (VJEPA-2)

Au lieu d'utiliser des modèles de récompense basés sur le texte (VLM) ou la reconstruction pixel, l'équipe utilise VJEPA-2 (Video Joint-Embedding Predictive Architecture).

Principe : VJEPA-2 encode des vidéos dans un espace latent compact et apprend la fonction de transition pour prédire les états futurs.
Avantage : En opérant dans l'espace latent, le modèle ignore les détails d'apparence superficiels et se concentre sur la dynamique fondamentale (mouvement, permanence des objets, continuité des trajectoires).
Fonction de Récompense (Surprise Score) : La récompense est basée sur l'erreur de prédiction ("surprise").
- Le modèle observe un contexte de $C$ frames générées.
- Il prédit les représentations latentes des $M$ frames futures.
- Il compare cette prédiction avec les représentations latentes réelles des frames générées.
- Récompense : $r(x) = 1 - \cos(\hat{z}_{fut}, z_{fut})$ . Plus la prédiction du modèle de monde correspond à la génération, plus la vidéo est physiquement cohérente (récompense élevée).

B. Stratégies d'Échantillonnage (Sampling Schemes)

Pour échantillonner à partir d'une distribution biaisée vers les hautes récompenses ( $p^*(x) \propto w(x)p(x)$ ), trois approches sont explorées :

Guidance ( $\nabla$ ) : Utilisation de la fonction de récompense différentiable pour ajuster le score du modèle de diffusion (ajout du gradient de la récompense au score de débruitage).
Best-of-N (BoN) : Génération de $N$ échantillons indépendants à partir du modèle de base, suivi de la sélection de celui ayant la meilleure récompense.
Hybride ( $\nabla + \text{BoN}$ ) : Combinaison des deux. On utilise la guidance pour générer $N$ échantillons de meilleure qualité initiale, puis on sélectionne le meilleur parmi eux. Cette méthode offre le meilleur compromis entre précision et capacité d'exploration.

3. Contributions Clés

Introduction de WMReward : Une nouvelle fonction de récompense exploitant la "surprise" d'un modèle de monde latent (VJEPA-2) pour évaluer la plausibilité physique, surpassant les méthodes basées sur la reconstruction pixel ou les VLM.
Alignement au moment de l'inférence : Démonstration qu'il est possible d'améliorer radicalement la physique des vidéos générées sans fine-tuning du modèle générateur, simplement en modifiant la stratégie de débruitage.
Étude de l'échelle (Scaling) : Mise en évidence d'une corrélation positive entre la taille de l'espace de recherche (nombre de particules $N$ ) et la qualité physique, validant l'approche "test-time compute".
Performance Record : Atteinte d'un nouveau state-of-the-art sur le benchmark PhysicsIQ (ICCV 2025 Challenge).

4. Résultats Expérimentaux

Les expériences ont été menées sur trois modèles génératifs (MAGI-1, Sora2, vLDM) et trois scénarios (Text-to-Video, Image-to-Video, Video-to-Video).

Benchmark PhysicsIQ :
- Sur la tâche Video-to-Video (V2V), la méthode $\nabla + \text{BoN}$ atteint un score de 62,00 %, battant l'ancien record (MAGI-1 de base) de 6,78 points.
- Sur la tâche Image-to-Video (I2V), le score dépasse Sora2 de 4,13 points.
- Lors du challenge officiel ICCV 2025, l'équipe a remporté la première place avec un score final de 62,64 % (sur MAGI-1).
Benchmark VideoPhy (Text-to-Video) :
- Amélioration significative de la cohérence physique (Physics Consistency) pour vLDM (+6,9 %) et MAGI-1 (+8,1 %).
Étude Humaine :
- Une étude de préférence humaine sur 198 paires de vidéos montre que WMReward gagne 54,9 % à 59,3 % des comparaisons sur la plausibilité physique, tout en maintenant ou améliorant la qualité visuelle et l'alignement avec le prompt.
Qualité Visuelle :
- L'analyse via VBench indique que l'amélioration physique ne se fait pas au détriment de la qualité visuelle ; au contraire, la cohérence temporelle et la fluidité du mouvement s'améliorent.

5. Signification et Impact

Ce travail démontre une viabilité majeure de l'utilisation de modèles de monde latents comme récompense pour l'alignement des modèles génératifs vidéo.

Changement de paradigme : Il déplace l'effort de l'amélioration coûteuse du pré-entraînement vers des stratégies d'inférence intelligentes ("test-time compute"), permettant d'exploiter les connaissances physiques déjà présentes dans les modèles de fondation (comme VJEPA).
Robustesse : La méthode fonctionne sur des architectures variées (diffusion latente, modèles autoregressifs) et ne nécessite pas de réentraînement des modèles générateurs.
Futur : Cela ouvre la voie à des systèmes de génération vidéo plus fiables pour des applications critiques comme la robotique, la conduite autonome et la simulation, où la physique doit être rigoureusement respectée.

En résumé, WMReward prouve que l'on peut "corriger" la physique d'une vidéo générée en temps réel en utilisant la capacité prédictive d'un modèle de monde latent comme boussole, atteignant ainsi des performances inédites sur les benchmarks de physique.