World Action Models are Zero-shot Policies

Seonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang

Publié 2026-02-19

📖 5 min de lecture🧠 Analyse approfondie

Voir sur arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'apprendre à cuisiner.

L'approche traditionnelle (les anciens robots) : C'est comme si on vous donnait un livre de recettes très précis. Si vous voulez faire un gâteau, vous suivez les étapes mot par mot. Mais si on vous demande de faire un plat que le livre ne contient pas, ou si vous devez cuisiner dans une cuisine différente avec des ustensiles différents, vous êtes perdu. Le robot ne comprend pas comment les choses bougent, il suit juste une liste de commandes.
L'approche DreamZero (le nouveau robot) : C'est comme si le robot avait regardé des milliers d'heures de vidéos de cuisine sur Internet, de films et de tutoriels. Il a développé un "sens commun" de la physique. Il ne se souvient pas juste de la recette, il imagine le résultat final.

1. Le concept de base : Le "Rêveur" (DreamZero)

Les chercheurs ont créé un modèle appelé DreamZero. C'est un robot qui possède un cerveau de 14 milliards de paramètres (très gros !).

Au lieu de simplement regarder une image et dire "Je dois attraper cette pomme", DreamZero fait deux choses en même temps :

Il imagine (comme dans un rêve) ce qui va se passer dans les prochaines secondes : la pomme va être attrapée, le bras va bouger, la pomme va atterrir dans le panier.
Il agit en fonction de cette image mentale.

L'analogie du réalisateur de film :
Imaginez que le robot est à la fois le réalisateur et l'acteur. Avant de bouger, il tourne un court métrage dans sa tête pour voir si son plan va marcher. Si le film qu'il imagine montre que la pomme va tomber par terre, il ajuste son mouvement avant même de bouger. C'est ce qu'on appelle un Modèle d'Action du Monde (World Action Model).

2. Pourquoi c'est révolutionnaire ?

A. Apprendre sans répéter (La diversité vs la répétition)

Les robots classiques ont besoin de voir une tâche répétée 100 fois pour l'apprendre (comme un élève qui répète ses tables de multiplication).
DreamZero, lui, apprend en regardant des vidéos variées et désordonnées.

L'analogie : Imaginez un étudiant qui lit 100 fois le même chapitre d'un livre (l'approche classique) vs un étudiant qui lit 100 livres différents sur la vie (DreamZero). Le second comprendra mieux comment fonctionne le monde et pourra résoudre des problèmes nouveaux, même s'il n'a jamais vu exactement la même situation.

B. La généralisation "Zéro-shot" (Faire du jamais vu)

Si vous demandez à un robot classique de "défaire les lacets de ses chaussures" et qu'il n'a jamais vu cette action, il ne sait pas quoi faire.
DreamZero, grâce à sa compréhension de la physique (comment les cordes se détendent, comment les mains s'opposent), peut essayer de le faire même si c'est la première fois.

Le résultat : Dans les tests, DreamZero a réussi à faire des tâches totalement nouvelles (comme défaire un nœud, repérer un chapeau, ou peindre) bien mieux que les robots précédents, même sans avoir été entraîné spécifiquement dessus.

C. Apprendre en regardant les autres (Transfert d'embodiment)

C'est peut-être la partie la plus magique.

Scénario : Vous avez un robot à deux bras (comme un humain). Vous voulez lui apprendre une tâche, mais vous n'avez pas de données de ce robot.
Solution DreamZero : Vous lui montrez simplement une vidéo d'un humain (ou d'un autre robot) faisant la tâche. Le robot regarde la vidéo, comprend la logique du mouvement, et l'adapte à son propre corps.
L'analogie : C'est comme si vous regardiez une vidéo de Michael Jordan jouer au basket, et que vous, en tant que nain géant avec de longs bras, vous réussissiez à faire un tir en l'air en adaptant son mouvement à votre morphologie, juste en regardant la vidéo, sans jamais avoir touché un ballon auparavant.

3. Le défi technique : La vitesse

Un problème avec les modèles qui "imaginent" des vidéos est que c'est lent. Générer une vidéo prend du temps, et un robot doit réagir en quelques millisecondes.

Le problème : Si le robot met 5 secondes pour imaginer son mouvement, il aura déjà raté son objectif.
La solution de l'équipe : Ils ont créé une version ultra-rapide appelée DreamZero-Flash. Ils ont optimisé le code et l'architecture pour que le robot puisse "rêver" et agir 7 fois par seconde. C'est assez rapide pour être réactif, comme un humain qui attrape un objet qui tombe.

En résumé

DreamZero est un robot qui ne se contente pas d'obéir à des ordres. Il possède une "imagination" visuelle.

Il regarde le monde et imagine le futur (ce qui va se passer).
Il agit en fonction de cette imagination.
Il apprend en regardant des vidéos variées, pas juste en répétant des tâches.
Il peut apprendre de nouvelles tâches en regardant simplement des vidéos d'humains ou d'autres robots.

C'est un pas énorme vers des robots domestiques qui pourraient un jour nous aider à ranger la maison, cuisiner ou faire le ménage, non pas parce qu'ils ont été programmés pour chaque objet, mais parce qu'ils ont appris à comprendre comment le monde fonctionne.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles fondationnels robotiques actuels, appelés Modèles Vision-Langage-Action (VLA), excellent dans la généralisation sémantique (comprendre les instructions et les objets) mais peinent à généraliser vers des mouvements physiques inédits dans de nouveaux environnements.

Limites des VLA : Ils sont souvent pré-entraînés sur des données statiques (image-texte) et apprennent des mappings directs observation-action. Cela les rend dépendants de démonstrations répétitives et spécifiques à une tâche. Ils échouent souvent sur des tâches nécessitant une dynamique physique précise (ex: défaire un nœud, utiliser un outil complexe) si ces compétences spécifiques ne sont pas présentes dans leurs données d'entraînement.
Le défi : Comment créer une politique robotique capable d'apprendre à partir de données hétérogènes, non répétitives, et de généraliser zero-shot (sans entraînement supplémentaire) à des tâches et des environnements jamais vus, tout en s'adaptant rapidement à de nouveaux robots ?

2. Méthodologie : DreamZero

Les auteurs proposent DreamZero, un modèle fondationnel robotique de 14 milliards de paramètres (14B) classé comme Modèle d'Action Mondiale (WAM - World Action Model).

A. Architecture et Principe Fondamental

Contrairement aux VLA qui prédisent uniquement l'action, DreamZero prédit conjointement les futurs états visuels (vidéo) et les actions.

Base : Le modèle est initialisé à partir d'un backbone de diffusion vidéo pré-entraîné (Wan2.1-I2V-14B), héritant ainsi de priors spatiotemporels riches issus de données vidéo à l'échelle du web.
Objectif d'apprentissage : Au lieu d'une imitation directe état-action, le modèle apprend la dynamique inverse. Il génère une séquence de frames futures et les actions correspondantes conditionnées par une instruction textuelle et l'état proprioceptif actuel.
Formulation : $\pi(o_{future}, a_{future} | o_{past}, c, q_{current})$ . La prédiction vidéo agit comme un "planificateur visuel implicite" qui guide la génération des actions.

B. Architecture Technique

Modèle Autoregressif : DreamZero utilise une architecture autoregressive (DiT - Diffusion Transformer) plutôt que bidirectionnelle. Cela permet d'utiliser le cache KV (Key-Value) pour l'inférence, d'éviter les problèmes d'alignement modalité (vidéo/langage/action) et de gérer des contextes longs sans sous-échantillonnage de la vidéo.
Entraînement par blocs (Chunk-wise) : La vidéo et les actions sont prédites par blocs de latents. Le modèle utilise un objectif de Flow Matching pour le débruitage.
Boucle fermée (Closed-loop) : Lors de l'inférence, après l'exécution d'un bloc d'actions, les frames générées sont remplacées par les observations réelles (Ground Truth) dans le cache. Cela élimine l'accumulation d'erreurs typique des générations vidéo autoregressives.

C. Optimisations pour le Temps Réel

Les modèles de diffusion sont naturellement lents. Pour atteindre un contrôle en boucle fermée à 7 Hz, les auteurs ont appliqué trois niveaux d'optimisations :

Optimisations Système : Parallélisation du Classifier-Free Guidance (CFG) sur deux GPU, mise en cache des vecteurs de vitesse DiT (réduisant les étapes de 16 à 4), et exécution asynchrone (l'inférence tourne pendant que le robot exécute).
Optimisations Implémentation : Utilisation de torch.compile, de graphes CUDA, de la quantification NVFP4 (sur architecture Blackwell) et de l'accélération des noyaux CUDA.
Optimisations Modèle (DreamZero-Flash) : Découplage des calendriers de bruit. Pendant l'entraînement, la vidéo est maintenue dans un état très bruyant (hautes étapes de bruit) tandis que l'action est débruitée rapidement. Cela permet d'inférer l'action en une seule étape (1-step denoising) tout en restant conditionné par une vidéo encore "floue", réduisant la latence de ~350ms à ~150ms avec une perte de performance minime.

3. Contributions Clés

Apprentissage à partir de données hétérogènes : DreamZero apprend efficacement à partir de données robotiques non répétitives et diversifiées (500 heures de téléopération dans 22 environnements réels), brisant le paradigme nécessitant des démonstrations répétitives par tâche.
Généralisation Zero-shot supérieure : Le modèle généralise mieux aux nouvelles tâches, objets et environnements que les VLA de l'état de l'art (VLA pré-entraînés ou scratch).
Transfert Cross-Embodiment (Corps à Corps) :
- Vidéo seule : L'utilisation de vidéos de démonstration d'autres robots ou d'humains (sans étiquettes d'action) améliore les performances sur des tâches invisibles de plus de 42 % avec seulement 10-20 minutes de données.
- Adaptation Few-shot : Un modèle pré-entraîné sur un robot (AgiBot G1) s'adapte à un nouveau robot (YAM) avec seulement 30 minutes de données de jeu, tout en conservant sa capacité de généralisation zero-shot.
Inférence Temps Réel : Réalisation d'un contrôle robotique en boucle fermée à 7 Hz grâce à une accélération d'inférence de 38x.

4. Résultats Expérimentaux

Les expériences ont été menées sur deux robots : AgiBot G1 (bimanuel mobile) et Franka (bras unique), avec des comparaisons contre les VLA de pointe (GR00T N1.6 et $\pi$ 0.5).

Généralisation Tâches/Environnements (Zero-shot) :
- Sur des tâches vues mais dans de nouveaux environnements, DreamZero atteint 62,2 % de progression moyenne, contre 27,4 % pour le meilleur VLA pré-entraîné.
- Sur des tâches invisibles (ex: défaire un lacet, repasser, secouer la main), DreamZero atteint 39,5 % de progression, tandis que les VLA (même pré-entraînés) stagnent autour de 16-18 % ou échouent totalement (proche de 0 % pour les modèles scratch).
Post-entraînement (Fine-tuning) : Même après un fine-tuning sur des tâches spécifiques, DreamZero conserve sa capacité de généralisation aux environnements non vus, surpassant les VLA.
Transfert Cross-Embodiment :
- L'ajout de 12 minutes de vidéo humaine ou 20 minutes de vidéo d'un autre robot (YAM) améliore les performances sur des tâches invisibles de ~38 % à ~55 %.
- L'adaptation few-shot (30 min de données sur YAM) permet au modèle d'effectuer des tâches complexes (ex: mettre des nouilles dans un sac) avec une forte adhérence aux instructions.
Efficacité de l'inférence : DreamZero-Flash permet d'exécuter le modèle en 150ms (7 Hz) avec une performance quasi équivalente à une version 4 étapes.

5. Signification et Impact

Ce travail marque un tournant dans la robotique fondationnelle :

Changement de paradigme : Il démontre que la prédiction de la dynamique du monde (via la vidéo) est un signal d'apprentissage plus puissant et plus généralisable que la simple prédiction d'action directe.
Efficacité des données : Il prouve que la diversité des données (variations d'environnements, de tâches) est plus cruciale que la répétition pour l'apprentissage de politiques généralistes.
Faisabilité temps réel : Il résout le problème de la latence des modèles de diffusion vidéo, les rendant viables pour le contrôle robotique réactif.
Potentiel d'échelle : La capacité à apprendre à partir de vidéos "seules" (sans données robotiques coûteuses) ouvre la voie à l'utilisation massive de données vidéo humaines et internet pour entraîner des robots, réduisant considérablement le coût de collecte de données.

En résumé, DreamZero établit un nouveau standard pour les politiques robotiques capables de généraliser zero-shot à travers les tâches, les environnements et les morphologies robotiques, tout en opérant en temps réel.

World Action Models are Zero-shot Policies

1. Le concept de base : Le "Rêveur" (DreamZero)

2. Pourquoi c'est révolutionnaire ?

A. Apprendre sans répéter (La diversité vs la répétition)

B. La généralisation "Zéro-shot" (Faire du jamais vu)

C. Apprendre en regardant les autres (Transfert d'embodiment)

3. Le défi technique : La vitesse

En résumé

1. Problématique

2. Méthodologie : DreamZero

A. Architecture et Principe Fondamental

B. Architecture Technique

C. Optimisations pour le Temps Réel

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank