World Action Models are Zero-shot Policies

Le papier présente DreamZero, un modèle d'action mondiale basé sur la diffusion vidéo qui, en apprenant la dynamique physique par la prédiction d'états futurs, surpasse les modèles VLA actuels en généralisation zéro-shot et permet une adaptation rapide à de nouveaux robots grâce à des démonstrations vidéo ou peu nombreuses.

Seonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang

Publié 2026-02-19
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'apprendre à cuisiner.

  • L'approche traditionnelle (les anciens robots) : C'est comme si on vous donnait un livre de recettes très précis. Si vous voulez faire un gâteau, vous suivez les étapes mot par mot. Mais si on vous demande de faire un plat que le livre ne contient pas, ou si vous devez cuisiner dans une cuisine différente avec des ustensiles différents, vous êtes perdu. Le robot ne comprend pas comment les choses bougent, il suit juste une liste de commandes.
  • L'approche DreamZero (le nouveau robot) : C'est comme si le robot avait regardé des milliers d'heures de vidéos de cuisine sur Internet, de films et de tutoriels. Il a développé un "sens commun" de la physique. Il ne se souvient pas juste de la recette, il imagine le résultat final.

1. Le concept de base : Le "Rêveur" (DreamZero)

Les chercheurs ont créé un modèle appelé DreamZero. C'est un robot qui possède un cerveau de 14 milliards de paramètres (très gros !).

Au lieu de simplement regarder une image et dire "Je dois attraper cette pomme", DreamZero fait deux choses en même temps :

  1. Il imagine (comme dans un rêve) ce qui va se passer dans les prochaines secondes : la pomme va être attrapée, le bras va bouger, la pomme va atterrir dans le panier.
  2. Il agit en fonction de cette image mentale.

L'analogie du réalisateur de film :
Imaginez que le robot est à la fois le réalisateur et l'acteur. Avant de bouger, il tourne un court métrage dans sa tête pour voir si son plan va marcher. Si le film qu'il imagine montre que la pomme va tomber par terre, il ajuste son mouvement avant même de bouger. C'est ce qu'on appelle un Modèle d'Action du Monde (World Action Model).

2. Pourquoi c'est révolutionnaire ?

A. Apprendre sans répéter (La diversité vs la répétition)

Les robots classiques ont besoin de voir une tâche répétée 100 fois pour l'apprendre (comme un élève qui répète ses tables de multiplication).
DreamZero, lui, apprend en regardant des vidéos variées et désordonnées.

  • L'analogie : Imaginez un étudiant qui lit 100 fois le même chapitre d'un livre (l'approche classique) vs un étudiant qui lit 100 livres différents sur la vie (DreamZero). Le second comprendra mieux comment fonctionne le monde et pourra résoudre des problèmes nouveaux, même s'il n'a jamais vu exactement la même situation.

B. La généralisation "Zéro-shot" (Faire du jamais vu)

Si vous demandez à un robot classique de "défaire les lacets de ses chaussures" et qu'il n'a jamais vu cette action, il ne sait pas quoi faire.
DreamZero, grâce à sa compréhension de la physique (comment les cordes se détendent, comment les mains s'opposent), peut essayer de le faire même si c'est la première fois.

  • Le résultat : Dans les tests, DreamZero a réussi à faire des tâches totalement nouvelles (comme défaire un nœud, repérer un chapeau, ou peindre) bien mieux que les robots précédents, même sans avoir été entraîné spécifiquement dessus.

C. Apprendre en regardant les autres (Transfert d'embodiment)

C'est peut-être la partie la plus magique.

  • Scénario : Vous avez un robot à deux bras (comme un humain). Vous voulez lui apprendre une tâche, mais vous n'avez pas de données de ce robot.
  • Solution DreamZero : Vous lui montrez simplement une vidéo d'un humain (ou d'un autre robot) faisant la tâche. Le robot regarde la vidéo, comprend la logique du mouvement, et l'adapte à son propre corps.
  • L'analogie : C'est comme si vous regardiez une vidéo de Michael Jordan jouer au basket, et que vous, en tant que nain géant avec de longs bras, vous réussissiez à faire un tir en l'air en adaptant son mouvement à votre morphologie, juste en regardant la vidéo, sans jamais avoir touché un ballon auparavant.

3. Le défi technique : La vitesse

Un problème avec les modèles qui "imaginent" des vidéos est que c'est lent. Générer une vidéo prend du temps, et un robot doit réagir en quelques millisecondes.

  • Le problème : Si le robot met 5 secondes pour imaginer son mouvement, il aura déjà raté son objectif.
  • La solution de l'équipe : Ils ont créé une version ultra-rapide appelée DreamZero-Flash. Ils ont optimisé le code et l'architecture pour que le robot puisse "rêver" et agir 7 fois par seconde. C'est assez rapide pour être réactif, comme un humain qui attrape un objet qui tombe.

En résumé

DreamZero est un robot qui ne se contente pas d'obéir à des ordres. Il possède une "imagination" visuelle.

  1. Il regarde le monde et imagine le futur (ce qui va se passer).
  2. Il agit en fonction de cette imagination.
  3. Il apprend en regardant des vidéos variées, pas juste en répétant des tâches.
  4. Il peut apprendre de nouvelles tâches en regardant simplement des vidéos d'humains ou d'autres robots.

C'est un pas énorme vers des robots domestiques qui pourraient un jour nous aider à ranger la maison, cuisiner ou faire le ménage, non pas parce qu'ils ont été programmés pour chaque objet, mais parce qu'ils ont appris à comprendre comment le monde fonctionne.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →