Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Le papier présente Green-VLA, un modèle d'action vision-langage à cinq étapes conçu pour le robot humanoïde Green, qui combine un préentraînement multi-embodiments et un alignement par renforcement pour offrir une généralisation robuste et des performances améliorées sur divers systèmes robotiques.

I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov

Publié 2026-03-10
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez enseigner à un robot humanoïde (appelé Green) comment faire le ménage, ranger des courses ou aider dans une maison. Au lieu de lui apprendre chaque tâche individuellement (comme apprendre à un enfant à faire le lit, puis à laver la vaisselle, puis à cuisiner), les chercheurs de Sber Robotics ont créé une méthode intelligente pour lui donner une culture générale robotique.

Voici comment cela fonctionne, étape par étape, avec des analogies simples :

1. Le Problème : Trop de données, mais de mauvaise qualité

Avant, pour entraîner un robot, on lui montrait des milliers d'heures de vidéos de robots qui bougent. Mais c'était comme essayer d'apprendre à conduire en regardant des vidéos floues, tremblantes, ou filmées par des pilotes très différents. De plus, chaque robot a une "anatomie" différente (certains ont des bras, d'autres des roues, d'autres des mains à 10 doigts).

La solution Green-VLA : Au lieu de simplement ajouter plus de données, ils ont créé un filtre de qualité (appelé DataQA). C'est comme un chef cuisinier qui ne garde que les meilleurs ingrédients. Ils ont éliminé les vidéos floues, les mouvements saccadés et les erreurs, ne gardant que les démonstrations parfaites et fluides.

2. La Méthode : Un "Cursus" en 5 Étapes (Le Curriculum)

Au lieu d'essayer d'apprendre tout d'un coup, Green-VLA suit un programme scolaire en 5 niveaux, comme un étudiant qui grandit :

  • Niveau 0 (L0) : L'Écolier Universel.
    Le robot commence par lire des livres et regarder des vidéos sur Internet (images, textes, vidéos). Il apprend le langage humain et la physique du monde (ex: "une tasse est fragile", "l'eau coule"). Il ne touche à rien, il comprend juste le monde.
  • Niveau 1 (L1) : L'Apprentissage du Monde Physique.
    On lui montre des vidéos de gens qui font des choses (marcher, saisir des objets). Il commence à comprendre comment les objets interagissent, même sans être un robot lui-même.
  • Niveau 2 (R0) : L'École de Robotique Générale.
    Là, on lui montre des milliers d'heures de vidéos de tous types de robots (bras robotiques, robots à roues, humanoïdes). C'est ici qu'il apprend à traduire ce qu'il voit en mouvements. Il apprend que "saisir" veut dire la même chose, que ce soit avec une pince ou une main humaine.
  • Niveau 3 (R1) : La Spécialisation.
    Maintenant, on lui dit : "Tu es le robot Green, avec tes 32 articulations spécifiques". On ajuste son entraînement pour qu'il soit parfait avec son corps précis. C'est comme un athlète qui s'entraîne spécifiquement pour ses propres muscles.
  • Niveau 4 (R2) : L'Entraînement par l'Expérience (Renforcement).
    C'est l'étape cruciale. Le robot essaie des tâches dans un simulateur ou en vrai. S'il réussit, on le félicite (récompense). S'il échoue, il apprend de ses erreurs. C'est comme un enfant qui apprend à ne pas toucher à un four chaud parce que ça brûle. Cela le rend plus robuste et capable de gérer des situations imprévues.

3. Les Astuces Magiques

  • Le "Langage Universel" (Action Space Unifié) :
    Imaginez que vous voulez apprendre à conduire une voiture, un camion et un vélo. Au lieu d'apprendre trois manettes différentes, Green-VLA utilise un langage de mouvement unique. Il apprend que "avancer" est le même concept, qu'il s'agisse de tourner un volant ou de bouger un bras. Cela lui permet de passer d'un robot à l'autre sans tout réapprendre.
  • Le "GPS" pour les objets (Module JPM) :
    Parfois, le robot doit attraper un objet qu'il n'a jamais vu (ex: une nouvelle bouteille de jus). Le modèle utilise un petit module "GPS" qui lit l'étiquette, trouve l'objet sur l'image, et dit au robot : "Va exactement à ce point précis". C'est comme avoir un ami qui vous pointe du doigt l'objet exact dans un magasin bondé.
  • Le "Chronomètre" (Prédiction de progression) :
    Le robot sait où il en est dans sa tâche. Il peut dire : "J'ai fini de saisir l'objet, je vais maintenant le poser". Cela évite qu'il continue de bouger inutilement une fois la tâche terminée.

4. Les Résultats : Un Robot Polyvalent et Intelligent

Grâce à cette méthode, le robot Green (l'humanoïde) est devenu incroyablement performant :

  • Il peut ranger une table remplie de différents objets (biscuits, shampoing, ring intelligent) en suivant des instructions en langage naturel.
  • Il gère très bien les situations nouvelles (objets qu'il n'a jamais vus).
  • Il est plus rapide et plus précis que les robots précédents, même avec moins de données d'entraînement.

En Résumé

Green-VLA, c'est comme donner à un robot une éducation complète : d'abord une culture générale (Internet), puis une formation technique (tous les robots), ensuite une spécialisation sur son propre corps, et enfin de l'expérience pratique (essais/erreurs).

Le résultat ? Un robot qui ne se contente pas d'imiter des mouvements, mais qui comprend ce qu'il doit faire, s'adapte à son environnement et peut même apprendre de nouvelles tâches sans avoir besoin d'être reprogrammé de zéro. C'est un pas de géant vers des robots domestiques qui peuvent vraiment nous aider au quotidien.