Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez enseigner à un robot humanoïde (appelé Green) comment faire le ménage, ranger des courses ou aider dans une maison. Au lieu de lui apprendre chaque tâche individuellement (comme apprendre à un enfant à faire le lit, puis à laver la vaisselle, puis à cuisiner), les chercheurs de Sber Robotics ont créé une méthode intelligente pour lui donner une culture générale robotique.

Voici comment cela fonctionne, étape par étape, avec des analogies simples :

1. Le Problème : Trop de données, mais de mauvaise qualité

Avant, pour entraîner un robot, on lui montrait des milliers d'heures de vidéos de robots qui bougent. Mais c'était comme essayer d'apprendre à conduire en regardant des vidéos floues, tremblantes, ou filmées par des pilotes très différents. De plus, chaque robot a une "anatomie" différente (certains ont des bras, d'autres des roues, d'autres des mains à 10 doigts).

La solution Green-VLA : Au lieu de simplement ajouter plus de données, ils ont créé un filtre de qualité (appelé DataQA). C'est comme un chef cuisinier qui ne garde que les meilleurs ingrédients. Ils ont éliminé les vidéos floues, les mouvements saccadés et les erreurs, ne gardant que les démonstrations parfaites et fluides.

2. La Méthode : Un "Cursus" en 5 Étapes (Le Curriculum)

Au lieu d'essayer d'apprendre tout d'un coup, Green-VLA suit un programme scolaire en 5 niveaux, comme un étudiant qui grandit :

Niveau 0 (L0) : L'Écolier Universel.
Le robot commence par lire des livres et regarder des vidéos sur Internet (images, textes, vidéos). Il apprend le langage humain et la physique du monde (ex: "une tasse est fragile", "l'eau coule"). Il ne touche à rien, il comprend juste le monde.
Niveau 1 (L1) : L'Apprentissage du Monde Physique.
On lui montre des vidéos de gens qui font des choses (marcher, saisir des objets). Il commence à comprendre comment les objets interagissent, même sans être un robot lui-même.
Niveau 2 (R0) : L'École de Robotique Générale.
Là, on lui montre des milliers d'heures de vidéos de tous types de robots (bras robotiques, robots à roues, humanoïdes). C'est ici qu'il apprend à traduire ce qu'il voit en mouvements. Il apprend que "saisir" veut dire la même chose, que ce soit avec une pince ou une main humaine.
Niveau 3 (R1) : La Spécialisation.
Maintenant, on lui dit : "Tu es le robot Green, avec tes 32 articulations spécifiques". On ajuste son entraînement pour qu'il soit parfait avec son corps précis. C'est comme un athlète qui s'entraîne spécifiquement pour ses propres muscles.
Niveau 4 (R2) : L'Entraînement par l'Expérience (Renforcement).
C'est l'étape cruciale. Le robot essaie des tâches dans un simulateur ou en vrai. S'il réussit, on le félicite (récompense). S'il échoue, il apprend de ses erreurs. C'est comme un enfant qui apprend à ne pas toucher à un four chaud parce que ça brûle. Cela le rend plus robuste et capable de gérer des situations imprévues.

3. Les Astuces Magiques

Le "Langage Universel" (Action Space Unifié) :
Imaginez que vous voulez apprendre à conduire une voiture, un camion et un vélo. Au lieu d'apprendre trois manettes différentes, Green-VLA utilise un langage de mouvement unique. Il apprend que "avancer" est le même concept, qu'il s'agisse de tourner un volant ou de bouger un bras. Cela lui permet de passer d'un robot à l'autre sans tout réapprendre.
Le "GPS" pour les objets (Module JPM) :
Parfois, le robot doit attraper un objet qu'il n'a jamais vu (ex: une nouvelle bouteille de jus). Le modèle utilise un petit module "GPS" qui lit l'étiquette, trouve l'objet sur l'image, et dit au robot : "Va exactement à ce point précis". C'est comme avoir un ami qui vous pointe du doigt l'objet exact dans un magasin bondé.
Le "Chronomètre" (Prédiction de progression) :
Le robot sait où il en est dans sa tâche. Il peut dire : "J'ai fini de saisir l'objet, je vais maintenant le poser". Cela évite qu'il continue de bouger inutilement une fois la tâche terminée.

4. Les Résultats : Un Robot Polyvalent et Intelligent

Grâce à cette méthode, le robot Green (l'humanoïde) est devenu incroyablement performant :

Il peut ranger une table remplie de différents objets (biscuits, shampoing, ring intelligent) en suivant des instructions en langage naturel.
Il gère très bien les situations nouvelles (objets qu'il n'a jamais vus).
Il est plus rapide et plus précis que les robots précédents, même avec moins de données d'entraînement.

En Résumé

Green-VLA, c'est comme donner à un robot une éducation complète : d'abord une culture générale (Internet), puis une formation technique (tous les robots), ensuite une spécialisation sur son propre corps, et enfin de l'expérience pratique (essais/erreurs).

Le résultat ? Un robot qui ne se contente pas d'imiter des mouvements, mais qui comprend ce qu'il doit faire, s'adapte à son environnement et peut même apprendre de nouvelles tâches sans avoir besoin d'être reprogrammé de zéro. C'est un pas de géant vers des robots domestiques qui peuvent vraiment nous aider au quotidien.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles Vision-Language-Action (VLA) actuels, bien que prometteurs pour l'IA incarnée, font face à plusieurs défis majeurs lors du déploiement dans le monde réel :

Hétérogénéité des données : Les jeux de données robotiques varient considérablement en termes d'observations, d'espaces d'action et de fréquences d'échantillonnage.
Qualité variable : Les trajectoires contiennent souvent du bruit (jitter), des images floues et une exécution incohérente.
Limites de l'imitation (Behavior Cloning - BC) : L'apprentissage par imitation standard minimise l'erreur entre l'action prédite et l'action démonstrée, mais il sature rapidement. Il échoue à s'aligner sur des objectifs à long terme, à gérer les récompenses de tâche et à récupérer des erreurs (hors distribution).
Latence et raisonnement : Les approches intégrant un raisonnement explicite (comme la chaîne de pensée) augmentent souvent la latence d'inférence, les rendant inadaptées au contrôle robotique en temps réel.

L'objectif est de créer un modèle généraliste capable de contrôler divers robots (bras fixes, manipulateurs mobiles, humanoïdes) avec une haute robustesse et une capacité de généralisation "zero-shot" vers de nouveaux corps et objets.

2. Méthodologie : Le Pipeline Green-VLA

Green-VLA propose une approche en cinq étapes (curriculum) pour passer des fondations web à l'alignement par renforcement, reposant sur une pile de données et de contrôle unifiée.

A. Architecture et Espace d'Action Unifié

Modèle de base : Un encodeur Vision-Language (basé sur Qwen3-VL ou PaliGemma) fusionne les observations RGB, la proprioception et les instructions textuelles.
Expert d'action : Un module "Flow-Matching" prédit des blocs d'actions normalisés.
Espace d'action unifié ( $A_u$ ) : Au lieu de simplement combler (padding) les espaces d'action hétérogènes, Green-VLA définit un espace sémantique fixe de 64 dimensions. Chaque robot mappe ses actions natives (articulaires, cartésiennes, préhension) vers des "slots" spécifiques de cet espace via une fonction $\Phi_e$ et un masque binaire. Cela élimine les pénalités artificielles sur les dimensions non utilisées et permet un transfert positif entre robots.
Prompting dynamique : Le modèle est conditionné par un prompt structurant le type de contrôle (nombre de bras, type de préhension, mobile/statique).

B. Pipeline de Données (DataQA)

Un pipeline rigoureux de filtrage et d'alignement temporel est appliqué sur 3 000 heures de démonstrations :

Filtrage de qualité : Utilisation de métriques pour éliminer les épisodes de mauvaise qualité (jitter $J$ , netteté $S$ , diversité visuelle $D$ , variance d'état $\sigma^2$ ).
Alignement temporel : Les trajectoires sont rééchantillonnées et interpolées (splines cubiques) en fonction de la magnitude du flux optique pour normaliser la vitesse d'exécution entre différents robots.
Augmentation : Création de trajectoires miroir (symétrie bilatérale) et inversées dans le temps pour les tâches réversibles, augmentant artificiellement les données humanoïdes.

C. Le Curriculum d'Entraînement (5 Étapes)

L0 (Base VLM) : Utilisation d'un modèle Vision-Language pré-entraîné sur des données web massives.
L1 (Pré-entraînement Web Multimodal) : Affinage sur 24 millions d'échantillons web (VQA, pointage, raisonnement spatial) pour ancrer la compréhension physique et sémantique.
R0 (Pré-entraînement Robotique Général) : Entraînement sur un corpus unifié de >3 000 heures de données robotiques (humanoïdes, bras doubles, etc.) pour apprendre les affordances et les invariants inter-embodiments.
R1 (Adaptation Spécifique à l'Embodiment) : Affinage (SFT) sur des données de haute qualité spécifiques au robot cible (ex: Green Humanoid) pour optimiser le taux de réussite immédiat.
R2 (Alignement par Renforcement - RL) : Affinage par RL pour combler le fossé de la dernière mile. Deux méthodes sont utilisées :
- Optimisation de trajectoire native : Utilisation d'une fonction de valeur (Q-function) pour corriger les actions générées par le modèle de base.
- Optimisation de la distribution source : Un acteur apprend à échantillonner un bruit initial qui guide le modèle Flow-Matching vers des trajectoires à haute récompense.

D. Modules d'Amélioration à l'Inférence

Planificateur de tâches (GigaVision) : Un VLM haut niveau décompose les objectifs complexes en sous-tâches atomiques et gère la boucle de rétroaction/réplanification.
Détection OOD (Out-of-Distribution) : Un détecteur basé sur un mélange de Gaussiens (GMM) corrige les actions qui mèneraient le robot dans des états non vus lors de l'entraînement.
Module de Guidage par Prédiction Articulaire (JPM) : Pour les objets non vus ou rares, un module léger prédit un point d'affordance 3D à partir de l'image et du texte, guidant le champ de flux du modèle vers ce point cible.

3. Contributions Clés

Pipeline DataQA et Alignement Temporel : Une méthode robuste pour nettoyer, filtrer et aligner temporellement des données hétérogènes, garantissant une base d'apprentissage stable.
Recette d'Entraînement Étagée (L0→R2) : Une preuve conceptuelle que la combinaison de pré-entraînement web, de pré-entraînement robotique unifié, d'adaptation spécifique et d'alignement RL est supérieure à l'augmentation simple de l'échelle des données.
Espace d'Action Unifié et Généralisation Zero-Shot : Capacité à entraîner un seul modèle sur des dizaines de robots différents et à le déployer sur un humanoïde à 32 degrés de liberté (Green) sans changement d'architecture, avec des performances compétitives.
Alignement RL pour la Robustesse : Démonstration que l'étape R2 améliore significativement la récupération d'erreurs, la longueur des chaînes d'actions et le taux de réussite sur des tâches complexes.

4. Résultats Expérimentaux

Le modèle Green-VLA (environ 4-5 milliards de paramètres) a été évalué sur plusieurs benchmarks et robots réels :

Benchmarks Simpler (WidowX & Google Robot) :
- Green-VLA (phase R0) surpasse les modèles pré-entraînés comme $\pi_0$ et OpenVLA.
- Après l'étape R2 (RL), le modèle atteint un taux de réussite de 79,1% sur WidowX (vs 53,1% pour $\pi_0$ ) et 80,5% avec le backbone Qwen3-VL.
Benchmarks CALVIN (Tâches à long horizon) :
- L'alignement RL (R2) augmente considérablement la longueur moyenne des chaînes d'actions (ACL) et la réussite des tâches composées, surpassant les méthodes de fine-tuning classiques.
Robot Humanoïde Green :
- Le modèle contrôle avec succès les 32 degrés de liberté du haut du corps (tête, torse, bras doubles, mains à 5 doigts).
- Il réalise des tâches complexes comme le tri de fruits, le nettoyage de table et la remise d'objets, avec un taux de réussite élevé même dans des configurations hors distribution (OOD).
Scénario E-commerce (Guidage JPM) :
- L'ajout du module JPM améliore drastiquement le taux de réussite pour la préhension d'objets spécifiques sur des étagères encombrées (passant de ~36% à 93% pour des SKU précis).

5. Signification et Impact

Green-VLA représente une avancée significative vers des robots généralistes réalistes.

Au-delà de l'échelle brute : Il démontre que la qualité des données, l'unification des actions et l'alignement par renforcement sont plus critiques que la simple augmentation du nombre de paramètres ou de données brutes.
Déploiement Pratique : L'architecture est conçue pour le temps réel (faible latence) et la sécurité (détection OOD), ce qui est crucial pour les applications industrielles et domestiques.
Futur : Le framework ouvre la voie à des robots capables de comprendre des instructions multilingues, de raisonner de manière explicite sans sacrifier la vitesse, et d'apprendre continuellement via des boucles de rétroaction en monde réel.

En résumé, Green-VLA fournit une "recette" complète et validée pour transformer des données robotiques hétérogènes en politiques de contrôle robustes et généralisables, en particulier pour les humanoïdes complexes.