ROCKET: Residual-Oriented Multi-Layer Alignment for Spatially-Aware Vision-Language-Action Models

Each language version is independently generated for its own context, not a direct translation.

🚀 ROCKET : Le "Super-Entraîneur" pour les Robots

Imaginez que vous essayez d'enseigner à un robot comment faire la cuisine. Le robot a déjà lu des millions de livres de cuisine (c'est son modèle de langage) et a vu des milliards de photos de plats (c'est son modèle de vision). Mais il y a un gros problème : il a appris avec des photos en 2D (comme sur un écran), alors que la vraie cuisine se passe en 3D, avec des objets qui ont de la profondeur, du volume et qui peuvent être saisis.

Le robot sait ce qu'il doit faire ("mets la casserole sur le feu"), mais il ne comprend pas bien où la casserole est dans l'espace. Il risque de passer sa main à travers la table ou de rater le feu.

C'est là qu'intervient ROCKET.

1. Le Problème : L'Entraînement "En Une Seule Fois"

Pour aider le robot à voir en 3D, les chercheurs utilisent un "professeur" très intelligent : un modèle de vision 3D ultra-puissant (comme un expert en géométrie).

Jusqu'à présent, la méthode consistait à dire au robot : "Regarde la couche 15 de mon cerveau, et essaie de penser comme le professeur à la couche 15."

Le souci : C'est comme essayer d'apprendre à nager en regardant un seul instant d'une vidéo. Parfois, la couche 15 est parfaite, mais parfois c'est la couche 8 ou la 20 qui contient les meilleures informations. Les chercheurs devaient deviner quelle couche utiliser, ce qui prenait beaucoup de temps et d'essais.

2. La Solution ROCKET : L'Alignement Multi-Couches

ROCKET change la donne. Au lieu de regarder une seule couche, il dit : "Regarde toutes les couches de ton cerveau, du début à la fin, et aligne-les avec celles du professeur."

C'est comme si le robot écoutait le professeur non pas une fois, mais à chaque étape de sa réflexion :

Au début (couches basses) : "Tiens, c'est un objet rond."
Au milieu : "C'est une casserole en métal."
À la fin : "Il faut la saisir par la poignée et la mettre sur le feu."

En utilisant toutes ces informations, le robot comprend beaucoup mieux l'espace.

3. Le Secret : Le "Câble Unique" (Le Projecteur Partagé)

Il y a un piège. Si on demande au robot d'aligner 10 couches différentes avec 10 "traducteurs" différents (un par couche), ces traducteurs commencent à se battre entre eux. Ils envoient des signaux contradictoires au cerveau du robot, comme si 10 coachs sportifs lui criaient des ordres différents en même temps. Le robot se fige ou apprend mal. C'est ce qu'on appelle le conflit de gradients.

La géniale idée de ROCKET :
Au lieu d'avoir 10 traducteurs, ROCKET n'utilise qu'un seul traducteur (un "projecteur partagé") qui sert pour toutes les couches.

L'analogie : Imaginez un chef d'orchestre unique qui dirige tous les musiciens (les couches du robot). Au lieu que chaque musicien ait son propre chef qui lui crie des ordres contradictoires, un seul chef s'assure que tout le monde joue la même partition, harmonieusement. Cela évite les conflits et permet au robot d'apprendre beaucoup plus vite et plus efficacement.

4. L'astuce "Matriochka" (La Poupée Russe)

Il y a un dernier détail. Les couches du début du cerveau du robot sont plus simples et apprennent vite. Les couches du fond sont complexes et apprennent lentement. Si on laisse tout le monde utiliser le traducteur à pleine puissance, les couches simples vont "casser" le traducteur en le forçant à apprendre des choses trop simples, et les couches complexes ne pourront pas apprendre ce dont elles ont besoin.

ROCKET utilise une technique appelée activation sparse de style Matriochka :

Imaginez une poupée russe (Matriochka).
Pour les couches simples (les petites poupées), on n'utilise qu'une petite partie du traducteur (juste quelques paramètres).
Pour les couches complexes (les grandes poupées), on ouvre la poupée et on utilise tout le traducteur.
Résultat : Chaque couche reçoit exactement la quantité d'aide dont elle a besoin, sans étouffer les autres.

🏆 Les Résultats : Pourquoi c'est impressionnant ?

Grâce à cette méthode, ROCKET obtient des résultats incroyables :

Performance de champion : Sur les tests standards (LIBERO), le robot réussit presque à chaque fois (98,5 % de réussite), battant les méthodes précédentes.
Économie d'énergie : C'est le plus beau. ROCKET atteint ce niveau de performance en utilisant seulement 4 % de la puissance de calcul nécessaire aux autres méthodes. C'est comme si vous pouviez gagner une course de Formule 1 avec une voiture de ville, juste parce que votre moteur est mieux conçu.
Robustesse : Le robot ne triche pas. Il ne se contente pas de mémoriser des positions. Il comprend vraiment la géométrie 3D, même si on change la disposition de la pièce ou l'éclairage.

En résumé

ROCKET, c'est comme donner un super-entraînement de géométrie 3D à un robot en utilisant un seul "professeur" très efficace qui guide toutes les étapes de sa pensée en même temps, sans que les instructions se contredisent. Le résultat ? Un robot qui comprend le monde en 3D, qui apprend vite, et qui ne gaspille pas d'énergie.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles Vision-Language-Action (VLA) permettent aux robots d'exécuter des tâches de manipulation basées sur des instructions textuelles. Cependant, la plupart de ces modèles sont pré-entraînés sur des données 2D (images) et manquent d'une compréhension spatiale 3D robuste. Cela limite leur capacité à généraliser dans des scénarios nécessitant une géométrie précise, des changements de point de vue ou des relations spatiales fines.

Pour combler ce fossé, une approche courante consiste à aligner les représentations d'un modèle VLA (élève) avec celles d'un modèle de fondation visuel 3D puissant (enseignant, comme VGGT ou Depth Anything).

Limitation des méthodes existantes : La plupart des travaux antérieurs appliquent cet alignement sur une seule couche du réseau. Cela nécessite une recherche coûteuse a posteriori pour identifier la couche optimale, qui varie souvent selon la tâche.
Le défi de l'alignement multi-couches : Une extension naturelle serait d'aligner plusieurs couches simultanément pour exploiter les informations hiérarchiques. Cependant, les tentatives naïves utilisant des projecteurs indépendants par couche échouent souvent. L'article identifie la cause racine : l'interférence des gradients. Les projecteurs indépendants apprennent des mappings incohérents, ce qui crée des conflits d'optimisation et dégrade les performances.

2. Méthodologie : ROCKET

L'article propose ROCKET, un cadre d'alignement de représentations multi-couches orienté vers les résidus, conçu pour résoudre le problème d'interférence des gradients tout en exploitant les signaux spatiaux à travers toute la profondeur du réseau.

A. Alignement Multi-couches via un Projecteur Partagé

Au lieu d'utiliser un projecteur distinct pour chaque couche alignée, ROCKET utilise un unique projecteur partagé (une couche invariante) pour mapper les flux résiduels de plusieurs couches du VLA vers celles du modèle 3D enseignant.

Justification théorique : En analysant la dynamique résiduelle, les auteurs montrent que dans un réseau pré-LN (Pre-Layer Normalization), les mises à jour des couches précoces sont une superposition des gradients provenant de toutes les couches alignées futures.
Résolution du conflit : Avec des projecteurs indépendants, les termes d'interférence entre les gradients sont instables et peuvent être destructifs (orthogonaux). Avec un projecteur partagé, la structure de l'opérateur de Jacobien impose une cohérence, rendant les interférences constructives et favorisant la convergence.

B. Activation Sparse de Style "Matryoshka"

Les auteurs observent que les couches superficielles (shallow) convergent plus facilement et que les couches profondes contiennent des informations globales plus complexes. Pour éviter que les couches superficielles ne dominent l'apprentissage du projecteur partagé :

ROCKET introduit un mécanisme d'activation sparse de style Matryoshka.
Le projecteur partagé possède une largeur interne maximale $m$ . Pour chaque couche alignée $i$ , seule une fraction $\rho_i$ des paramètres du projecteur est activée.
Cette fraction augmente de manière monotone avec la profondeur : les couches superficielles utilisent moins de paramètres, tandis que les couches profondes activent la capacité totale du projecteur. Cela équilibre les pertes d'alignement à travers les différentes profondeurs.

C. Stratégie de Sélection de Couches

L'article propose une stratégie simple et gratuite en termes de calcul (training-free) pour sélectionner les paires de couches à aligner (par exemple, échantillonnage uniforme ou basé sur la similarité entrée-sortie), évitant ainsi le besoin d'une recherche exhaustive.

3. Contributions Clés

Cadre ROCKET : Proposition d'un framework d'alignement multi-couches qui injecte un raisonnement spatial 3D dans des modèles VLA pré-entraînés en 2D, utilisant un projecteur partagé pour éviter les conflits de gradients.
Analyse Théorique et Empirique : Démonstration que l'échec des méthodes multi-couches antérieures est dû à l'interférence des gradients, et preuve que un seul projecteur partagé est non seulement suffisant mais supérieur aux projecteurs par couche.
Efficacité Computationnelle : ROCKET atteint des performances de pointe (SOTA) avec seulement ~4% du budget de calcul requis par les méthodes SOTA précédentes (comme Spatial Forcing), grâce à une convergence rapide et une sélection de couches efficace.
Généralisation : La méthode fonctionne sur plusieurs modèles VLA (OpenVLA, PI0.5) et plusieurs benchmarks (LIBERO, LIBERO-Plus, RoboTwin).

4. Résultats Expérimentaux

Les expériences ont été menées principalement sur les benchmarks LIBERO et LIBERO-Plus, ainsi que sur RoboTwin 2.0.

Performance sur LIBERO : ROCKET atteint un taux de réussite moyen de 98.5%, surpassant ou égalant les méthodes les plus avancées (comme Spatial Forcing à 98.5% et OpenVLA-OFT à 97.1%).
Efficacité des ressources : Alors que les méthodes précédentes nécessitaient souvent 24 fois plus de calcul pour atteindre des performances similaires, ROCKET y parvient avec une fraction minime du budget (1x vs 24x dans les comparaisons de coût).
Robustesse : Sur LIBERO-Plus, qui teste la robustesse face à sept types de perturbations (déplacements de robot, changements de disposition, etc.), ROCKET obtient le meilleur taux de réussite moyen (81.7%), démontrant une amélioration réelle du raisonnement spatial plutôt qu'un simple ajustement de position.
Ablation : Les études d'ablation confirment que l'alignement multi-couches naïf dégrade les performances (80.0%), que l'ajout du projecteur partagé l'améliore (98.2%), et que le mécanisme Matryoshka apporte le gain final (98.5%).

5. Signification et Impact

ROCKET représente une avancée significative pour l'apprentissage par renforcement et la robotique incarnée (Embodied AI).

Simplicité et Évolutivité : Il offre une voie simple et scalable pour améliorer la compréhension spatiale des robots sans nécessiter de capteurs 3D supplémentaires ou de réentraînement massif des modèles de base.
Efficacité : En réduisant drastiquement le coût computationnel nécessaire pour atteindre l'état de l'art, il rend le déploiement de modèles VLA spatialement conscients plus accessible.
Théorie de l'alignement : L'article apporte une contribution théorique importante à la compréhension de la distillation de connaissances dans les réseaux résiduels, en formalisant le rôle de la cohérence des gradients dans les architectures multi-tâches.

En résumé, ROCKET résout le problème de l'interférence des gradients dans l'alignement multi-couches, permettant aux modèles VLA d'acquérir une compréhension spatiale 3D robuste de manière efficace et généralisable.