Embedding Morphology into Transformers for Cross-Robot Policy Learning

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un robot comment faire la vaisselle. Si vous lui apprenez uniquement avec un bras robotique de type "Franka" (qui ressemble à un bras humain), il risque d'être complètement perdu si vous lui donnez un robot différent, par exemple un petit robot à 6 pattes ou un bras plus court. C'est le problème central que ce papier tente de résoudre : comment créer un cerveau de robot unique capable de fonctionner sur n'importe quel corps de robot ?

Voici une explication simple de leur solution, imaginée comme une recette de cuisine pour un "chef robotique universel".

Le Problème : Le Chef qui ne connaît que sa propre cuisine

Les robots modernes utilisent des "Transformers" (la même technologie qui fait fonctionner les IA comme moi). Ces modèles sont très intelligents, mais ils sont un peu comme un chef qui a appris à cuisiner uniquement dans une cuisine très spécifique.

Si vous changez la disposition des placards (la forme du robot), le chef est perdu.
Il doit deviner où sont ses mains et ses bras juste en regardant la vidéo, ce qui est lent et peu fiable.
Il ne comprend pas la différence entre un bras qui tourne (comme une épaule) et un bras qui glisse (comme un piston).

La Solution : Donner une "Carte Anatomique" au Chef

Les auteurs proposent d'injecter directement la morphologie (la forme et la structure) du robot dans le cerveau de l'IA. Ils le font avec trois ingrédients magiques :

1. Les "Jetons Cinématiques" : Des fiches individuelles pour chaque articulation

Au lieu de donner au robot une seule liste de commandes globales (comme "bouge tout"), ils lui donnent une fiche séparée pour chaque articulation (épaule, coude, poignet, etc.).

L'analogie : Imaginez un orchestre. Au lieu de donner une seule partition globale au chef d'orchestre, vous donnez une partition spécifique à chaque musicien. Le chef sait exactement ce que fait le violoniste, le batteur et le trompettiste individuellement. Cela permet au robot de mieux comprendre la structure de son propre corps, peu importe sa taille.

2. L'Attention "Topologique" : Le jeu du téléphone arabe intelligent

Dans les Transformers classiques, tout le monde parle à tout le monde en même temps. Ici, les auteurs ajoutent une règle : les articulations ne peuvent "parler" (échanger des informations) qu'à leurs voisins directs.

L'analogie : C'est comme un jeu de téléphone arabe dans un couloir. Si vous êtes le coude, vous ne parlez qu'à l'épaule et au poignet. Vous ne parlez pas directement à la cheville (qui est trop loin).
Le petit plus : Ils ont créé un système hybride ("Mix-Mask"). Parfois, le robot se concentre sur ses voisins immédiats (pour la précision), et parfois, il laisse tout le monde parler (pour la coordination globale). C'est comme alterner entre des discussions de groupe et des conversations en tête-à-tête pour trouver le meilleur équilibre.

3. La Conditionnement par Attributs : Le manuel d'utilisation de chaque pièce

Même si deux articulations sont connectées de la même façon, elles peuvent avoir des rôles différents. L'une peut être un moteur électrique, l'autre un piston hydraulique.

L'analogie : Imaginez que vous avez deux clés identiques dans votre trousseau. L'une ouvre la porte de la maison, l'autre celle de la voiture. Si vous ne regardez que la forme de la clé, vous ne savez pas laquelle utiliser.
Les auteurs ajoutent une "étiquette" à chaque articulation qui dit : "Je suis un moteur rotatif", "Je peux tourner de 90 degrés", "Je glisse facilement". Cela aide le robot à comprendre non seulement où sont ses membres, mais ce qu'ils sont et ce qu'ils peuvent faire.

Les Résultats : Un robot plus robuste et adaptable

En testant cette méthode sur différents robots (un bras de laboratoire, un robot humanoïde à pattes, etc.), ils ont constaté que :

Même avec un seul robot, le système fonctionne mieux car il comprend mieux son propre corps.
Avec plusieurs robots, le même "cerveau" peut piloter des robots très différents sans avoir besoin de tout réapprendre. C'est comme si un conducteur savait conduire aussi bien une petite voiture citadine qu'un gros camion, grâce à une meilleure compréhension de la mécanique.

En résumé

Ce papier dit essentiellement : "Ne laissez pas l'IA deviner la forme du robot. Donnez-lui explicitement la carte du corps, les règles de communication entre les membres et les fiches techniques de chaque pièce."

C'est un pas de géant vers des robots "polyvalents" qui peuvent passer d'un modèle à l'autre sans perdre leur temps, un peu comme un humain qui peut utiliser n'importe quel outil, qu'il soit grand, petit, lourd ou léger, parce qu'il comprend la logique de la mécanique.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : Le défi de l'apprentissage de politiques inter-robots

L'apprentissage de politiques robotiques basées sur des modèles Vision-Language-Action (VLA), tels que les Transformers, a connu des progrès rapides grâce à la mise à l'échelle sur de vastes ensembles de données. Cependant, un défi majeur persiste : l'apprentissage de politiques inter-robots (cross-robot policy learning).

Le problème : Les modèles VLA actuels (comme $\pi_0.5$ ) sont généralement agnostiques à l'embodiment (la forme physique du robot). Ils doivent déduire implicitement la structure cinématique et la coordination entre les articulations uniquement à partir des observations visuelles.
Les conséquences : Cette approche manque de robustesse lors du changement de plateforme robotique (variation matérielle, défaillances, mises à niveau) et peut même limiter les performances au sein d'un même robot.
Limites des approches existantes : Les méthodes actuelles nécessitent souvent un réentraînement ou un fine-tuning spécifique pour chaque robot. De plus, les tentatives d'intégration de la morphologie (via des Graph Neural Networks ou des biais d'attention) se heurtent à trois obstacles :
1. L'absence d'une interface de "tokens" adaptée aux modèles VLA modernes qui compressent l'espace d'action.
2. Un compromis difficile entre la localité (message passing) et la coordination globale dans l'attention.
3. L'absence de sémantique par articulation (le type de moteur, les limites, l'axe), au-delà de la simple connectivité topologique.

2. Méthodologie : Une politique Transformer consciente de l'embodiment

Les auteurs proposent une architecture Transformer qui injecte explicitement la morphologie du robot via trois mécanismes clés, illustrés dans la Figure 2 de l'article :

A. Tokens Cinématiques (Kinematic Tokens - KT)

Pour factoriser l'action par articulation tout en compressant l'information temporelle :

Au lieu d'un seul token d'action regroupant toutes les articulations, le modèle introduit des tokens cinématiques spécifiques à chaque articulation.
L'horizon temporel est découpé en blocs (chunks). Pour chaque articulation $j$ et chaque bloc temporel $k$ , les actions sont concaténées en un vecteur $b_{j,T_k}$ .
Ces vecteurs sont encodés via un MLP léger pour former des embeddings $z_{j,T_k}$ qui sont ajoutés à la séquence de tokens. Cela permet au modèle de voir la structure spatiale (entre articulations) distinctement de la structure temporelle.
Extension : L'article introduit des tokens cinématiques auxiliaires (AKT) pour augmenter la capacité de représentation par articulation.

B. Biais d'Attention Sensible à la Topologie (Topology-aware Attention)

Pour encoder la connectivité physique du robot (graphe cinématique) dans le mécanisme d'attention :

Le modèle modifie les logits d'attention entre les tokens d'articulations en ajoutant un biais $B_{i,j}$ dépendant de la topologie.
Deux familles de biais sont explorées :
1. Hard-Mask (Masquage strict) : Interdit l'attention entre les articulations non connectées (voisins à 1 saut uniquement).
  - Full-Mask : Applique ce masquage à toutes les couches (très restrictif).
  - Mix-Mask : Alterne entre couches masquées (locales) et couches non masquées (globales) pour équilibrer communication locale et coordination globale.
2. Soft-Mask : Utilise une distance de plus court chemin (SPD) sur le graphe cinématique pour pondérer l'attention (les articulations proches ont un poids plus fort), sans bloquer totalement les connexions lointaines.

C. Conditionnement par Attributs des Articulations (Joint-Attribute Conditioning)

Pour capturer la sémantique fonctionnelle au-delà de la simple connectivité :

Chaque articulation est décrite par un descripteur $s_j$ incluant : le type (prismatique/révolute), l'axe, les limites de mouvement, l'amortissement, la friction, etc.
Ces descripteurs sont utilisés pour conditionner les embeddings des tokens cinématiques via une modulation FiLM (Feature-wise Linear Modulation).
Cela permet au modèle de distinguer le rôle fonctionnel de chaque articulation (ex: un moteur de rotation vs un moteur linéaire) même si leur topologie de connexion est similaire.

3. Contributions Clés

Interface de Tokens Cinématiques : Une nouvelle interface qui permet d'appliquer des biais morphologiques dans les modèles VLA modernes (type $\pi_0.5$ ) qui compressent traditionnellement l'espace d'action.
Cadre Unifié d'Attention Topologique : Une comparaison systématique des approches Hard-Mask et Soft-Mask, démontrant qu'une alternance locale/globale (Mix-Mask) est supérieure à une contrainte stricte ou à une pondération douce seule.
Intégration Sémantique : L'utilisation de FiLM pour injecter des attributs physiques spécifiques aux articulations, comblant le vide laissé par les méthodes purement topologiques.
Validation Expérimentale : Une évaluation rigoureuse sur plusieurs plateformes robotiques (DROID/Franka Panda, Unitree G1 Dex1, SO101) en configuration mono-embodiment et multi-embodiment.

4. Résultats Expérimentaux

Les expériences ont été menées sur des tâches de préhension et de placement conditionnées par le langage.

Évaluation Mono-Embodiment (DROID & Unitree G1) :
- La combinaison des trois mécanismes (KT + Mix-Mask + FiLM) obtient les meilleurs résultats.
- Sur DROID, le taux de réussite moyen (SR) passe de 19,7 % (baseline $\pi_0.5$ ) à 47,4 % avec la méthode complète.
- L'ajout de tokens cinématiques seul améliore déjà le SR à 36,0 %, prouvant l'efficacité de la représentation par articulation.
- Le Mix-Mask surpasse le Full-Mask (trop restrictif) et le Soft-Mask (instable ou moins performant).
- Sur Unitree G1 (16 DoF), la méthode complète atteint 28,0 % de SR contre 24,7 % pour la baseline.
Évaluation Multi-Embodiment (Panda + SO101) :
- Entraînement d'une seule politique sur un mélange de données de deux robots aux espaces d'action différents (8 DoF vs 6 DoF).
- La politique proposée maintient des performances supérieures à la baseline tout au long de l'entraînement, avec un taux de réussite macro moyen de 20,7 % contre 17,5 % pour la baseline à la fin de l'entraînement.
- Cela démontre une meilleure robustesse et une capacité à généraliser entre des morphologies différentes sans réentraînement spécifique.
Études d'Ablation :
- Taille du bloc temporel (Chunk) : Un seul bloc ( $G=1$ ) fonctionne mieux, suggérant que la compression temporelle agressive est bénéfique pour la structure spatiale.
- Tokens Auxiliaires (AKT) : Augmenter la capacité des tokens améliore les performances, surtout avec le Mix-Mask.
- Initialisation du biais : Pour le Soft-Mask, une initialisation "Mix" (alternance) est la meilleure, mais reste inférieure aux approches Hard-Mask.

5. Signification et Impact

Ce travail marque une avancée significative vers des modèles de fondation robotiques plus généralistes. En rendant l'architecture Transformer consciente de la morphologie physique du robot, les auteurs résolvent le goulot d'étranglement de l'adaptation aux nouveaux robots.

Robustesse accrue : Les politiques deviennent moins dépendantes de données massives spécifiques à chaque robot et plus capables de s'adapter à des variations matérielles ou à de nouvelles plateformes.
Efficacité de l'apprentissage : La structure inductive injectée réduit la charge d'apprentissage nécessaire pour la coordination inter-articulations.
Vision à long terme : Cette approche s'inscrit dans la quête de robots "généralistes" capables de s'adapter à de nouvelles tâches et environnements avec une flexibilité analogue à l'intelligence humaine, un pas crucial vers l'automatisation généralisée dans des environnements réels variés.

En résumé, l'article démontre que l'explicitation de la morphologie (via des tokens, une attention topologique et des attributs sémantiques) est essentielle pour dépasser les limitations des modèles VLA actuels dans le domaine de la robotique multi-plateforme.