Embodiment-Aware Generalist Specialist Distillation for Unified Humanoid Whole-Body Control

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner la danse à un groupe d'élèves très différents : un géant, un nain, quelqu'un avec de très longues jambes et quelqu'un d'autre avec des bras très courts. Si vous essayez de leur donner exactement les mêmes instructions de danse ("levez le pied gauche"), cela ne fonctionnera pas bien pour tout le monde. C'est exactement le problème que les robots humanoïdes rencontrent aujourd'hui.

Voici l'explication simple de la méthode EAGLE décrite dans l'article, imagée comme une école de danse robotique.

1. Le Problème : Un seul professeur pour des élèves trop différents

Jusqu'à présent, pour faire marcher un robot humanoïde (comme Unitree H1 ou G1), les chercheurs devaient créer un "cerveau" (un programme) spécifique pour chaque modèle.

C'est comme si vous deviez embaucher un professeur de danse différent pour chaque élève, car leurs corps sont trop différents.
Si vous voulez changer de robot, vous devez tout recommencer de zéro : réapprendre, réajuster les récompenses, etc. C'est lent et coûteux.

De plus, ces robots ne savent souvent que marcher. Leur apprendre à s'accroupir, à se pencher ou à danser demande encore plus de travail spécifique.

2. La Solution EAGLE : Le système "Professeur Généraliste" et "Tuteurs Spécialistes"

Les auteurs proposent une méthode intelligente appelée EAGLE (un acronyme pour Embodiment-Aware Generalist Specialist Distillation). Imaginez un cycle éducatif en deux temps :

Étape 1 : Le Professeur Généraliste (Le "Général")

On commence par entraîner un seul robot virtuel très polyvalent dans un simulateur. Ce robot est un "généraliste" : il apprend à comprendre des commandes complexes comme "marche", "accroupis-toi", "penche-toi".

L'analogie : C'est comme un chef d'orchestre qui connaît la partition de tous les instruments, mais qui ne joue pas encore parfaitement de chacun d'eux.

Étape 2 : Les Tuteurs Spécialistes (Les "Spécialistes")

Ensuite, on prend ce chef d'orchestre et on le copie pour créer des versions spécialisées pour chaque type de robot (un pour le grand, un pour le petit, etc.).

Chaque "tuteur" va s'entraîner uniquement sur son propre robot. Il apprend les astuces spécifiques à ce corps (comment lever sa jambe courte, comment équilibrer son torse lourd).
L'analogie : C'est comme si le chef d'orchestre envoyait ses copies dans des écoles spécialisées pour apprendre à jouer du violon, de la trompette ou du tambour parfaitement.

Étape 3 : La Rétroaction (La "Distillation")

C'est le moment magique. Une fois que les tuteurs sont devenus excellents sur leurs robots respectifs, ils reviennent voir le chef d'orchestre (le généraliste).

Ils lui disent : "Regarde, pour ce mouvement, il faut faire ça avec ce robot-là".
Le chef d'orchestre apprend de ces retours et met à jour son propre cerveau pour intégrer toutes ces astuces.
L'analogie : C'est comme une réunion de fin d'année où tous les meilleurs élèves partagent leurs techniques avec le professeur principal, qui devient alors encore plus intelligent et capable d'enseigner à n'importe quel élève.

On répète ce cycle (Copie -> Spécialisation -> Retour) jusqu'à ce que le "Généraliste" soit parfait.

3. Le Résultat : Un seul cerveau pour tous les corps

Grâce à cette méthode, les chercheurs ont réussi à entraîner un seul programme capable de contrôler cinq robots différents (de tailles et formes variées) sans avoir à reprogrammer ou réajuster les règles pour chacun.

La magie des commandes : Ce programme ne se contente pas de faire marcher les robots. Il peut leur dire : "Marche vite", "Penche-toi en avant", "Accroupis-toi".
Le test réel : Ils ont testé cela dans le monde réel avec quatre robots physiques différents. Résultat ? Tous les robots ont pu marcher, se pencher et s'accroupir de manière stable, même s'ils n'avaient jamais vu le monde réel pendant l'entraînement (c'est ce qu'on appelle le "Zero-shot Sim2Real").

En résumé

Imaginez que vous avez un carnet de recettes universel.

Au début, la recette est vague.
Vous la donnez à cinq chefs cuisiniers différents (chacun avec une cuisine et des ingrédients spécifiques).
Chaque chef adapte la recette à sa cuisine et la perfectionne.
Ils reviennent tous vous dire : "Pour les pâtes, il faut ajouter un peu plus d'eau", "Pour le gâteau, il faut moins de sucre".
Vous mettez à jour votre carnet de recettes universel avec tous ces conseils.

Maintenant, votre carnet de recettes est si bon qu'il fonctionne parfaitement, que vous soyez dans une cuisine de grand-mère, un restaurant de luxe ou une cantine scolaire. C'est exactement ce que fait EAGLE pour les robots : un seul cerveau, une seule intelligence, capable de gérer une flotte entière de robots différents.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le contrôle corporel entier (Whole-Body Control - WBC) des humanoïdes par apprentissage par renforcement (RL) a connu des progrès significatifs, mais il reste largement limité à des politiques spécifiques à un seul robot. Les défis majeurs sont :

Hétérogénéité des morphologies : Les variations de dynamique, de degrés de liberté (DoF) et de topologie cinématique empêchent une seule politique de commander efficacement des robots différents sans réentraînement complet.
Limitation des commandes existantes : La plupart des méthodes généralistes actuelles se concentrent uniquement sur des commandes de vitesse basse dimensionnelle (marche), échouant à gérer des comportements riches comme l'accroupissement, l'inclinaison (leaning) ou le contrôle de la hauteur du corps.
Coût de l'ajustement : Déployer une nouvelle politique sur un robot différent nécessite généralement un réajustement coûteux des récompenses (reward tuning) et du pipeline d'entraînement.

L'objectif est de créer une politique unique (un "généraliste") capable de contrôler plusieurs humanoïdes hétérogènes tout en exécutant une gamme riche de comportements, sans ajustement spécifique par robot.

2. Méthodologie : Le Framework EAGLE

Les auteurs proposent EAGLE (Embodiment-Aware Generalist Specialist Distillation), un cadre d'entraînement itératif basé sur une boucle de distillation entre un agent généraliste et des agents spécialistes.

A. Interface de Commande et d'Observation Unifiée

Commande Haute Dimensionnelle : Contrairement aux approches classiques limitées à la vitesse, EAGLE utilise un vecteur de commande $c_t \in \mathbb{R}^5$ $c_{t} \in R^{5}$ incluant :
- Vitesse linéaire ( $v_x, v_y$ ) et angulaire ( $\omega$ ) pour la tâche.
- Hauteur de base ( $h$ ) et angle de tangage du corps ( $p$ ) pour le comportement (permettant l'accroupissement et l'inclinaison).
Observation Sensible à l'Embodiment : Pour aider le réseau à distinguer les morphologies, l'observateur (acteur) reçoit des données proprioceptives standard, tandis que le critique reçoit des informations privilégiées incluant une représentation des masses, des centres de masse et des matrices d'inertie des corps rigides clés (torse, pieds). L'acteur est également entraîné à estimer ces paramètres morphologiques.
Alignement des Espaces d'Action : Pour gérer des robots avec des nombres de DoF différents, les auteurs utilisent un espace d'action unifié (taille fixe de 32) via un remplissage par zéro (zero padding) et des matrices de permutation spécifiques à chaque robot.

B. Boucle de Distillation Itérative (Généraliste-Spécialiste)

Le processus suit une boucle cyclique (Algorithme 1) :

Phase de Spécialisation : Une politique généraliste $\pi_g$ est copiée pour créer $N$ spécialistes $\{\pi_{s_i}\}$ , chacun étant affiné (fine-tuned) uniquement sur son robot spécifique.
Phase de Généralisation (Distillation) : Le généraliste $\pi_g$ est entraîné sur un ensemble de trajectoires collectées sur tous les robots. Les actions sont "re-étiquetées" (relabeling) avec les actions des spécialistes correspondants.
Fonction de Perte : La distillation utilise une approche basée sur DAgger, combinant :
- La perte PPO standard pour l'exploration.
- Une perte d'alignement des actions ( $L_a$ ) entre le généraliste et le spécialiste.
- Une innovation clé : Une perte d'alignement au niveau des représentations cachées ( $L_e$ ) pour que le généraliste apprenne les mêmes caractéristiques latentes que les spécialistes, améliorant ainsi la transférabilité.

Ce cycle se répète jusqu'à convergence, permettant au généraliste d'accumuler les compétences de tous les robots sans nécessiter de réajustement des récompenses pour chaque nouveau modèle.

3. Contributions Clés

Framework EAGLE : Introduction d'une boucle de distillation itérative "généraliste-spécialiste" sensible à l'embodiment, permettant un contrôle unifié sur des humanoïdes hétérogènes sans ajustement de récompense par robot.
Interface de Commande Riches : Déploiement d'une interface de commande haute dimensionnelle supportant non seulement la marche, mais aussi l'accroupissement, l'inclinaison et le suivi de vitesse, comblant le fossé entre les commandes simples et les comportements complexes.
Validation Expérimentale Étendue : Réalisation d'expériences sur 5 robots différents en simulation (Unitree H1, G1, Booster T1, Fourier N1, PNDbotics Adam) et sur 4 robots en conditions réelles, démontrant une transférabilité "zero-shot" (sans réentraînement sur le robot réel).

4. Résultats Expérimentaux

Précision de Suivi : EAGLE (notamment la version itérative "EAGLE w/ ID") surpasse significativement les méthodes de base (PPO standard, COMPASS, Kickstarting) en termes d'erreur de suivi de commande. Par exemple, sur le robot T1, les erreurs de vitesse linéaire sont considérablement réduites par rapport aux méthodes concurrentes qui échouent souvent.
Robustesse et Convergence : Les ablations montrent que l'ajout de l'observation sensible à l'embodiment et la distillation itérative sont essentiels. Sans observation spécifique, la politique ne parvient pas à distinguer les dynamiques des robots, entraînant une chute de performance.
Représentations Latentes : La visualisation t-SNE des embeddings latents montre que la méthode EAGLE apprend des clusters bien séparés pour chaque morphologie, contrairement aux méthodes sans observation spécifique qui fusionnent les robots dans un même cluster, prouvant que le réseau apprend effectivement les différences morphologiques.
Transfert Sim2Real : Le modèle entraîné uniquement en simulation a été déployé avec succès sur quatre robots réels (H1, G1, T1, N1) pour exécuter des mouvements synchronisés complexes (marche, inclinaison, accroupissement) sans aucun ajustement supplémentaire.

5. Signification et Impact

Ce travail marque une avancée significative vers le contrôle de flotte d'humanoïdes à grande échelle.

Scalabilité : Il élimine la nécessité de réentraîner ou de réajuster manuellement les récompenses pour chaque nouveau robot, rendant le déploiement de politiques sur des flottes hétérogènes économiquement et techniquement viable.
Généralisation des Compétences : Il démontre qu'une seule politique peut maîtriser une variété de comportements dynamiques complexes au-delà de la simple locomotion, sur des structures physiques très différentes.
Fondation pour l'IA Robotique : En combinant la distillation de politiques avec une conscience explicite de la morphologie, EAGLE ouvre la voie à des systèmes robotiques plus adaptatifs et universels, capables de s'opérer sur divers matériels physiques avec une seule "intelligence" centrale.