SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un robot humanoïde (comme le G1 de Unitree) comment marcher, courir ou danser. Jusqu'à récemment, c'était un peu comme si vous deviez lui donner des lunettes de réalité augmentée magiques pour qu'il sache exactement où il se trouve dans l'espace, quelle est sa vitesse, et comment chaque partie de son corps bouge par rapport au sol.

Le problème ? Dans la vraie vie, ces "lunettes magiques" (des capteurs externes ou des caméras de suivi de mouvement) sont souvent absentes, chères ou peu fiables. Si on retire ces lunettes, le robot devient aveugle et tombe immédiatement.

C'est là que l'article SCDP intervient. Il propose une nouvelle méthode pour apprendre à un robot à marcher sans jamais avoir besoin de ces lunettes magiques. Voici comment cela fonctionne, expliqué simplement avec des analogies.

1. Le Problème : Le Robot "Aveugle"

Normalement, pour apprendre à un robot à marcher, on lui montre des vidéos d'experts (des humains ou des simulations parfaites) qui ont accès à toutes les informations : "Je suis à 2 mètres de la porte, je vais à 3 km/h, ma jambe gauche est à tel angle".

Mais quand on met ce robot dans la vraie vie, il n'a que ses propres capteurs internes (comme notre propre sens de l'équilibre ou la proprioception). Il ne sait pas exactement où il est dans la pièce. C'est comme essayer de conduire une voiture les yeux bandés en se fiant uniquement à ce que vous ressentez dans vos pieds. La plupart des méthodes actuelles échouent lamentablement dans ce cas.

2. La Solution : L'École de "Deux Niveaux" (Distillation Mixte)

Les auteurs ont créé une méthode appelée SCDP. Imaginez une école très spéciale où l'élève et le professeur ne voient pas la même chose, mais l'élève doit quand même apprendre à faire comme le professeur.

Le Professeur (Pendant l'entraînement) : Il a accès à toutes les informations parfaites (la position exacte, la vitesse, etc.). Il sait exactement ce qui se passe.
L'Élève (Le Robot final) : Il ne reçoit que les données de ses capteurs internes (ce qu'il ressent).

L'astuce géniale : Pendant l'entraînement, on donne à l'élève seulement ce qu'il ressent (ses capteurs), mais on lui demande de prédire ce que le professeur sait (la position exacte, la vitesse).

C'est comme si vous appreniez à un enfant à jouer au piano en lui donnant seulement le son des touches (ce qu'il entend), mais en lui demandant de deviner exactement quelles notes sont jouées et à quelle vitesse. Au fil du temps, le cerveau de l'enfant (le modèle d'intelligence artificielle) apprend à déduire la position et la vitesse simplement en analysant les sons et les sensations, sans avoir besoin de voir les touches.

3. Les Trois Super-Pouvoirs de la Méthode

Pour que ce système fonctionne parfaitement, les chercheurs ont ajouté trois ingrédients secrets :

Le "Brouillard" Contrôlé (Denoising Restreint) :
Imaginez que vous essayez d'apprendre à quelqu'un à deviner la vitesse d'une voiture en regardant le paysage défiler. Si vous lui donnez aussi le compteur de vitesse, il ne fera aucun effort pour deviner !
Ici, les chercheurs ont volontairement caché la vitesse au robot pendant qu'il apprenait à "nettoyer" ses prédictions. Ils l'ont forcé à deviner la vitesse en se basant uniquement sur l'histoire de ses mouvements passés. C'est comme apprendre à un nageur à sentir le courant de l'eau sans avoir de boussole.
L'Alignement des Contextes (Context Distribution Alignment) :
Souvent, ce qu'on apprend en classe (avec des données parfaites) ne correspond pas à ce qu'on vit sur le terrain (avec des données imparfaites). C'est comme apprendre à conduire sur un circuit vide, puis se retrouver dans une ville bondée.
La méthode SCDP s'assure que ce que le robot voit pendant l'apprentissage ressemble exactement à ce qu'il verra dans la vraie vie. Cela évite les mauvaises surprises et les chutes.
La Mémoire à Double Sens (Attention Masquée) :
Le robot ne regarde pas seulement le passé pour deviner le futur. Il utilise une "mémoire" qui relie intelligemment le passé, le présent et les commandes futures. C'est comme un chef d'orchestre qui écoute non seulement ce qui a été joué, mais qui anticipe aussi la prochaine mesure pour rester synchronisé, même si un musicien fait une petite erreur.

4. Le Résultat : Un Robot qui Marche Vraiment !

Les chercheurs ont testé cette méthode sur un vrai robot humanoïde (le G1) dans un laboratoire.

En simulation : Le robot a réussi à suivre des commandes de vitesse dans 99 à 100 % des cas, même sans capteurs externes.
Dans la réalité : Ils ont installé le cerveau du robot sur un vrai G1. Le robot a marché, a suivi des trajectoires complexes et a résisté aux poussées, le tout à une vitesse impressionnante (50 fois par seconde !).

En résumé :
Au lieu de donner au robot des lunettes magiques pour voir le monde, les auteurs lui ont appris à devenir un détective. En analysant finement ses propres sensations et son histoire de mouvements, le robot est capable de reconstituer mentalement sa position et sa vitesse, lui permettant de marcher avec une aisance naturelle, même dans le noir complet.

C'est une avancée majeure car cela rend les robots humanoïdes beaucoup plus autonomes et prêts à être utilisés dans nos maisons ou nos usines, sans avoir besoin d'installations coûteuses de caméras et de capteurs partout.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation" en français.

1. Problématique

Le contrôle des robots humanoïdes a considérablement progressé grâce à l'apprentissage par renforcement (RL) et aux modèles de diffusion. Cependant, une limitation majeure persiste : la plupart des méthodes de déploiement reposent sur des états privilégiés (privileged states), tels que la position globale, l'orientation, la vitesse de base et les positions des corps rigides.

Défi : Obtenir ces états dans le monde réel nécessite des systèmes de localisation complexes (comme le suivi de mouvement externe ou la fusion de capteurs), qui sont souvent peu fiables ou indisponibles en dehors des laboratoires.
Conséquence : L'élimination de ces entrées privilégiées pour ne garder que les capteurs embarqués (proprioceptifs) transforme le problème en un Processus de Décision Markovien Partiellement Observable (POMDP). Les méthodes existantes, y compris les contrôleurs basés sur la diffusion, subissent une dégradation catastrophique des performances (échecs même pour des tâches simples comme la locomotion au joystick) lorsqu'elles sont privées de ces informations globales.
Objectif : Développer un cadre permettant de distiller des politiques de contrôle expertes (entraînées avec des états complets) vers un déploiement utilisant uniquement les capteurs embarqués, sans estimation d'état explicite.

2. Méthodologie : SCDP (Sensor-Conditioned Diffusion Policies)

Les auteurs proposent SCDP, un cadre de distillation basé sur la diffusion qui apprend à inférer la dynamique globale du corps à partir d'observations partielles.

A. Distillation par Observation Mixte (Mixed-Observation Distillation)

C'est le concept central. L'approche découple la perception de la supervision lors de l'entraînement :

Conditionnement (Entrée) : Le modèle de diffusion est conditionné uniquement par l'historique des observations des capteurs embarqués ( $o_t$ ) et les commandes de tâche.
Supervision (Cible) : Le modèle est entraîné à prédire des trajectoires futures incluant les états privilégiés complets ( $s_t$ ) et les actions.
Résultat : Cette asymétrie force le modèle à apprendre une représentation interne implicite de la dynamique globale du corps, comblant le fossé informationnel entre les capteurs locaux et l'état global sans nécessiter d'estimateur d'état externe.

B. Composants Clés de l'Architecture

Pour rendre cette approche robuste, quatre techniques innovantes sont introduites :

Denoising Restreint (Restricted Denoising) :
- Le problème : Le modèle pourrait "tricher" en utilisant les termes de vitesse de bassin ( $v_{pelvis}$ ) bruités présents dans l'entrée pendant l'entraînement.
- La solution : Les termes de vitesse de bassin sont exclus des entrées de débruitage mais conservés dans les cibles de supervision. Cela force le modèle à inférer la vitesse à partir du contexte historique (positions, angles, accélérations) plutôt que de la recevoir directement.
Alignement de la Distribution de Contexte (Context Distribution Alignment) :
- Pour éviter un décalage de distribution entre l'entraînement et le déploiement, le contexte d'entraînement est généré en exécutant des actions bruitées (simulant l'incertitude du déploiement), assurant ainsi que les relations causales $(s, a, s')$ restent cohérentes.
Masquage d'Attention Conscient du Contexte (Context-Aware Attention Masking) :
- Contrairement aux masques causaux stricts qui empêchent les états de "voir" les actions futures, cette méthode permet une attention bidirectionnelle au sein de la fenêtre de contexte historique. Cela facilite l'agrégation d'informations passées pour inférer la dynamique latente.
Conditionnement sur la Vitesse et le Référentiel :
- Le modèle est conditionné par des commandes de vitesse désirées et des références de mouvement (pour le suivi de trajectoire), encodés via des MLP et des embeddings temporels.

C. Collecte de Données et Entraînement

Expert : Une politique experte (MMP) est entraînée par RL (PPO) pour le suivi de mouvements multiples.
Stratégie de Données : Pour la distillation, les auteurs collectent des trajectoires avec du bruit d'action stochastique et des forces de poussée (perturbations) pour exposer le modèle à des scénarios de récupération.
Modèle : Un Transformer à 6 couches (encodeur/décodeur) qui prédit des trajectoires de 16 pas de temps.

3. Résultats Expérimentaux

Les résultats sont validés en simulation (IsaacLab) et sur un robot physique Unitree G1 fonctionnant à 50 Hz.

A. Performance en Simulation

Contrôle de Vitesse : SCDP atteint un taux de succès de 99–100% sur les tâches de navigation et de contrôle au joystick, rivalisant avec les méthodes utilisant des états privilégiés, et ce sans feedback de vitesse ( $v_{pelvis}$ ).
Suivi de Mouvement (AMASS) : Sur le jeu de données de test AMASS, SCDP atteint un taux de succès de 93% pour le suivi de mouvements de référence, contre 31% pour un baseline de "Behavior Cloning" (BC) standard.
Comparaison : Les méthodes basées uniquement sur les observations contextuelles (sans observation mixte) échouent (succès < 60%), confirmant que l'observation mixte est cruciale.

B. Déploiement Réel (Sim-to-Real)

Le modèle a été déployé sur un robot Unitree G1 réel.
Il fonctionne en boucle fermée à 50 Hz (avec une latence de traitement de ~105 Hz via ONNX Runtime).
Le robot démontre une locomotion robuste, capable de marcher, de tourner et de récupérer après des perturbations, sans aucun capteur externe (pas de motion capture, pas de estimation d'état globale).

C. Études d'Ablation

Observation Mixte : C'est le composant le plus critique. Sans elle, le taux de succès chute à ~1,4%.
Alignement de Distribution : Essentiel pour la stabilité ; son retrait fait chuter la performance à ~9,7%.
Longueur de Contexte : Un contexte de 4 à 8 pas de temps est optimal. Des contextes plus longs (16 pas) dégradent les performances, suggérant une amplification des erreurs d'inférence.
Vitesse : Le modèle apprend à estimer la vitesse de manière robuste sans feedback direct, éliminant le besoin de filtres de Kalman complexes.

4. Contributions Clés

Distillation par Observation Mixte : Une nouvelle formulation d'entraînement qui permet d'apprendre la dynamique globale à partir de capteurs partiels en prédisant des états complets.
Denoising Restreint : Une technique pour forcer l'inférence de la vitesse de base à partir du contexte, rendant le contrôle robuste sans feedback de vitesse.
Alignement et Masquage : Des mécanismes pour réduire le décalage de distribution et faciliter l'inférence de dynamiques latentes via l'attention bidirectionnelle.
Validation Physique : La première démonstration réussie d'un contrôleur de locomotion humanoïde basé sur la diffusion, déployé à haute fréquence sur un robot réel, fonctionnant uniquement avec des capteurs proprioceptifs.

5. Signification et Impact

Ce travail résout un goulot d'étranglement majeur en robotique humanoïde : la dépendance aux états privilégiés pour le déploiement. En prouvant qu'un modèle génératif (diffusion) peut apprendre à "imaginer" l'état global du corps à partir de capteurs locaux limités, SCDP ouvre la voie à des robots humanoïdes autonomes, capables de se déplacer dans des environnements non structurés sans infrastructure externe. Cela rend la technologie plus accessible, moins coûteuse et plus robuste pour les applications réelles.