SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

Ce papier présente SCDP, une approche utilisant des politiques de diffusion conditionnées aux capteurs et un entraînement par distillation d'observations mixtes pour permettre une locomotion humanoïde robuste sur un robot réel sans estimation d'état explicite ni capteurs externes.

Milo Carroll, Tianhu Peng, Lingfan Bao, Chengxu Zhou, Zhibin Li

Publié Wed, 11 Ma
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un robot humanoïde (comme le G1 de Unitree) comment marcher, courir ou danser. Jusqu'à récemment, c'était un peu comme si vous deviez lui donner des lunettes de réalité augmentée magiques pour qu'il sache exactement où il se trouve dans l'espace, quelle est sa vitesse, et comment chaque partie de son corps bouge par rapport au sol.

Le problème ? Dans la vraie vie, ces "lunettes magiques" (des capteurs externes ou des caméras de suivi de mouvement) sont souvent absentes, chères ou peu fiables. Si on retire ces lunettes, le robot devient aveugle et tombe immédiatement.

C'est là que l'article SCDP intervient. Il propose une nouvelle méthode pour apprendre à un robot à marcher sans jamais avoir besoin de ces lunettes magiques. Voici comment cela fonctionne, expliqué simplement avec des analogies.

1. Le Problème : Le Robot "Aveugle"

Normalement, pour apprendre à un robot à marcher, on lui montre des vidéos d'experts (des humains ou des simulations parfaites) qui ont accès à toutes les informations : "Je suis à 2 mètres de la porte, je vais à 3 km/h, ma jambe gauche est à tel angle".

Mais quand on met ce robot dans la vraie vie, il n'a que ses propres capteurs internes (comme notre propre sens de l'équilibre ou la proprioception). Il ne sait pas exactement où il est dans la pièce. C'est comme essayer de conduire une voiture les yeux bandés en se fiant uniquement à ce que vous ressentez dans vos pieds. La plupart des méthodes actuelles échouent lamentablement dans ce cas.

2. La Solution : L'École de "Deux Niveaux" (Distillation Mixte)

Les auteurs ont créé une méthode appelée SCDP. Imaginez une école très spéciale où l'élève et le professeur ne voient pas la même chose, mais l'élève doit quand même apprendre à faire comme le professeur.

  • Le Professeur (Pendant l'entraînement) : Il a accès à toutes les informations parfaites (la position exacte, la vitesse, etc.). Il sait exactement ce qui se passe.
  • L'Élève (Le Robot final) : Il ne reçoit que les données de ses capteurs internes (ce qu'il ressent).

L'astuce géniale : Pendant l'entraînement, on donne à l'élève seulement ce qu'il ressent (ses capteurs), mais on lui demande de prédire ce que le professeur sait (la position exacte, la vitesse).

C'est comme si vous appreniez à un enfant à jouer au piano en lui donnant seulement le son des touches (ce qu'il entend), mais en lui demandant de deviner exactement quelles notes sont jouées et à quelle vitesse. Au fil du temps, le cerveau de l'enfant (le modèle d'intelligence artificielle) apprend à déduire la position et la vitesse simplement en analysant les sons et les sensations, sans avoir besoin de voir les touches.

3. Les Trois Super-Pouvoirs de la Méthode

Pour que ce système fonctionne parfaitement, les chercheurs ont ajouté trois ingrédients secrets :

  • Le "Brouillard" Contrôlé (Denoising Restreint) :
    Imaginez que vous essayez d'apprendre à quelqu'un à deviner la vitesse d'une voiture en regardant le paysage défiler. Si vous lui donnez aussi le compteur de vitesse, il ne fera aucun effort pour deviner !
    Ici, les chercheurs ont volontairement caché la vitesse au robot pendant qu'il apprenait à "nettoyer" ses prédictions. Ils l'ont forcé à deviner la vitesse en se basant uniquement sur l'histoire de ses mouvements passés. C'est comme apprendre à un nageur à sentir le courant de l'eau sans avoir de boussole.

  • L'Alignement des Contextes (Context Distribution Alignment) :
    Souvent, ce qu'on apprend en classe (avec des données parfaites) ne correspond pas à ce qu'on vit sur le terrain (avec des données imparfaites). C'est comme apprendre à conduire sur un circuit vide, puis se retrouver dans une ville bondée.
    La méthode SCDP s'assure que ce que le robot voit pendant l'apprentissage ressemble exactement à ce qu'il verra dans la vraie vie. Cela évite les mauvaises surprises et les chutes.

  • La Mémoire à Double Sens (Attention Masquée) :
    Le robot ne regarde pas seulement le passé pour deviner le futur. Il utilise une "mémoire" qui relie intelligemment le passé, le présent et les commandes futures. C'est comme un chef d'orchestre qui écoute non seulement ce qui a été joué, mais qui anticipe aussi la prochaine mesure pour rester synchronisé, même si un musicien fait une petite erreur.

4. Le Résultat : Un Robot qui Marche Vraiment !

Les chercheurs ont testé cette méthode sur un vrai robot humanoïde (le G1) dans un laboratoire.

  • En simulation : Le robot a réussi à suivre des commandes de vitesse dans 99 à 100 % des cas, même sans capteurs externes.
  • Dans la réalité : Ils ont installé le cerveau du robot sur un vrai G1. Le robot a marché, a suivi des trajectoires complexes et a résisté aux poussées, le tout à une vitesse impressionnante (50 fois par seconde !).

En résumé :
Au lieu de donner au robot des lunettes magiques pour voir le monde, les auteurs lui ont appris à devenir un détective. En analysant finement ses propres sensations et son histoire de mouvements, le robot est capable de reconstituer mentalement sa position et sa vitesse, lui permettant de marcher avec une aisance naturelle, même dans le noir complet.

C'est une avancée majeure car cela rend les robots humanoïdes beaucoup plus autonomes et prêts à être utilisés dans nos maisons ou nos usines, sans avoir besoin d'installations coûteuses de caméras et de capteurs partout.