APEX: Learning Adaptive High-Platform Traversal for Humanoid Robots

Le papier présente APEX, un système d'apprentissage par renforcement profond qui permet à un robot humanoïde de grimper et de descendre de manière autonome des plateformes hautes (jusqu'à 114 % de la longueur de ses jambes) en composant plusieurs compétences de locomotion perceptive, tout en assurant une transition fluide du simulateur à la réalité.

Yikai Wang, Tingxuan Leng, Changyi Lin, Shiqi Liu, Shir Simon, Bingqing Chen, Jonathan Francis, Ding Zhao

Publié 2026-03-09
📖 6 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de la recherche présentée dans ce papier, conçue pour être comprise par tout le monde, même sans connaissances en robotique.

🤖 Le Robot Humanoïde qui Apprend à Grimper (sans sauter)

Imaginez un robot humanoïde (qui ressemble à un humain) nommé Unitree G1. Jusqu'à présent, ces robots étaient très bons pour marcher sur des terrains irréguliers, un peu comme un chien qui court dans un parc. Mais ils avaient un gros problème : si vous leur présentiez une table très haute (plus haute que leurs jambes), ils échouaient.

Pourquoi ? Parce que leur seule solution était de sauter.

  • Le problème du saut : Sauter haut demande une explosion de force (comme un sprinter qui décolle). C'est dangereux pour le robot (il peut casser ses moteurs), imprécis et risqué pour les humains autour. C'est comme essayer de grimper à un mur en faisant un saut de kangourou : ça ne marche pas très bien si le mur est trop haut.

Les chercheurs de l'Université Carnegie Mellon et du centre Bosch ont créé une nouvelle méthode appelée APEX. Au lieu de sauter, ils ont appris au robot à grimper, exactement comme un humain le ferait.


🧗‍♂️ L'Analogie du "Climb" : Grimper comme un humain

Imaginez que vous devez monter sur une terrasse très haute.

  • L'ancienne méthode (Saut) : Vous faites un bond géant. Si vous ratez, vous tombez.
  • La méthode APEX (Grimper) : Vous vous approchez, vous posez une main, puis l'autre, vous tirez votre corps vers le haut, vous montez une jambe, puis l'autre. C'est lent, contrôlé, et vous utilisez tout votre corps (mains, bras, torse, jambes) pour vous soutenir.

C'est exactement ce que fait le robot APEX. Il ne saute pas. Il utilise ses mains et ses pieds pour s'agripper et se hisser lentement. Il peut même se mettre à plat ventre pour passer sous un obstacle, puis se relever.


🧠 Le Secret : Le "Ratchet" (La Cliquet)

Comment enseigner à un robot quelque chose d'aussi complexe que de grimper sans lui donner de vidéo à copier ? C'est là que réside l'innovation principale du papier : la récompense "Ratchet" (en français, on pourrait dire "récompense à cliquet").

Imaginez que vous essayez d'apprendre à un enfant à monter une échelle, mais vous ne pouvez pas lui parler, seulement lui donner un bonbon.

  • Méthode classique : Vous donnez un bonbon seulement quand il arrive tout en haut. Problème : l'enfant essaie, tombe, essaie encore, et ne sait pas pourquoi il est tombé. Il ne progresse pas.
  • Méthode APEX (Le Cliquet) : Vous avez une règle stricte. Le robot ne reçoit de récompense que s'il progresse par rapport à son meilleur moment précédent.
    • S'il monte un peu plus haut que la dernière fois ? Clic ! (Récompense).
    • S'il glisse en arrière ou reste bloqué ? Pas de récompense.
    • S'il recule ? Punition.

C'est comme un verrou de sécurité qui ne tourne que dans un sens. Cela force le robot à être patient. Il apprend qu'il ne doit pas se précipiter (ce qui ferait qu'il tomberait), mais qu'il doit trouver la bonne position, attendre que son pied soit stable, puis avancer. Cela évite les mouvements brusques et dangereux.


👁️ Les Yeux du Robot : Voir à travers le brouillard

Pour grimper, le robot doit voir où il met les pieds. Il utilise un LiDAR (un laser qui scanne l'environnement). Mais dans la vraie vie, les lasers font des erreurs :

  • Parfois, le robot bouge trop vite et l'image est floue.
  • Parfois, ses propres bras bloquent la vue (comme quand on cache un objet avec sa main).
  • Parfois, il y a des "fantômes" (des points bizarres dans l'image).

Les chercheurs ont appris au robot à s'attendre à ces erreurs.

  • En simulation (l'entraînement) : Ils ont ajouté volontairement du "bruit" et des erreurs dans les images pour que le robot s'entraîne avec des yeux "malades".
  • Dans la réalité : Ils nettoient l'image en temps réel pour enlever les fantômes.

C'est comme si vous appreniez à conduire sous la pluie et avec des vitres sales, pour que, le jour où vous conduisez dans un vrai brouillard, vous sachiez exactement comment réagir.


🎭 Le Chef d'Orchestre : L'Intelligence Artificielle Unifiée

Le robot ne possède pas un seul cerveau, mais six "experts" différents qu'il a appris séparément :

  1. L'expert Grimpeur (pour monter).
  2. L'expert Descendeur (pour descendre).
  3. L'expert Debout (pour se relever).
  4. L'expert Allongé (pour se coucher).
  5. L'expert Marcheur (pour marcher).
  6. L'expert Rampeur (pour se déplacer à quatre pattes).

Le défi était de les faire travailler ensemble. Imaginez un orchestre où chaque musicien joue une partition différente. Le système APEX est le chef d'orchestre qui dit : "Maintenant, on joue la marche !", puis "Attention, obstacle ! On passe à la grimpe !".

Grâce à une technique appelée distillation, ils ont fusionné ces six experts en un seul cerveau capable de choisir la bonne action au bon moment, tout en restant stable.


🏆 Le Résultat : Un Record du Monde

Le résultat est impressionnant. Sur un vrai robot (Unitree G1), ils ont réussi à faire traverser une plateforme de 0,80 mètre de haut.

  • C'est 114% de la longueur de ses jambes.
  • C'est comme si un humain de 1,70 m réussissait à grimper sur une table de 1,90 m sans jamais sauter, juste en utilisant ses mains et sa force.

Le robot a fait cela sans aucune programmation manuelle pour chaque situation. Il a appris par lui-même, a fait des erreurs en simulation, et a réussi du premier coup dans la vraie vie (ce qu'on appelle le "zero-shot sim-to-real").

En résumé

Ce papier nous dit que pour faire avancer les robots humanoïdes, il ne faut pas essayer de les faire sauter comme des kangourous. Il faut leur apprendre à grimper intelligemment, à être patients, et à s'adapter à leurs propres erreurs de vision. Avec la méthode "Ratchet", le robot apprend à progresser pas à pas, sans jamais reculer, jusqu'à maîtriser des terrains autrefois impossibles.