Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

Cet article présente un cadre d'apprentissage par renforcement multi-objectif conditionné par des préférences qui permet à une seule politique de locomotion humanoïde de trouver un équilibre dynamique entre le suivi de commandes de navigation et la conformité aux forces externes lors des interactions humaines.

Tingxuan Leng, Yushi Wang, Tinglong Zheng, Changsheng Luo, Mingguo Zhao

Publié 2026-03-10
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🤖 Le Dilemme du Robot Humanoïde : "Suivre ou Céder ?"

Imaginez que vous apprenez à un robot humanoïde à marcher. Vous avez deux objectifs qui semblent contradictoires :

  1. Être un soldat : Il doit suivre vos ordres à la lettre (aller à gauche, aller vite) sans broncher.
  2. Être un danseur : Si quelqu'un le pousse doucement ou le guide avec la main, il doit céder et suivre ce mouvement, comme un partenaire de danse souple.

Le problème : Jusqu'à présent, les robots appris par intelligence artificielle étaient trop "soldats". Si on les poussait, ils résistaient comme un mur de béton, ce qui est dangereux et peu naturel pour interagir avec des humains. S'ils étaient trop "danseurs", ils ne suivaient plus vos ordres de navigation.

💡 La Solution : Le "Volant de Préférence"

Les chercheurs de l'Université Tsinghua ont créé une méthode géniale appelée RL Multi-Objectif Conditionné par Préférence.

Pour faire simple, imaginez que vous donnez au robot un volant de réglage (ou un bouton de volume) qui va de 0 à 100 :

  • Sur 0 (Mode Soldat) : Le robot ignore les poussées et se concentre uniquement sur votre commande de vitesse.
  • Sur 100 (Mode Danseur) : Le robot devient très souple. Si vous le tirez, il vous suit immédiatement, comme s'il était attaché à vous par un élastique.
  • Au milieu : Il trouve un équilibre parfait entre les deux.

Le plus beau, c'est qu'ils n'ont pas besoin d'entraîner un robot différent pour chaque mode. Un seul cerveau (une seule politique) apprend à faire tout cela. Vous changez juste le réglage, et le robot s'adapte instantanément.

🎻 L'Analogie du Violoniste et du Vent

Pour comprendre comment ils ont fait, imaginez un violoniste qui joue dans une tempête.

  • Le but est de jouer la mélodie (suivre la commande).
  • Le vent (la force extérieure) essaie de le faire dévier.

Les méthodes anciennes disaient au violoniste : "Résiste au vent à tout prix !". Résultat : il se fige et ne peut plus jouer s'il est vraiment poussé.

Cette nouvelle méthode dit : "Le vent fait partie de la musique. Si le vent pousse vers la droite, joue une note qui va vers la droite, tout en gardant le rythme."

Pour que l'ordinateur comprenne cela, les chercheurs ont utilisé une astuce de physique : ils ont transformé la force (pousser le robot) en une vitesse imaginaire.

  • Au lieu de dire "Pousse-moi avec 10 Newtons", le robot se dit : "Ah, quelqu'un m'applique une force équivalente à une vitesse de 1 mètre/seconde vers la droite".
  • Ainsi, le robot peut comparer facilement : "Dois-je aller à 1 m/s parce que vous me l'avez demandé, ou à 1 m/s parce que vous me poussez ?" C'est comme comparer deux pièces de la même monnaie.

🧠 L'Entraînement : Le "Cours de Cuisine"

Comment apprendre cela à un robot qui n'a pas de capteurs de force dans ses mains ?

  1. En simulation (la cuisine) : Le robot a un "super-pouvoir". Il voit tout : la force exacte qu'on lui applique, sa vitesse réelle, etc. C'est le Chef.
  2. En réalité (le service) : Le robot n'a que ses caméras et ses capteurs internes. Il ne voit pas la force directe. C'est le Serveur.

L'astuce est d'entraîner le Chef à deviner ce que le Serveur ne voit pas. Le Chef doit dire : "Je vois que le robot a bougé de telle façon, donc quelqu'un a dû le pousser par ici".
Le robot apprend alors à deviner les forces extérieures en observant son propre corps qui bouge, comme un aveugle qui comprend qu'il est poussé par le mouvement de son manteau.

🚀 Les Résultats : De la Simulation au Monde Réel

Ils ont testé cela sur un vrai robot humanoïde appelé Booster T1.

  • En simulation : Le robot a appris à marcher dans toutes les directions. Si on changeait le "volant de préférence", il passait d'une marche rigide à une marche souple sans tomber.
  • Dans la vraie vie :
    • Les chercheurs ont pu tirer le robot par la main ou l'épaule, et il les suivait doucement sans résister.
    • Ils ont même fait marcher le robot sur de l'herbe, du gravier et des terrains irréguliers en le guidant à la main.
    • Résultat : Il faut très peu de force pour le guider (environ 10 Newtons, comme soulever une petite pomme), alors que les anciens robots résistaient comme des rochers.

🌟 En Résumé

Cette recherche a réussi à créer un robot humanoïde qui n'est plus un robot "bête" qui résiste à tout, mais un partenaire intelligent.

  • Il peut être rigide quand il faut aller vite et précis.
  • Il peut être souple quand il faut interagir avec un humain.
  • Et le meilleur : on peut changer son comportement en temps réel, juste en tournant un bouton, sans avoir besoin de le reprogrammer.

C'est un pas de géant pour rendre les robots plus sûrs et plus naturels pour vivre à nos côtés, que ce soit pour aider une personne âgée ou pour jouer avec un enfant.