Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

Each language version is independently generated for its own context, not a direct translation.

🤖 Le Dilemme du Robot Humanoïde : "Suivre ou Céder ?"

Imaginez que vous apprenez à un robot humanoïde à marcher. Vous avez deux objectifs qui semblent contradictoires :

Être un soldat : Il doit suivre vos ordres à la lettre (aller à gauche, aller vite) sans broncher.
Être un danseur : Si quelqu'un le pousse doucement ou le guide avec la main, il doit céder et suivre ce mouvement, comme un partenaire de danse souple.

Le problème : Jusqu'à présent, les robots appris par intelligence artificielle étaient trop "soldats". Si on les poussait, ils résistaient comme un mur de béton, ce qui est dangereux et peu naturel pour interagir avec des humains. S'ils étaient trop "danseurs", ils ne suivaient plus vos ordres de navigation.

💡 La Solution : Le "Volant de Préférence"

Les chercheurs de l'Université Tsinghua ont créé une méthode géniale appelée RL Multi-Objectif Conditionné par Préférence.

Pour faire simple, imaginez que vous donnez au robot un volant de réglage (ou un bouton de volume) qui va de 0 à 100 :

Sur 0 (Mode Soldat) : Le robot ignore les poussées et se concentre uniquement sur votre commande de vitesse.
Sur 100 (Mode Danseur) : Le robot devient très souple. Si vous le tirez, il vous suit immédiatement, comme s'il était attaché à vous par un élastique.
Au milieu : Il trouve un équilibre parfait entre les deux.

Le plus beau, c'est qu'ils n'ont pas besoin d'entraîner un robot différent pour chaque mode. Un seul cerveau (une seule politique) apprend à faire tout cela. Vous changez juste le réglage, et le robot s'adapte instantanément.

🎻 L'Analogie du Violoniste et du Vent

Pour comprendre comment ils ont fait, imaginez un violoniste qui joue dans une tempête.

Le but est de jouer la mélodie (suivre la commande).
Le vent (la force extérieure) essaie de le faire dévier.

Les méthodes anciennes disaient au violoniste : "Résiste au vent à tout prix !". Résultat : il se fige et ne peut plus jouer s'il est vraiment poussé.

Cette nouvelle méthode dit : "Le vent fait partie de la musique. Si le vent pousse vers la droite, joue une note qui va vers la droite, tout en gardant le rythme."

Pour que l'ordinateur comprenne cela, les chercheurs ont utilisé une astuce de physique : ils ont transformé la force (pousser le robot) en une vitesse imaginaire.

Au lieu de dire "Pousse-moi avec 10 Newtons", le robot se dit : "Ah, quelqu'un m'applique une force équivalente à une vitesse de 1 mètre/seconde vers la droite".
Ainsi, le robot peut comparer facilement : "Dois-je aller à 1 m/s parce que vous me l'avez demandé, ou à 1 m/s parce que vous me poussez ?" C'est comme comparer deux pièces de la même monnaie.

🧠 L'Entraînement : Le "Cours de Cuisine"

Comment apprendre cela à un robot qui n'a pas de capteurs de force dans ses mains ?

En simulation (la cuisine) : Le robot a un "super-pouvoir". Il voit tout : la force exacte qu'on lui applique, sa vitesse réelle, etc. C'est le Chef.
En réalité (le service) : Le robot n'a que ses caméras et ses capteurs internes. Il ne voit pas la force directe. C'est le Serveur.

L'astuce est d'entraîner le Chef à deviner ce que le Serveur ne voit pas. Le Chef doit dire : "Je vois que le robot a bougé de telle façon, donc quelqu'un a dû le pousser par ici".
Le robot apprend alors à deviner les forces extérieures en observant son propre corps qui bouge, comme un aveugle qui comprend qu'il est poussé par le mouvement de son manteau.

🚀 Les Résultats : De la Simulation au Monde Réel

Ils ont testé cela sur un vrai robot humanoïde appelé Booster T1.

En simulation : Le robot a appris à marcher dans toutes les directions. Si on changeait le "volant de préférence", il passait d'une marche rigide à une marche souple sans tomber.
Dans la vraie vie :
- Les chercheurs ont pu tirer le robot par la main ou l'épaule, et il les suivait doucement sans résister.
- Ils ont même fait marcher le robot sur de l'herbe, du gravier et des terrains irréguliers en le guidant à la main.
- Résultat : Il faut très peu de force pour le guider (environ 10 Newtons, comme soulever une petite pomme), alors que les anciens robots résistaient comme des rochers.

🌟 En Résumé

Cette recherche a réussi à créer un robot humanoïde qui n'est plus un robot "bête" qui résiste à tout, mais un partenaire intelligent.

Il peut être rigide quand il faut aller vite et précis.
Il peut être souple quand il faut interagir avec un humain.
Et le meilleur : on peut changer son comportement en temps réel, juste en tournant un bouton, sans avoir besoin de le reprogrammer.

C'est un pas de géant pour rendre les robots plus sûrs et plus naturels pour vivre à nos côtés, que ce soit pour aider une personne âgée ou pour jouer avec un enfant.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La locomotion des robots humanoïdes dans des environnements centrés sur l'humain nécessite un équilibre délicat entre deux objectifs souvent contradictoires :

Le suivi de commande (Command Tracking) : La capacité à suivre avec précision les commandes de vitesse pour la navigation autonome.
La conformité aux forces (Force Compliance) : La capacité à répondre de manière souple et naturelle aux forces externes appliquées par un humain (guidage physique), sans résister de manière rigide ou dangereuse.

Les approches d'apprentissage par renforcement (RL) existantes se concentrent principalement sur la robustesse face aux perturbations (en apprenant à résister aux poussées), ce qui conduit souvent à des politiques rigides incapables de suivre un guidage humain doux. Il existe un manque de méthodes permettant de gérer explicitement le compromis (trade-off) entre suivre une trajectoire imposée et céder à une force externe, sans nécessiter plusieurs phases d'entraînement ou des architectures hiérarchiques complexes.

2. Méthodologie

Les auteurs proposent un cadre d'Apprentissage par Renforcement Multi-Objectif Conditionné par les Préférences (Preference-Conditioned MORL).

A. Modélisation Vélocité-Résistance

Pour unifier les commandes de vitesse et les forces externes dans une fonction de récompense cohérente, les auteurs modélisent la force externe comme une résistance visqueuse.

Ils établissent une relation linéaire entre la force externe ( $F_{ext}$ ) et une vitesse équivalente ( $v_{ext}$ ) via un coefficient d'amortissement effectif : $v_{ext} = k \cdot F_{ext}$ .
Cela permet de traiter la force externe comme une "commande de vitesse" virtuelle, rendant les deux objectifs comparables dans l'espace de récompense.

B. Formulation Multi-Objectif (MORL)

Le problème est formulé comme un processus de décision markovien partiellement observable (POMDP) avec un vecteur de récompense multidimensionnel :

Suivi de commande ( $r_c$ ) : Minimiser l'erreur entre la vitesse actuelle et la vitesse commandée.
Conformité aux forces ( $r_f$ ) : Minimiser l'erreur entre la vitesse actuelle et la vitesse équivalente à la force externe.
Régularisation ( $r_r$ ) : Pénalités pour la stabilité, la hauteur du corps, et le coût énergétique.

Une politique $\pi(a|o, w)$ est entraînée pour maximiser la récompense pondérée par un vecteur de préférence utilisateur $w = [w_c, w_f, w_r]$ . En variant $w$ pendant l'entraînement, le modèle apprend un spectre continu de comportements, allant d'un suivi rigide ( $w_c$ élevé) à une conformité totale ( $w_f$ élevé).

C. Architecture Réseau et Reconstruction Privilegiée

Pour permettre le déploiement sur du matériel réel (sans capteurs de force tactiles), l'architecture utilise un acteur-critique asymétrique avec un module encodeur-décodeur :

Entraînement (Simulation) : Le "Critic" a accès à l'état complet (y compris les forces externes et les vitesses réelles, dites "privilegiées"). L'acteur reçoit uniquement les observations déployables (proprioception, commandes, etc.).
Reconstruction : Un décodeur tente de reconstruire les observations privilégiées (notamment les forces) à partir des observations historiques encodées par l'acteur. Cela force l'encodeur à extraire des caractéristiques latentes pertinentes pour la détection de forces.
Déploiement (Réel) : Seuls l'encodeur et l'acteur sont utilisés. Le robot infère les forces externes à partir de ses observations internes et de la commande de préférence fournie par l'utilisateur.

3. Contributions Clés

Formulation Multi-Objectif Unifiée : Présentation d'un modèle de résistance vélocité-force qui permet de traiter le suivi de commande et la conformité aux forces comme des objectifs d'optimisation comparables et conflictuels.
Cadre MORL Conditionné par Préférences : Développement d'une politique unique capable d'interpoler continûment entre le suivi rigide et la marche conforme, sans contrôle hiérarchique ni réentraînement.
Validation Expérimentale Complète : Démonstration réussie sur le robot humanoïde Booster T1 (taille adulte), prouvant la transférabilité Sim-to-Real et la capacité d'adaptation en temps réel aux préférences utilisateur.

4. Résultats Expérimentaux

A. Simulation

Compromis (Trade-off) : Les courbes de performance montrent une relation monotone claire : augmenter le poids de la conformité réduit la précision du suivi de commande, et inversement. La politique couvre un spectre continu de comportements.
Adaptation en ligne : Le robot peut changer de comportement dynamiquement en modifiant le vecteur de préférence $w$ pendant l'exécution (ex: passer d'un suivi strict à une marche guidée par la main).
Robustesse : Face à des perturbations soudaines (impulsions de force), les politiques MORL (surtout celles avec une forte composante de conformité) montrent un taux de réussite supérieur et des couples articulaires (torques) plus faibles que les politiques de base (baseline) conçues uniquement pour la robustesse.

B. Expériences Réelles (Booster T1)

Guidage Humain : Le robot peut être guidé par la main avec une force minimale (environ 10 N pour la politique MORL, contre >25 N pour la baseline). La politique MORL reste stable et souple, tandis que la baseline résiste ou devient instable.
Marche Omnidirectionnelle : Le robot exécute des mouvements diagonaux en combinant une commande de vitesse et une force externe latérale, démontrant une synthèse cohérente des objectifs.
Résilience aux Chocs : Le robot résiste à des impacts de balles suspendues (jusqu'à 5 kg) sans tomber, en absorbant le choc par des mouvements conformes.

5. Signification et Impact

Ce travail démontre qu'il est possible de déployer des robots humanoïdes interactifs capables de s'adapter dynamiquement à différents modes d'interaction humaine.

Simplicité d'implémentation : La méthode évite la complexité des architectures hiérarchiques ou des phases d'entraînement multiples.
Sécurité et Naturalité : En permettant un guidage physique doux, la méthode rend les interactions humain-robot plus sûres et plus intuitives, essentielle pour les applications de service ou d'assistance.
Généralité : L'approche ouvre la voie à des politiques de locomotion capables de gérer des tâches complexes où les priorités (précision vs sécurité/interaction) peuvent changer en temps réel.

En résumé, cette recherche propose une solution élégante et efficace pour concilier la précision de la navigation autonome et la souplesse nécessaire à l'interaction physique directe avec les humains.