SteadyTray: Learning Object Balancing Tasks in Humanoid Tray Transport via Residual Reinforcement Learning

Ce papier présente ReST-RL, une architecture d'apprentissage par renforcement hiérarchique qui, en découplant la locomotion de la stabilisation de la charge via un module résiduel, permet aux humanoïdes de transporter des plateaux de manière robuste et précise, avec une généralisation réussie de la simulation à la réalité sur le robot Unitree G1.

Anlun Huang, Zhenyu Wu, Soofiyan Atar, Yuheng Zhi, Michael Yip

Publié 2026-03-12
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🤖 SteadyTray : Le Robot qui ne renverse jamais son café

Imaginez un robot humanoïde (qui ressemble à un humain) qui doit traverser une pièce en marchant, tout en tenant un plateau avec un verre de vin rempli à ras bord. Le problème ? Le robot a des jambes qui bougent, ce qui crée des secousses. Si le robot marche normalement, le liquide dans le verre va se renverser, ou pire, le verre va tomber.

C'est le défi que l'équipe de l'Université de Californie (UC San Diego) a relevé avec leur nouvelle méthode appelée ReST-RL.

1. Le Problème : Marcher vs. Garder l'équilibre

Habituellement, les robots sont entraînés soit pour marcher (locomotion), soit pour manipuler des objets. Mais faire les deux en même temps est très difficile.

  • L'analogie du danseur : Imaginez un danseur de ballet qui doit courir dans une pièce tout en tenant un plateau avec une bougie allumée. Si le danseur se concentre uniquement sur ses pieds pour courir vite, il va faire trembler ses bras et éteindre la bougie. S'il se concentre uniquement sur la bougie, il va trébucher et tomber.

La plupart des robots actuels essaient de tout apprendre d'un coup (comme un élève qui essaie d'apprendre à marcher et à jouer du piano en même temps). Ça ne marche pas très bien.

2. La Solution : L'approche "Professeur et Élève" (ReST-RL)

Au lieu d'essayer d'apprendre tout d'un coup, les chercheurs ont utilisé une astuce intelligente qu'ils appellent ReST-RL (Reinforcement Learning avec un module résiduel).

Voici comment ça fonctionne, avec une analogie simple :

  • Le Professeur (La politique de base) : C'est un robot expert qui sait déjà très bien marcher. Il connaît parfaitement comment poser les pieds, comment garder l'équilibre et comment avancer. Il est "gelé", c'est-à-dire qu'on ne le modifie pas.
  • L'Élève (Le module résiduel) : C'est un petit cerveau supplémentaire qui observe le Professeur. Son travail n'est pas de décider comment marcher, mais seulement de corriger les petits tremblements que le Professeur fait involontairement à cause du plateau.

L'analogie du passeur de ballon :
Imaginez que le Professeur lance un ballon (le plateau) avec une certaine force. L'Élève est un autre joueur qui se tient juste à côté. Si le Professeur lance le ballon un peu trop haut ou trop bas à cause d'un mouvement de jambe, l'Élève donne un petit coup de main subtil pour remettre le ballon dans la bonne trajectoire.

  • Le Professeur continue de marcher normalement.
  • L'Élève ajuste uniquement ce qui est nécessaire pour que le plateau reste plat.

3. L'Entraînement : Apprendre avec des "lunettes magiques"

Pour entraîner cet Élève, les chercheurs ont utilisé une technique géniale en simulation (dans un monde virtuel) :

  • Le temps des "lunettes magiques" (Observations privilégiées) : Pendant l'entraînement, l'Élève a accès à des informations que le robot n'aura jamais dans la réalité (comme la vitesse exacte du verre, la position précise du liquide, etc.). C'est comme si l'élève avait une télépathie qui lui dit exactement ce qui va se passer.
  • Le temps des "lunettes normales" (Distillation) : Une fois que l'Élève a appris à corriger les erreurs grâce à ces informations magiques, on lui retire les lunettes. On lui apprend à utiliser seulement ce que le robot peut vraiment voir (une caméra sur la tête).
  • Le résultat : L'Élève devient si bon qu'il peut corriger les erreurs même sans les informations magiques, juste en regardant le plateau et en sentant les mouvements du robot.

4. Les Résultats : Un robot qui ne renverse rien

Les chercheurs ont testé leur robot (un Unitree G1) dans la vraie vie avec des objets fragiles :

  • Des verres de vin pleins d'eau.
  • Des tasses à café.
  • Des outils médicaux.

Ce qui s'est passé :

  • Même si on poussait le robot par derrière, ou si on donnait un coup au plateau lui-même, le robot s'adaptait instantanément.
  • Il marchait, tournait, accélérait, et le plateau restait parfaitement de niveau. Le liquide ne se renversait pas !
  • Le robot a réussi à transporter ces objets sans jamais avoir besoin d'être reprogrammé pour un objet spécifique. C'est ce qu'on appelle une généralisation : il a appris le principe, pas juste un mouvement précis.

En résumé

Ce papier nous dit que pour faire tenir un plateau stable sur un robot qui marche, il ne faut pas tout réinventer. Il faut prendre un robot qui sait déjà bien marcher et lui ajouter un "assistant intelligent" qui ne fait que corriger les tremblements.

C'est comme apprendre à un enfant à porter un plateau : on ne lui apprend pas à marcher à nouveau, on lui apprend juste à ajuster ses mains pour compenser les mouvements de ses jambes. Grâce à cette méthode, les robots humanoïdes peuvent bientôt nous aider à transporter des repas, des médicaments ou des objets fragiles dans des environnements encombrés, sans rien renverser ! 🍷🤖✨