Ego-Vision World Model for Humanoid Contact Planning

Each language version is independently generated for its own context, not a direct translation.

🤖 Le Robot qui apprend à "toucher" le monde

Imaginez un robot humanoïde (un robot qui ressemble à un humain). Jusqu'à présent, la plupart des robots étaient programmés pour éviter les contacts. Si un obstacle arrivait, ils s'arrêtaient ou faisaient demi-tour, comme un enfant qui a peur de se cogner.

Mais dans le vrai monde, pour être vraiment autonome, un robot doit savoir utiliser les contacts, tout comme nous.

Si vous trébuchez, vous mettez la main sur un mur pour vous stabiliser.
Si un ballon arrive vite vers vous, vous le bloquez avec vos bras.
Si un passage est trop bas, vous vous accroupissez pour passer dessous.

Ce papier présente une nouvelle méthode pour apprendre à ces robots à faire ces choses complexes, sans avoir besoin de les entraîner par des humains (pas de "démonstrations" manuelles) et sans gaspiller des années de temps de calcul.

🧠 Le Cerveau : Un "Simulateur de Rêve"

Le cœur de leur invention, c'est un Modèle du Monde (World Model).

L'analogie du rêveur :
Imaginez que vous devez traverser une ville inconnue. Au lieu de sortir et de vous promener au hasard (ce qui est lent et dangereux), vous fermez les yeux et vous rêvez de différents scénarios.

"Si je tourne à gauche, je vais heurter un mur."
"Si je me penche, je vais pouvoir passer sous la branche."

Le robot fait exactement cela, mais à l'intérieur de son cerveau numérique. Il a appris à prédire ce qui va se passer dans les secondes à venir, non pas en regardant des pixels flous, mais en comprenant l'essence de la situation (comme un rêveur qui comprend la logique de son rêve).

Comment a-t-il appris ?
Au lieu de le faire jouer des millions de fois dans le monde réel (ce qui casserait le robot), les chercheurs lui ont donné un "livre de souvenirs" (un jeu de données) rempli de mouvements aléatoires faits dans un simulateur. Le robot a lu ce livre et a appris à prédire les conséquences de ses actions, comme un détective qui reconstitue une scène de crime à partir de indices.

🎯 Le Planificateur : Le Chef d'Orchestre

Avoir un rêveur est bien, mais il faut un chef d'orchestre pour choisir la meilleure action. C'est là qu'intervient le MPC (Contrôle Prédictif par Modèle).

L'analogie du joueur d'échecs :
Imaginez que vous jouez aux échecs. Vous ne regardez pas seulement le coup immédiat. Vous simulez mentalement : "Si je fais ce coup, mon adversaire fera celui-là, et moi je ferai ceci..."

Le robot fait pareil, mais très vite :

Il regarde la caméra (ses yeux) et ses capteurs (sa proprioception).
Il lance 1024 scénarios en parallèle dans son "rêve" (son modèle du monde).
Pour chaque scénario, il demande : "Est-ce que je vais tomber ? Est-ce que je vais réussir à attraper l'objet ?"
Il choisit le scénario qui donne le meilleur résultat et exécute un seul mouvement.
Il recommence tout de suite pour le mouvement suivant.

C'est comme si le robot pensait à 1000 coups à l'avance, mais ne jouait que le premier, puis recalculait tout instant après.

🛠️ Les Trois Défis Résolus

Les chercheurs ont dû surmonter trois obstacles majeurs, qu'ils ont résolus avec des astuces intelligentes :

Le bruit des capteurs (Les yeux qui tremblent) :
Les caméras des robots sont souvent floues ou bruitées. Au lieu de se fier à une image parfaite (impossible), le robot utilise un résumé abstrait de la situation. C'est comme si, au lieu de regarder chaque goutte de pluie, il comprenait simplement "il pleut". Cela le rend plus robuste.
La récompense rare (Le problème du "Quand ?") :
Souvent, le robot ne reçoit un "bon point" (récompense) que s'il réussit tout à la fin. C'est comme apprendre à faire du vélo sans savoir si vous êtes en équilibre tant que vous ne tombez pas.
L'astuce : Ils ont inventé un "guide de valeur". C'est une boussole interne qui dit au robot : "Tu es sur la bonne voie, continue !", même s'il n'a pas encore touché l'objectif. Cela rend l'apprentissage beaucoup plus rapide.
L'efficacité (Pas de gaspillage) :
Les méthodes classiques (comme l'apprentissage par renforcement classique) demandent des milliards d'essais. Cette méthode, elle, apprend à partir d'un jeu de données statique (comme lire un livre) et est capable de gérer plusieurs tâches à la fois (tenir un mur, bloquer une balle, passer sous un arc) avec un seul et même cerveau.

🏆 Les Résultats dans la Vie Réelle

Ils ont testé ce système sur un vrai robot humanoïde (le Unitree G1). Voici ce qu'il a réussi à faire :

Le Mur : Si on le pousse, il met instinctivement ses mains contre un mur pour ne pas tomber.
La Balle : Il intercepte une balle volante avec ses mains pour la bloquer.
L'Arche : Il se baisse pour passer sous un obstacle bas sans se cogner la tête.
La Généralisation : Il a même réussi à bloquer une boîte qu'il n'avait jamais vue auparavant !

En résumé

Ce papier nous dit : "Pour que les robots soient intelligents dans le monde réel, ils ne doivent pas juste éviter les obstacles, ils doivent apprendre à les utiliser."

Grâce à un mélange de rêves numériques (modèle du monde) et de stratégie rapide (MPC), ils ont créé un robot capable d'apprendre seul, rapidement, et de réagir avec agilité, comme un humain qui s'adapte à son environnement. C'est un pas de géant vers des robots qui peuvent vraiment nous aider dans nos maisons ou dans des usines complexes.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les robots humanoïdes doivent évoluer de la simple locomotion dynamique vers une interaction intelligente dans des environnements non structurés. Cela nécessite d'exploiter les contacts physiques (s'appuyer sur un mur, bloquer un objet, se baisser) plutôt que de simplement les éviter.

Les défis majeurs identifiés sont :

Complexité des contacts : Les méthodes d'optimisation traditionnelles peinent à gérer la complexité de la planification de contacts en temps réel et sont sensibles aux imprécisions du modèle.
Inefficacité des échantillons : L'apprentissage par renforcement (RL) "on-policy" (comme PPO) est très inefficace en termes d'échantillons, surtout avec des entrées visuelles, et a des difficultés à apprendre plusieurs tâches simultanément.
Rareté des récompenses : Les signaux de récompense liés aux contacts sont souvent clairsemés et bruités, rendant l'exploration difficile.
Manque de données réelles : Obtenir des démonstrations humaines pour des commandes de corps entier est coûteux et complexe.

2. Méthodologie

Les auteurs proposent un cadre unifié combinant un modèle du monde appris (World Model) et un contrôle prédictif par modèle (MPC) basé sur l'échantillonnage, entraîné sur un jeu de données hors ligne (offline) sans démonstration.

A. Collecte de données et Modèle du Monde (Ego-Vision World Model)

Données Offline : Un jeu de données est généré en simulation en appliquant des actions de haut niveau (position de l'effecteur terminal, hauteur du corps) de manière aléatoire à un contrôleur bas niveau déjà entraîné. Aucune démonstration humaine n'est utilisée.
Architecture Latente : Inspiré de modèles comme Dreamer et JEPA, le modèle ne prédit pas les pixels bruts (ce qui entraîne des erreurs cumulatives), mais des états latents abstraits.
- Il utilise un réseau récurrent (RNN) pour maintenir un état dynamique déterministe $h_t$ .
- Un encodeur infère un état latent stochastique $z_t$ à partir de l'observation (image de profondeur centrée sur l'ego + proprioception).
- Un décodeur reconstruit l'observation $\hat{o}_t$ .
Fonctions de Tête Spéciales : Le modèle prédit directement :
1. La probabilité de terminaison (échec/chute) $\hat{d}_t$ .
2. Une fonction de valeur surrogate $\hat{Q}_t$ (valeur d'action) qui guide la planification.

B. Planification Guidée par la Valeur (Value-Guided Sampling MPC)

Approche : Au lieu de maximiser aveuglément une fonction de valeur imparfaite, le système utilise le modèle du monde pour simuler des trajectoires futures dans l'espace latent.
Fonction Objectif : Le planificateur maximise une somme de valeurs prédites sur un horizon fini $N$ (généralement 4 pas) :
$\hat{J}_N = \frac{1}{N} \sum_{k=0}^{N-1} \hat{Q}(h_{t+k}, \hat{z}_{t+k}, a_{t+k})$
Optimisation : Une méthode de type Cross-Entropy (CEM) est utilisée pour trouver la séquence d'actions optimale parmi un lot de candidats (ex: 1024 trajectoires).
Robustesse : Si la probabilité de terminaison (chute) dépasse un seuil (0.9), la valeur de la trajectoire est annulée. Le replanification se fait à chaque pas de temps (horizon glissant) pour corriger les erreurs de modèle et les perturbations.

3. Contributions Clés

Modèle du Monde Visuel Évolutif : Un modèle capable de capturer la dynamique de tâches de contact diverses, entraîné entièrement sur des données offline générées aléatoirement, sans démonstration.
Planification de Pixels Guidée par la Valeur : Introduction d'un cadre MPC utilisant une fonction de valeur apprise pour guider l'échantillonnage, permettant une évaluation efficace des séquences d'actions.
Planification de Contact Agile et Robuste : Validation sur un robot humanoïde physique (Unitree G1) montrant des capacités de contact réactives basées uniquement sur des images de profondeur centrées sur l'ego et la proprioception.

4. Résultats Expérimentaux

Les expériences ont été menées en simulation et sur le robot physique Unitree G1 équipé d'une caméra RealSense.

Tâches Validées :
- Soutenir le mur : Stabilisation après une perturbation en s'appuyant sur le mur.
- Bloquer la balle/boîte : Intercepter des objets volants avec les mains.
- Traverser l'arche : Passer sous un obstacle bas en évitant les collisions avec la tête.
Efficacité des Échantillons : La méthode atteint des performances supérieures avec seulement 0,5 million de pas de données, tandis que PPO (RL on-policy) nécessite beaucoup plus de données et de temps de calcul, surtout pour les tâches visuelles complexes.
Capacité Multi-Tâches : Un seul modèle entraîné sur un mélange de toutes les tâches atteint des performances comparables, voire supérieures, à des modèles spécialisés par tâche, évitant ainsi l'oubli catastrophique.
Comparaison des Baselines :
- Le MPC basé uniquement sur la récompense (Rew-MPC) échoue à cause du bruit et de l'observabilité partielle.
- L'ajout de prédictions auto-régressives (ARWM) nuit à l'estimation de la valeur en RL offline.
- L'horizon de planification optimal est de N=4 : un horizon plus long introduit trop de biais, tandis qu'un horizon plus court est myope.
Validation Réelle : Le système fonctionne en temps réel (25 Hz) sur le robot physique, démontrant une capacité à généraliser à des objets non vus lors de l'entraînement (ex: bloquer une boîte jamais vue).

5. Signification et Impact

Ce travail démontre qu'il est possible de doter les robots humanoïdes de compétences d'interaction physique complexes et agiles sans recourir à des démonstrations humaines coûteuses ni à des millions d'itérations d'entraînement en ligne.

Changement de paradigme : Il passe d'une évitement de collision à une exploitation proactive du contact.
Efficacité des données : L'approche "Offline + World Model + Value Guidance" surmonte les limitations d'efficacité des échantillons du RL traditionnel pour les tâches visuelles et de contact.
Généralisation : La capacité à apprendre une dynamique latente robuste permet au robot de s'adapter à des environnements non structurés et à des perturbations imprévues, un pas crucial vers l'autonomie réelle des robots humanoïdes.

Le code et le jeu de données sont disponibles publiquement, favorisant la reproductibilité et les recherches futures dans ce domaine.