$Ψ_0$: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

Each language version is independently generated for its own context, not a direct translation.

🤖 Ψ0 : Le Robot Humanoïde qui Apprend comme un Humain

Imaginez que vous voulez apprendre à un robot humanoïde (un robot qui ressemble à un humain) à faire des tâches complexes dans une cuisine : ouvrir un frigo, verser de l'eau dans un verre, pousser un chariot, ou même plier un torchon. C'est ce qu'on appelle la "loco-manipulation" (bouger + manipuler).

Le problème ? Les robots sont souvent maladroits et lents à apprendre. Les chercheurs du laboratoire PSI de l'USC ont créé Ψ0, un nouveau "cerveau" pour robot qui change la donne.

Voici comment ils ont fait, expliqué avec des analogies simples :

1. Le Problème : Mélanger les pommes et les oranges 🍎🍊

Jusqu'à présent, pour entraîner un robot, les scientifiques essayaient de lui montrer des milliers d'heures de vidéos de robots qui font des tâches, mélangées à des vidéos de humains.

L'analogie : C'est comme essayer d'apprendre à un élève de natation en lui montrant à la fois des vidéos de nageurs olympiques et des vidéos de pingouins qui glissent sur la glace. Même si le but est de "bouger dans l'eau", la façon de faire est trop différente. Le robot se perd, il essaie de copier les mouvements humains mais son corps de robot ne réagit pas pareil. C'est inefficace et ça demande une quantité astronomique de données.

2. La Solution de Ψ0 : Une formation en deux étapes 🎓

Au lieu de tout mélanger, Ψ0 utilise une méthode en deux temps, comme un système éducatif très intelligent :

Étape 1 : L'Observateur (Le VLM) 🧠
D'abord, on apprend au robot à regarder et comprendre ce qu'il se passe. On lui montre 800 heures de vidéos de vrais humains (prises de leur point de vue, comme s'ils portaient une caméra sur la tête).
- L'analogie : C'est comme si le robot regardait des milliers d'épisodes de "MasterChef" ou de tutoriels de bricolage. Il ne bouge pas encore, il apprend juste : "Ah, pour verser de l'eau, il faut incliner la bouteille doucement", ou "Pour ouvrir une porte, il faut pousser". Il apprend le sens des tâches et la logique visuelle.
Étape 2 : L'Expert (L'Action Expert) 🦾
Ensuite, une fois que le robot a compris la logique, on lui apprend comment bouger son propre corps. On lui donne seulement 30 heures de données réelles de robots qui font ces tâches.
- L'analogie : C'est comme un stage pratique. Le robot sait quoi faire (grâce à l'étape 1), et maintenant on lui apprend comment utiliser ses propres bras et jambes pour le faire précisément. Comme il a déjà compris la théorie, il a besoin de très peu de pratique pour devenir un expert.

3. Le Secret : La "Tranche de Temps" en Temps Réel ⏱️

Les gros robots sont souvent lents à réfléchir. Si un robot doit penser pendant 200 millisecondes avant de bouger, il risque de trébucher ou de faire des mouvements saccadés (comme un robot qui "bégaye").

Ψ0 utilise une astuce appelée "Real-Time Action Chunking".

L'analogie : Imaginez un chef cuisinier. Au lieu de s'arrêter après avoir coupé une carotte pour réfléchir à la prochaine étape, il prépare déjà les ingrédients pour les trois prochaines minutes pendant qu'il coupe la première.
Ψ0 prédit une séquence de mouvements à l'avance. Pendant qu'il exécute le premier mouvement, il a déjà calculé les suivants. Résultat : le robot bouge de manière fluide, sans à-coups, même s'il "réfléchit" en même temps.

4. Le Résultat : Moins de données, plus de succès 🏆

Le résultat est bluffant :

Les autres robots ont besoin de milliers d'heures de données de télé-opération (des humains contrôlant le robot à distance, ce qui est très cher et long).
Ψ0 arrive à faire mieux avec seulement 800 heures de vidéos YouTube de humains et 30 heures de données réelles de robots.
Dans les tests, Ψ0 réussit ses tâches (comme ouvrir un frigo ou verser de l'eau) 40 % de plus que les meilleurs robots actuels, même si ces derniers ont été entraînés avec 10 fois plus de données !

En résumé 🌟

Ψ0 ne cherche pas à copier aveuglément les humains ni à accumuler des montagnes de données robotiques coûteuses. Il utilise une approche intelligente :

Regarder des humains pour comprendre la logique du monde (le "Pourquoi").
S'entraîner un peu sur des robots pour maîtriser sa propre mécanique (le "Comment").
Anticiper ses mouvements pour ne jamais s'arrêter de bouger.

C'est comme si on apprenait à un enfant à conduire : d'abord, on lui explique la théorie et on le fait regarder des conducteurs expérimentés, puis on le met au volant avec un moniteur. Résultat : il apprend beaucoup plus vite et conduit mieux que s'il avait dû tout découvrir par lui-même en faisant des milliers d'essais-erreurs.

Les chercheurs ont décidé de rendre tout cela gratuit (open-source) pour que tout le monde puisse utiliser ce "cerveau" pour faire avancer la robotique humanoïde ! 🚀

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les robots humanoïdes ont fait des progrès significatifs dans le contrôle de la locomotion (marche, équilibre), mais leurs capacités de loco-manipulation (déplacement combiné à des tâches de manipulation dextre) restent limitées.

Le défi principal : Les approches existantes tentent souvent de co-entraîner des modèles sur de vastes ensembles de données humaines et robotiques. Cependant, les auteurs soutiennent que cette stratégie est sous-optimale en raison des écarts kinématiques et dynamiques fondamentaux entre les humains et les robots humanoïdes (différences de fréquence d'action, de dynamique du mouvement et de degrés de liberté).
Conséquence : Malgré des volumes de données considérables, l'efficacité des données et les performances des modèles restent insatisfaisantes. Le transfert direct de connaissances depuis des vidéos humaines vers le contrôle robotique est difficile en raison de ce "fossé d'incarnation" (embodiment gap).

2. Méthodologie : L'Architecture de Ψ0

Ψ0 propose une nouvelle approche basée sur un paradigme d'entraînement en plusieurs étapes (staged training) pour découpler l'apprentissage des représentations visuelles/linguistiques de celui du contrôle moteur précis.

A. Architecture du Modèle (Triple-System)

Le modèle suit une architecture hiérarchique inspirée des travaux récents (comme $\pi_0$ ) :

Système 2 (Backbone VLM) : Un modèle de langage-vision (basé sur Qwen3-VL-2B) pré-entraîné pour comprendre les instructions et les représentations visuelles.
Système 1 (Action Expert) : Un expert d'action basé sur un Transformateur de Diffusion Multi-Modal (MM-DiT) à flux (flow-based). Il prédit les séquences d'actions dans l'espace articulaire (joint space).
Système 0 (Contrôleur Bas-Niveau) : Une politique de contrôle RL (basée sur AMO) qui gère la stabilité du bas du corps (jambes et bassin) en réponse aux commandes de haut niveau.

B. La Recette d'Entraînement (Training Recipe)

L'innovation clé réside dans la séparation des phases d'apprentissage :

Pré-entraînement (Phase 1) :
- Données : Vidéos égocentriques humaines de haute qualité (dataset EgoDex, ~800h) et données robotiques de base (Humanoid Everyday, ~31h).
- Objectif : Le VLM apprend à prédire les tokens d'action suivants dans un espace d'action unifié (représentation des poignets et doigts humains). Cela permet au modèle d'acquérir des priors sémantiques de tâches et des représentations visuelles généralisables sans se soucier des spécificités articulaires du robot.
- Technique : Utilisation d'un tokeniseur FAST pour convertir les actions continues en tokens discrets, réduisant la charge computationnelle.
Post-entraînement (Phase 2) :
- Données : Données robotiques réelles de haute qualité (Humanoid Everyday).
- Objectif : Le backbone VLM est figé. Un expert d'action (MM-DiT) est entraîné depuis zéro pour prédire directement les actions dans l'espace articulaire du robot (36 degrés de liberté).
- Avantage : Cela permet d'apprendre la dynamique spécifique à l'incarnation (embodiment) sans interférence avec les distributions d'actions humaines.
Fine-tuning (Phase 3) :
- Ajustement fin de l'expert d'action sur de petites quantités de données de téléopération spécifiques à la tâche pour une adaptation rapide.

C. Chunking d'Action en Temps Réel (Real-Time Chunking - RTC)

Pour pallier la latence d'inférence des grands modèles (environ 160 ms par passage), qui peut causer des saccades (jitter) dans le contrôle, Ψ0 utilise un mécanisme de chunking entraîné en temps réel.

Au lieu d'attendre la fin d'un chunk d'action pour en calculer le suivant, le modèle est entraîné à prédire un futur chunk conditionné par le chunk précédent en cours d'exécution.
Cela assure une transition fluide entre les chunks d'actions, éliminant les pauses et les vibrations, même avec une latence d'inférence.

D. Téléopération Adaptée

Les auteurs ont développé un pipeline de téléopération personnalisé utilisant des gants MANUS pour les doigts, un casque VR PICO et des trackers de poignets/corps. Ce système sépare le suivi de la posture du haut du corps (pour la manipulation) des commandes de locomotion (pour la stabilité), permettant à un seul opérateur de contrôler l'ensemble du corps de manière stable.

3. Contributions Clés

Modèle Fondation Ouvert (Ψ0) : Un modèle complet pour la loco-manipulation humanoïde, incluant le pipeline de données, le modèle et le moteur d'inférence.
Paradigme d'Entraînement Découplé : Démonstration que pré-entraîner sur des vidéos humaines (pour la sémantique) puis post-entraîner un expert sur des données robotiques (pour la dynamique) est supérieur au co-entraînement direct.
Efficacité des Données : Utilisation de seulement ~800 heures de vidéos humaines et ~30 heures de données robotiques réelles pour atteindre des performances de pointe.
Techniques de Contrôle : Intégration de l'expert MM-DiT et du chunking en temps réel pour une exécution fluide et robuste.

4. Résultats Expérimentaux

Les expériences ont été menées sur la plateforme humanoïde Unitree G1 avec des mains dextres Dex3-1.

Benchmark : Évaluation sur 8 tâches de loco-manipulation à long horizon (ex: ouvrir un robinet, pousser un chariot, manipuler des objets fragiles, s'accroupir).
Performance : Ψ0 surpasse tous les modèles de base (baselines) y compris GR00T N1.6, $\pi_0.5$ , EgoVLA et H-RDT.
- Taux de réussite global supérieur de plus de 40 % par rapport au deuxième meilleur modèle (GR00T N1.6), alors que ces derniers ont été entraînés sur des volumes de données 10 fois supérieurs.
- Ψ0 démontre une stabilité supérieure sur les tâches nécessitant une coordination fine des deux bras et une locomotion simultanée.
Études d'Abalation : Confirment que chaque étape (pré-entraînement humain, post-entraînement robotique, chunking temps réel, architecture MM-DiT) est cruciale pour la performance finale.

5. Signification et Impact

Ce travail remet en question la croyance selon laquelle "plus de données hétérogènes" est toujours la solution pour les robots. Il démontre que la qualité et la stratégie de données (scaling the right data in the right way) sont plus importantes que le volume brut.

Accessibilité : En rendant l'écosystème open-source (modèle, pipeline, code de déploiement), Ψ0 abaisse la barrière à l'entrée pour la recherche sur les humanoïdes.
Efficacité : Il offre une voie viable pour développer des robots capables de tâches complexes sans nécessiter des coûts prohibitifs de collecte de données de téléopération robotique massive.
Futur : Cela pose les bases pour des agents physiques universels capables d'assister dans des tâches quotidiennes complexes, en apprenant efficacement de l'observation humaine et en s'adaptant à leur propre morphologie.

Ψ0Ψ_0Ψ0​: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

🤖 Ψ0 : Le Robot Humanoïde qui Apprend comme un Humain

1. Le Problème : Mélanger les pommes et les oranges 🍎🍊

2. La Solution de Ψ0 : Une formation en deux étapes 🎓

3. Le Secret : La "Tranche de Temps" en Temps Réel ⏱️

4. Le Résultat : Moins de données, plus de succès 🏆

En résumé 🌟

1. Problématique et Contexte

2. Méthodologie : L'Architecture de Ψ0

A. Architecture du Modèle (Triple-System)

B. La Recette d'Entraînement (Training Recipe)

C. Chunking d'Action en Temps Réel (Real-Time Chunking - RTC)

D. Téléopération Adaptée

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Towards Automatic Stress Analysis using Scaled Boundary Finite Element Method with Quadtree Mesh of High-order Elements

Computing Characteristic Polynomials of p-Curvatures in Average Polynomial Time

Non-degenerate Rigid Alignment in a Patch Framework

Shirakami: A Hybrid Concurrency Control Protocol for Tsurugi Relational Database System

The MCC approaches the geometric mean of precision and recall as true negatives approach infinity

$Ψ_0$ : An Open Foundation Model Towards Universal Humanoid Loco-Manipulation