Ψ0Ψ_0: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

Ce papier présente Ψ0\Psi_0, un modèle fondamental open-source pour la loco-manipulation humanoïde qui, grâce à une approche d'apprentissage en deux étapes séparant la préformation sur des vidéos humaines et le post-entraînement sur des données robotiques, surpasse les méthodes existantes avec une fraction des données nécessaires.

Songlin Wei, Hongyi Jing, Boqian Li, Zhenyu Zhao, Jiageng Mao, Zhenhao Ni, Sicheng He, Jie Liu, Xiawei Liu, Kaidi Kang, Sheng Zang, Weiduo Yuan, Marco Pavone, Di Huang, Yue Wang

Publié 2026-03-13
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🤖 Ψ0 : Le Robot Humanoïde qui Apprend comme un Humain

Imaginez que vous voulez apprendre à un robot humanoïde (un robot qui ressemble à un humain) à faire des tâches complexes dans une cuisine : ouvrir un frigo, verser de l'eau dans un verre, pousser un chariot, ou même plier un torchon. C'est ce qu'on appelle la "loco-manipulation" (bouger + manipuler).

Le problème ? Les robots sont souvent maladroits et lents à apprendre. Les chercheurs du laboratoire PSI de l'USC ont créé Ψ0, un nouveau "cerveau" pour robot qui change la donne.

Voici comment ils ont fait, expliqué avec des analogies simples :

1. Le Problème : Mélanger les pommes et les oranges 🍎🍊

Jusqu'à présent, pour entraîner un robot, les scientifiques essayaient de lui montrer des milliers d'heures de vidéos de robots qui font des tâches, mélangées à des vidéos de humains.

  • L'analogie : C'est comme essayer d'apprendre à un élève de natation en lui montrant à la fois des vidéos de nageurs olympiques et des vidéos de pingouins qui glissent sur la glace. Même si le but est de "bouger dans l'eau", la façon de faire est trop différente. Le robot se perd, il essaie de copier les mouvements humains mais son corps de robot ne réagit pas pareil. C'est inefficace et ça demande une quantité astronomique de données.

2. La Solution de Ψ0 : Une formation en deux étapes 🎓

Au lieu de tout mélanger, Ψ0 utilise une méthode en deux temps, comme un système éducatif très intelligent :

  • Étape 1 : L'Observateur (Le VLM) 🧠
    D'abord, on apprend au robot à regarder et comprendre ce qu'il se passe. On lui montre 800 heures de vidéos de vrais humains (prises de leur point de vue, comme s'ils portaient une caméra sur la tête).

    • L'analogie : C'est comme si le robot regardait des milliers d'épisodes de "MasterChef" ou de tutoriels de bricolage. Il ne bouge pas encore, il apprend juste : "Ah, pour verser de l'eau, il faut incliner la bouteille doucement", ou "Pour ouvrir une porte, il faut pousser". Il apprend le sens des tâches et la logique visuelle.
  • Étape 2 : L'Expert (L'Action Expert) 🦾
    Ensuite, une fois que le robot a compris la logique, on lui apprend comment bouger son propre corps. On lui donne seulement 30 heures de données réelles de robots qui font ces tâches.

    • L'analogie : C'est comme un stage pratique. Le robot sait quoi faire (grâce à l'étape 1), et maintenant on lui apprend comment utiliser ses propres bras et jambes pour le faire précisément. Comme il a déjà compris la théorie, il a besoin de très peu de pratique pour devenir un expert.

3. Le Secret : La "Tranche de Temps" en Temps Réel ⏱️

Les gros robots sont souvent lents à réfléchir. Si un robot doit penser pendant 200 millisecondes avant de bouger, il risque de trébucher ou de faire des mouvements saccadés (comme un robot qui "bégaye").

Ψ0 utilise une astuce appelée "Real-Time Action Chunking".

  • L'analogie : Imaginez un chef cuisinier. Au lieu de s'arrêter après avoir coupé une carotte pour réfléchir à la prochaine étape, il prépare déjà les ingrédients pour les trois prochaines minutes pendant qu'il coupe la première.
    Ψ0 prédit une séquence de mouvements à l'avance. Pendant qu'il exécute le premier mouvement, il a déjà calculé les suivants. Résultat : le robot bouge de manière fluide, sans à-coups, même s'il "réfléchit" en même temps.

4. Le Résultat : Moins de données, plus de succès 🏆

Le résultat est bluffant :

  • Les autres robots ont besoin de milliers d'heures de données de télé-opération (des humains contrôlant le robot à distance, ce qui est très cher et long).
  • Ψ0 arrive à faire mieux avec seulement 800 heures de vidéos YouTube de humains et 30 heures de données réelles de robots.
  • Dans les tests, Ψ0 réussit ses tâches (comme ouvrir un frigo ou verser de l'eau) 40 % de plus que les meilleurs robots actuels, même si ces derniers ont été entraînés avec 10 fois plus de données !

En résumé 🌟

Ψ0 ne cherche pas à copier aveuglément les humains ni à accumuler des montagnes de données robotiques coûteuses. Il utilise une approche intelligente :

  1. Regarder des humains pour comprendre la logique du monde (le "Pourquoi").
  2. S'entraîner un peu sur des robots pour maîtriser sa propre mécanique (le "Comment").
  3. Anticiper ses mouvements pour ne jamais s'arrêter de bouger.

C'est comme si on apprenait à un enfant à conduire : d'abord, on lui explique la théorie et on le fait regarder des conducteurs expérimentés, puis on le met au volant avec un moniteur. Résultat : il apprend beaucoup plus vite et conduit mieux que s'il avait dû tout découvrir par lui-même en faisant des milliers d'essais-erreurs.

Les chercheurs ont décidé de rendre tout cela gratuit (open-source) pour que tout le monde puisse utiliser ce "cerveau" pour faire avancer la robotique humanoïde ! 🚀