Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée du papier de recherche Phys2Real, conçue pour être comprise par tout le monde, sans jargon technique.

Imaginez que vous voulez apprendre à un robot à pousser un objet lourd sur une table, comme une boîte ou un marteau. Le problème ? Ce robot a été entraîné dans un monde virtuel (un simulateur), mais le monde réel est imprévisible.

🎮 Le Problème : L'Entraînement dans le "Jeu Vidéo"

D'habitude, pour entraîner un robot, on le fait jouer des milliers de fois dans un simulateur informatique. C'est comme un joueur de vidéo qui maîtrise parfaitement un niveau en répétant les mêmes actions.

Le souci : Quand on sort le robot dans la vraie vie, tout change. L'objet est peut-être plus lourd d'un côté, glissant, ou mal équilibré. Le robot, qui a appris une "moyenne" de ce qui se passe dans le jeu, se retrouve perdu et fait des erreurs. C'est comme si vous appreniez à conduire uniquement sur un circuit de simulation, puis que vous deviez conduire sur une route verglacée sans jamais avoir vu de neige.

🤖 La Solution : Phys2Real (Le Robot "Intuitif")

Les chercheurs de Stanford ont créé Phys2Real. C'est une méthode qui donne au robot deux super-pouvoirs pour comprendre le monde réel : la vue et le toucher, combinés intelligemment.

Voici comment ça marche, étape par étape, avec des analogies :

1. La Vue : Le "Détective Visuel" (Le VLM)

Avant même que le robot ne touche l'objet, il le regarde.

L'analogie : Imaginez que vous voyez un marteau. Votre cerveau dit instantanément : "Attends, la tête est lourde, donc le centre de gravité est près du bout du manche."
Dans le papier : Le robot utilise une intelligence artificielle très avancée (un modèle de langage et de vision, ou VLM) qui agit comme un expert visuel. Il regarde une photo de l'objet et dit : "Je pense que le centre de poids est ici, mais je ne suis pas sûr à 100 %."
Le résultat : Le robot a une intuition initiale, mais cette intuition peut être fausse.

2. Le Toucher : L'Apprentissage par l'Erreur (L'Adaptation en Ligne)

Ensuite, le robot commence à pousser l'objet.

L'analogie : C'est comme quand vous essayez de pousser un meuble lourd. Au début, vous ne savez pas exactement où il va glisser. Mais après avoir poussé un peu, vous sentez la résistance et comprenez : "Ah, il est plus lourd à gauche !". Vous ajustez votre force immédiatement.
Dans le papier : Le robot utilise ses capteurs pour analyser ses propres actions et les réactions de l'objet. Il apprend en temps réel : "Mon intuition visuelle était un peu fausse, je vais corriger ma trajectoire."

3. La Magie : La Fusion "Sceptique" (L'Équilibre)

C'est ici que la vraie innovation se trouve. Le robot ne fait pas confiance aveuglément ni à sa vue, ni à son toucher. Il utilise un système de poids d'incertitude.

L'analogie : Imaginez que vous êtes en mer.
- Votre GPS (la vue/VLM) vous dit : "Tournez à droite".
- Votre boussole (le toucher/interaction) vous dit : "Non, le courant nous pousse à gauche".
- Si le GPS a un signal faible (peu de certitude), vous écoutez la boussole. Si la boussole est perturbée par un orage (peu d'informations de contact), vous écoutez le GPS.
Dans le papier : Le système combine les deux estimations. Si le robot ne touche pas beaucoup l'objet (peu d'infos), il fait plus confiance à l'IA visuelle. S'il touche beaucoup, il fait plus confiance à ses capteurs. Il ajuste sa stratégie en temps réel pour ne jamais être complètement perdu.

🏆 Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont testé cela avec des objets bizarres, comme un bloc en forme de "T" avec un poids caché à l'intérieur (qui change son équilibre) ou un marteau.

Sans Phys2Real (Méthodes classiques) : Le robot échoue souvent. Il pousse trop fort, l'objet tourne mal, ou il ne l'atteint jamais. C'est comme essayer de jouer au billard sans connaître la friction de la table.
Avec Phys2Real :
- Pour le bloc "T" avec le poids en haut (très difficile) : Le taux de réussite passe de 23 % (méthode classique) à 57 %.
- Pour le bloc "T" avec le poids en bas : Le taux de réussite atteint 100 % (contre 79 % pour les autres).
- Pour le marteau : Le robot finit la tâche 15 % plus vite.

🚀 En Résumé

Phys2Real, c'est comme donner au robot un cerveau qui sait observer (comme un humain qui regarde un objet pour deviner son poids) et ressentir (comme un humain qui ajuste sa force en touchant l'objet).

Au lieu d'être un robot rigide qui répète des mouvements appris dans un jeu vidéo, il devient un artisan adaptable qui comprend la physique des objets qu'il manipule, même s'il ne les a jamais vus auparavant. C'est un grand pas vers des robots capables de travailler dans nos maisons, avec nos objets du quotidien, sans avoir besoin d'être reprogrammé à chaque fois.

Each language version is independently generated for its own context, not a direct translation.

Titre : Phys2Real : Fusion des a priori des VLM avec une adaptation en ligne interactive pour une manipulation Sim-to-Real consciente de l'incertitude

1. Problématique

Le déploiement de politiques de manipulation robotique entraînées en simulation vers le monde réel (transfert Sim-to-Real) reste un défi majeur, en particulier pour les tâches nécessitant une dynamique physique précise.

Limites de l'approche actuelle : La méthode dominante, la randomisation de domaine (Domain Randomization - DR), entraîne des politiques robustes à une large gamme de paramètres, mais elles tendent à adopter des comportements "moyens" qui ne s'adaptent pas aux propriétés spécifiques d'un objet donné, limitant ainsi les performances.
Défi de l'adaptation : Les méthodes d'adaptation en ligne (comme RMA - Rapid Motor Adaptation) peuvent estimer les paramètres physiques à partir de l'histoire des interactions, mais elles échouent souvent dans des scénarios de manipulation non préhensile où les contacts sont intermittents, rendant l'histoire des observations peu informative.
Objectif : Combler le fossé entre la simulation et la réalité en permettant au robot d'estimer et de s'adapter aux propriétés physiques spécifiques (ex: centre de masse, friction) d'un objet inconnu, en combinant le raisonnement visuel et l'apprentissage par interaction.

2. Méthodologie

Phys2Real propose un pipeline Réel-to-Sim-to-Réel en trois étapes principales, intégrant des modèles de langage-vision (VLM) et une adaptation basée sur l'interaction via une fusion consciente de l'incertitude.

A. Reconstruction Réel-to-Sim (Jumeaux Numériques Physiquement Informés)

Pour les objets sans maillage connu, le système reconstruit des actifs de simulation haute fidélité à partir de vidéos.
Pipeline : Segmentation de l'objet via SAM-2 $\rightarrow$ Entraînement d'un Gaussian Splatting (GSplat) 3D $\rightarrow$ Extraction d'un maillage centré sur l'objet avec SuGaR (Surface-Aligned Gaussian Splatting) $\rightarrow$ Génération d'un maillage propre et étanche (watertight) par réflexion symétrique et algorithme Marching Cubes.
Cela permet de créer un environnement de simulation géométriquement précis.

B. Apprentissage de la Politique Conditionnée par la Physique
L'entraînement de la politique de Reinforcement Learning (RL) se fait en trois phases inspirées de RMA, mais avec une différence cruciale : la politique est conditionnée sur des paramètres physiques interprétables (ex: coordonnées du centre de masse) plutôt que sur des vecteurs latents appris.

Phase 1 : Entraînement de la politique avec les paramètres physiques "vérités terrain" (privileged) disponibles en simulation.
Phase 1.5 (Optionnelle) : Affinement (fine-tuning) de la politique avec des paramètres bruités pour la rendre robuste aux erreurs d'estimation futures.
Phase 2 : Entraînement d'un ensemble de modèles d'adaptation (M=10) qui prennent l'historique des observations et des actions pour prédire les paramètres physiques.
- Ces modèles quantifient l'incertitude en deux composantes :
  - Épistémique : Variance entre les membres de l'ensemble (désaccord du modèle).
  - Aléatoire : Incertitude intrinsèque aux données (bruit d'observation).

C. Transfert Sim-to-Real avec Fusion Consciente de l'Incertitude
C'est le cœur de l'innovation. Le système fusionne deux sources d'estimation :

A priori du VLM : Un modèle VLM (GPT-5) analyse des images de l'objet pour estimer le paramètre physique (ex: CoM) et son incertitude ( $\sigma_{vlm}$ ) basée sur l'apparence visuelle.
Estimation par Interaction (RMA) : L'ensemble de modèles d'adaptation estime le paramètre à partir de l'histoire des interactions ( $\theta_{rma}, \sigma_{rma}$ ).

Fusion : Les deux estimations sont combinées par pondération inverse de la variance (Inverse-Variance Weighting) :
$\hat{\theta} = \frac{\theta_{vlm}/\sigma_{vlm}^2 + \theta_{rma}/\sigma_{rma}^2}{1/\sigma_{vlm}^2 + 1/\sigma_{rma}^2}$

Logique : Si l'histoire d'interaction est incertaine (contact intermittent), le système s'appuie davantage sur le VLM. Si le VLM est incertain (objet ambigu visuellement), le système s'appuie sur l'interaction.

3. Contributions Clés

Fusion VLM-Interaction : Première application démontrant l'utilisation de VLM pour l'estimation de paramètres physiques destinée à un contrôle en boucle fermée de bas niveau, fusionnée dynamiquement avec l'adaptation en ligne.
Quantification d'incertitude hybride : Décomposition de l'incertitude (épistémique et aléatoire) pour les estimations d'interaction, permettant une fusion robuste avec les a priori visuels, même en l'absence de contact continu.
Jumeaux numériques physiques : Intégration de reconstructions 3D haute fidélité (GSplat) avec des estimations de propriétés physiques pour créer des simulations réalistes.
Conditionnement interprétable : Remplacement des latents appris par des paramètres physiques explicites, facilitant l'intégration directe des connaissances des fondations (VLM).

4. Résultats Expérimentaux

Les expériences ont été menées sur un bras robotique UFactory xArm avec deux tâches de poussée planaire : un bloc en T (avec poids déplaçable) et un marteau.

Bloc en T (Poids en bas - Configuration facile) :
- Phys2Real : 100 % de réussite.
- Randomisation de Domaine (DR) : 79 % de réussite.
- Résultat : Phys2Real atteint les performances d'une politique avec information privilégiée (oracle) sans utiliser cette information.
Bloc en T (Poids en haut - Configuration difficile, dynamique instable) :
- Phys2Real : 57,14 % de réussite.
- DR : 23 % de réussite.
- Politique conditionnée uniquement par VLM : 4,76 % (échec dû à une erreur initiale de ~2 cm).
- Politique conditionnée uniquement par RMA : 14,29 % (échec dû au temps d'adaptation initial).
- Conclusion : La combinaison des deux sources est indispensable.
Poussée de marteau (Objet reconstruit à partir de la réalité) :
- Phys2Real et DR atteignent tous deux 100 % de réussite.
- Efficacité : Phys2Real termine la tâche 15 % plus vite (77,79 s vs 90,65 s) grâce à des trajectoires plus optimisées.
Analyse d'ablation : Les études montrent que ni le VLM seul ni l'adaptation seule ne suffisent pour les tâches complexes. La fusion permet de corriger les biais initiaux du VLM et de compenser le manque d'information initiale de l'adaptation.

5. Signification et Impact

Phys2Real représente un changement de paradigme dans la robotique de manipulation :

Au-delà de la planification haute niveau : Contrairement aux travaux précédents utilisant les VLM pour la planification sémantique, cette méthode intègre les estimations physiques directement dans le contrôle de bas niveau.
Robustesse et Efficacité : Elle permet de dépasser les limitations de la randomisation de domaine (qui sacrifie la performance pour la robustesse) en permettant une adaptation spécifique à l'objet.
Généralisation : La capacité à reconstruire des objets réels en maillages de simulation et à estimer leurs propriétés physiques ouvre la voie à la manipulation d'objets non vus auparavant sans besoin de modèles 3D préexistants.
Futur : Cette approche pose les bases pour des systèmes robotiques plus généraux capables d'apprendre à la fois de la perception visuelle (connaissance sémantique) et de l'interaction physique (ancrage physique), essentiels pour opérer dans des environnements non structurés.