TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez apprendre à un robot à faire le ménage ou à préparer un pique-nique. Jusqu'à présent, il y avait deux façons principales de faire cela, et toutes les deux avaient de gros défauts.

La première méthode, c'est comme entraîner un chien de garde. Vous lui montrez des milliers d'heures de vidéos de robots qui font exactement la même tâche. Il finit par apprendre par cœur, mais si vous lui demandez de faire quelque chose de légèrement différent (comme ranger des bananes au lieu des pommes), il est perdu. C'est ce qu'on appelle les modèles "VLA" (Vision-Language-Action) comme $\pi0.5$ . C'est puissant, mais ça demande une école de formation énorme et c'est rigide.

La deuxième méthode, c'est comme donner un plan d'architecte très précis. Vous lui donnez les règles de la physique et les dimensions exactes de chaque objet. C'est très logique, mais si vous ne lui donnez pas les dimensions exactes d'un objet inconnu, il ne bouge pas. C'est le "TAMP" (Planification de Tâches et de Mouvements) classique.

TiPToP, c'est la troisième voie. C'est un robot qui a une mémoire de grand-père (il connaît le monde grâce à l'IA) et un cerveau de chef d'orchestre (il planifie ses mouvements).

Voici comment TiPToP fonctionne, expliqué simplement :

1. Le Chef d'Orchestre (Le Système Modulaire)

Au lieu d'entraîner le robot sur des milliers d'heures de vidéos, TiPToP utilise des outils déjà tout faits, comme des pièces de Lego géantes.

Les Yeux (Perception) : Le robot regarde la scène avec des "lunettes magiques" (des modèles d'IA pré-entraînés). Il ne voit pas juste des pixels, il comprend : "Ah, c'est une banane", "C'est un plateau", "Il y a une canette qui bloque le chemin". Il crée une carte 3D de la pièce.
Le Cerveau (Planification) : Une fois qu'il a compris la scène, il utilise un super-calculateur pour imaginer tous les scénarios possibles. "Si je prends la banane ici, est-ce que je vais renverser la canette ? Non ? Parfait. Si oui, je dois d'abord déplacer la canette." Il trace un chemin parfait avant même de bouger un muscle.
Les Mains (Exécution) : Il exécute ce plan avec une précision chirurgicale.

2. L'Analogie du "Cuisinier vs Le Robot de Cuisine"

Imaginez que vous devez préparer un repas complexe : "Prends les biscuits au beurre de cacahuète, mets-les sur le plateau, et enlève la canette de soda qui gêne."

Le Robot classique (VLA) : C'est comme un robot de cuisine qui a vu 350 heures de vidéos de quelqu'un faire exactement ce plat. Si vous changez la marque de biscuits ou si la canette est à un endroit différent, il panique ou fait une erreur. Il a besoin de "répéter" pour apprendre.
TiPToP : C'est comme un cuisinier humain très intelligent.
1. Il regarde le comptoir (Perception).
2. Il lit votre instruction et comprend que "biscuits au beurre de cacahuète" signifie ces paquets précis, même s'il y a d'autres snacks autour (Compréhension sémantique).
3. Il voit que la canette bloque le passage. Il se dit : "Je ne peux pas attraper les biscuits tout de suite. Je dois d'abord déplacer la canette." (Planification logique).
4. Il exécute le plan : il déplace la canette, puis prend les biscuits, puis les pose.

3. Pourquoi c'est révolutionnaire ?

Zéro entraînement : Vous n'avez pas besoin de filmer le robot pendant des jours. Vous installez le logiciel, vous lui montrez la caméra, et c'est parti. C'est comme installer une application sur votre téléphone : ça marche tout de suite.
Il comprend le sens : Si vous dites "mets le plus gros jouet sur l'assiette violette", il comprend ce que signifie "plus gros" et "violette", même s'il n'a jamais vu ce jouet avant.
Il est modulaire : Si demain, quelqu'un invente une meilleure caméra ou un meilleur cerveau d'IA, vous pouvez juste remplacer cette "pièce de Lego" sans devoir réapprendre tout le système au robot.

4. Les petits défauts (Pour être honnête)

Le système n'est pas parfait. Comme un humain qui planifie tout à l'avance sans regarder ses pieds :

S'il attrape un objet glissant (comme une banane) et qu'il tombe, le robot ne le rattrape pas tout de suite. Il a planifié un trajet "en aveugle" (sans boucler la boucle de rétroaction visuelle en temps réel).
Parfois, il se trompe sur la forme d'un objet s'il ne le voit que de face (comme essayer de dessiner une banane en ne voyant qu'un côté).

En résumé

TiPToP, c'est le robot qui réfléchit avant d'agir. Il combine la compréhension du monde (grâce à l'IA moderne) avec la logique rigoureuse d'un planificateur. C'est une étape majeure vers des robots qui peuvent entrer dans n'importe quelle maison, comprendre n'importe quelle instruction en langage naturel, et faire le travail sans avoir besoin d'être "éduqués" spécifiquement pour chaque tâche.

C'est comme passer d'un perroquet qui répète ce qu'il a entendu, à un assistant personnel qui comprend ce que vous voulez et trouve le moyen de le faire.

Each language version is independently generated for its own context, not a direct translation.

Titre : TiPToP : Un système de planification modulaire à vocabulaire ouvert pour la manipulation robotique

1. Problématique

L'objectif de longue date de la robotique est de créer des systèmes de manipulation qui fonctionnent "dès la sortie de la boîte" (out-of-the-box) : capables d'être déployés sur n'importe quel robot, d'exécuter des tâches spécifiées en langage naturel sur des objets arbitraires, sans nécessiter de réglage spécifique à l'objet, à l'environnement ou au corps du robot (embodiment).

Les approches actuelles se divisent en deux catégories principales, chacune ayant des limites :

Les modèles Vision-Language-Action (VLA) (ex: $\pi0.5$ , OpenVLA) : Ils offrent une interface simple (images + langage $\rightarrow$ actions) mais nécessitent d'énormes quantités de données d'entraînement spécifiques à l'embodiment et manquent de généralisation fiable entre différents robots. De plus, leur nature "boîte noire" rend le diagnostic des échecs difficile.
La Planification de Tâches et de Mouvements (TAMP) : Elle offre un cadre structuré pour raisonner sur les séquences d'actions et les contraintes géométriques. Cependant, les systèmes TAMP traditionnels reposent souvent sur des modèles de perception spécifiques, des géométries d'objets connues à l'avance et des piles logicielles étroitement couplées au matériel, ce qui les rend difficiles à déployer et à adapter.

Le défi est donc de concevoir un système qui combine la généralisation des modèles fondationnels (Foundation Models) avec la rigueur et l'interprétabilité de la planification TAMP, tout en étant facile à déployer sans données d'entraînement robotiques.

2. Méthodologie : L'architecture TiPToP

TiPToP (TiPToP is a Planner That just works on Pixels) est un système modulaire qui ne nécessite aucune collecte de données ni entraînement spécifique au robot. Il repose sur trois modules principaux :

A. Module de Perception (Vision 3D et Sémantique)
Ce module transforme une paire d'images stéréo RVB et une instruction en langage naturel en une représentation 3D centrée sur les objets.

Estimation de profondeur : Utilisation de FoundationStereo pour générer des cartes de profondeur denses à partir d'images stéréo, fonctionnant bien même sur des surfaces transparentes ou sans texture.
Génération de prises (Grasps) : Utilisation de M2T2 pour prédire des poses de prise à 6 degrés de liberté (6-DoF) sur le nuage de points complet de la scène.
Reconnaissance sémantique : Utilisation d'un VLM (Vision Language Model, ici Gemini Robotics-ER 1.5) pour détecter les objets, les étiqueter et traduire l'instruction naturelle en un but symbolique (ex: On(cracker, tray)).
Reconstruction : Combinaison des masques de segmentation (SAM-2) et des nuages de points pour reconstruire des maillages convexes par objet, servant de base pour la détection de collisions.

B. Module de Planification (TAMP)
Ce module utilise cuTAMP, un algorithme de planification TAMP accéléré par GPU, pour trouver un plan exécutable.

Énumération de squelettes : Le planificateur génère des séquences d'actions symboliques (ex: déplacer un obstacle, saisir, placer).
Optimisation continue : Pour chaque squelette, cuTAMP optimise simultanément les paramètres continus (poses de prise, poses de placement, configurations du robot) pour satisfaire les contraintes de collision, de stabilité et de cinématique.
Gestion des obstacles : Le système peut générer des plans de longue portée incluant des actions de déplacement d'objets obstruants avant de saisir l'objet cible.

C. Module d'Exécution

Le système exécute la trajectoire planifiée en boucle ouverte (open-loop) à l'aide d'un contrôleur d'impédance articulaire.
Il ne réévalue pas la scène pendant l'exécution (pas de réactivité visuelle en temps réel), ce qui est efficace si la trajectoire est suivie avec précision et que l'environnement est statique.

3. Contributions Clés

Système complet et modulaire : TiPToP est un système de manipulation complet qui peut être installé et déployé sur un robot supporté (avec caméra, préhenseur et URDF) en moins d'une heure, sans entraînement.
Performance sans données robotiques : Le système atteint des performances comparables ou supérieures à $\pi0.5$ -DROID (un modèle VLA entraîné sur 350 heures de démonstrations spécifiques) sur 28 tâches, sans aucune donnée d'entraînement robotique.
Analyse des échecs au niveau des composants : Grâce à son architecture modulaire, il est possible d'isoler les causes d'échec (perception, planification, exécution) et de les corriger indépendamment.
Généralisation inter-embodiments : Le système a été déployé avec succès sur des robots différents (DROID, UR5e, WidowX AI) avec un effort d'adaptation minime.
Extension facile des primitives : La modularité permet d'ajouter facilement de nouvelles compétences (ex: essuyer un tableau blanc) en modifiant uniquement les prédicats sémantiques et les opérateurs de planification, sans toucher à l'infrastructure de perception ou d'exécution.

4. Résultats Expérimentaux

Les évaluations ont été menées sur 165 essais (simulation et réel) et 173 essais supplémentaires pour l'analyse des échecs.

Comparaison avec $\pi0.5$ -DROID :
- Tâches simples : Performances comparables.
- Tâches complexes (avec distracteurs, sémantique, multi-étapes) : TiPToP surpasse nettement le modèle VLA. Par exemple, sur des tâches sémantiques complexes, TiPToP atteint un taux de réussite de 71,3 % contre 46,8 % pour $\pi0.5$ .
- Raisonnement : TiPToP excelle dans le rejet des distracteurs et la compréhension d'instructions complexes (ex: "le plus grand jouet", "trier par couleur") grâce à l'étape explicite de mise en correspondance sémantique (grounding) par le VLM.
Vitesse d'exécution : TiPToP est généralement plus rapide (environ 15s pour des tâches simples en réel) car il planifie une trajectoire optimale unique, tandis que les VLA réactifs passent souvent du temps à essayer, échouer et réessayer.
Analyse des échecs (173 essais) :
- Les échecs de prise (31/55) sont la cause principale (mauvaise approximation de la géométrie ou glissement).
- Les erreurs de complétion de scène (13/55) surviennent lorsque les maillages convexes approximent mal des objets concaves (ex: bananes).
- Les erreurs de VLM (6/55) et de planificateur (5/55) sont moins fréquentes.
- Constat majeur : L'absence de réactivité (boucle ouverte) est la limitation principale, empêchant la récupération après un échec de prise.

5. Signification et Perspectives

Ce travail démontre qu'un système modulaire combinant des modèles fondationnels pré-entraînés (vision, langage, prise) et des algorithmes de planification (TAMP) peut constituer une base robuste pour la manipulation robotique, rivalisant avec des modèles end-to-end massivement entraînés tout en étant plus transparent et adaptable.

Avantages : Pas de besoin de données d'entraînement, interprétabilité des échecs, facilité de déploiement sur de nouveaux robots.
Limitations actuelles : Manque de réactivité (boucle ouverte), sensibilité aux approximations géométriques (convex hull) et aux petits objets.
Futur : Les auteurs suggèrent d'intégrer des politiques apprises (comme des primitives de contrôle réactif) au sein du cadre de planification pour combiner la rigueur du raisonnement géométrique avec la robustesse du contrôle visuomoteur en boucle fermée.

Le code source de TiPToP est publié en open-source pour favoriser la recherche sur les systèmes de manipulation modulaires et l'intégration entre l'apprentissage et la planification.

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

1. Le Chef d'Orchestre (Le Système Modulaire)

2. L'Analogie du "Cuisinier vs Le Robot de Cuisine"

3. Pourquoi c'est révolutionnaire ?

4. Les petits défauts (Pour être honnête)

En résumé

Titre : TiPToP : Un système de planification modulaire à vocabulaire ouvert pour la manipulation robotique

1. Problématique

2. Méthodologie : L'architecture TiPToP

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Perspectives

Articles similaires

Network Slicing in 5G Mobile Communication Architecture, Profit Modeling, and Challenges

Pwned: How Often Are Americans' Online Accounts Breached?

Excess demand in public transportation systems: The case of Pittsburgh's Port Authority

Implicit Biases in Refereeing: Lessons from NBA Referees

BOPIM: Bayesian Optimization for influence maximization on temporal networks