Open-World Task and Motion Planning via Vision-Language Model Genereated Constraints

Each language version is independently generated for its own context, not a direct translation.

🤖 OWL-TAMP : Le Robot qui comprend le "Pourquoi" et le "Comment"

Imaginez que vous demandez à un robot de cuisine : "Range la banane près des autres fruits."

Pour un humain, c'est simple. Mais pour un robot, c'est un casse-tête complexe qui demande deux types de réflexion :

Le "Quoi" et l'Ordre (Le Chef de Cuisine) : Il faut savoir quoi faire (prendre la banane, déplacer le carton de lait qui bloque le chemin, poser la banane).
Le "Comment" Précis (Le Moteur) : Il faut savoir exactement où mettre la main, sous quel angle, sans renverser le lait ou écraser la banane.

Le problème, c'est que les robots actuels sont soit de bons chefs (ils comprennent les ordres), soit de bons moteurs (ils calculent les trajectoires), mais rarement les deux en même temps, surtout dans des situations nouvelles.

C'est là qu'intervient OWL-TAMP, une nouvelle méthode proposée par des chercheurs de NVIDIA et du MIT.

🧩 Le Problème : Deux mondes qui ne se parlent pas

Pour comprendre l'innovation, imaginons deux personnages :

Le Visionnaire (VLM - Modèle de Langage-Vision) : C'est comme un grand chef cuisinier très créatif qui a lu tous les livres de cuisine. Il comprend parfaitement la phrase "Range la banane près des pommes". Il a du bon sens.
- Son défaut : Il est un peu "dans les nuages". Il ne sait pas calculer les mathématiques complexes pour éviter de percuter un mur avec son bras. Il peut dire "mets la banane ici", mais il ne sait pas si c'est physiquement possible sans renverser le lait.
L'Ingénieur (TAMP - Planification de Tâches et Mouvements) : C'est un robot très rigoureux et logique. Il sait calculer des trajectoires parfaites pour ne jamais toucher un obstacle.
- Son défaut : Il est très rigide. Il ne comprend que ce qu'on lui a programmé à la lettre. Si vous lui dites "mets la banane près des pommes", il panique car il ne connaît pas le mot "près" dans son dictionnaire de programmation. Il ne sait pas faire ce qu'on ne lui a pas explicitement appris.

L'ancien problème : On utilisait soit l'un, soit l'autre. Soit le robot comprenait l'ordre mais échouait à l'exécuter (il renversait tout), soit il savait exécuter mais ne comprenait pas les ordres complexes.

💡 La Solution : OWL-TAMP, le Traducteur Magique

Les chercheurs ont créé OWL-TAMP (Open-World Language-based TAMP). C'est comme un chef d'orchestre qui fait travailler ensemble le Visionnaire et l'Ingénieur.

Voici comment ça marche, étape par étape, avec une analogie de construction :

1. Le Visionnaire dessine le plan (Les contraintes discrètes)

Quand vous donnez l'ordre "Range la banane près des fruits", le Visionnaire (le grand chef) ne donne pas juste une phrase. Il dessine un croquis de plan :

"D'abord, il faut déplacer le carton de lait."
"Ensuite, prendre la banane."
"Enfin, la poser près des pommes et des poires."

Il transforme votre phrase naturelle en une liste d'étapes logiques.

2. Le Visionnaire écrit le code de sécurité (Les contraintes continues)

C'est ici que la magie opère. Le Visionnaire ne se contente pas de dire "près". Il écrit un petit programme informatique (du code Python) qui définit ce que "près" signifie physiquement.

Le code dit : "La banane doit être posée à moins de 5 centimètres de la pomme ET de la poire."
Cela transforme un mot flou ("près") en une règle mathématique précise que le robot peut comprendre.

3. L'Ingénieur exécute le plan

Maintenant, l'Ingénieur (le robot rigoureux) reçoit deux choses :

La liste des étapes (déplacer le lait, prendre la banane...).
Le code de sécurité (la banane doit être à moins de 5 cm des autres fruits).

L'Ingénieur utilise sa puissance de calcul pour trouver la trajectoire parfaite qui respecte à la fois les étapes du plan et les règles de sécurité écrites par le Visionnaire. Si le carton de lait bloque le chemin, l'Ingénieur le voit, le déplace, et continue.

🌍 Pourquoi c'est révolutionnaire ?

Avant, si vous vouliez que le robot fasse quelque chose de nouveau (comme "mets l'objet le plus court dans la poubelle"), il fallait programmer des mois de travail pour lui apprendre ce que "court" signifie et comment le mesurer.

Avec OWL-TAMP :

Vous parlez au robot comme à un humain.
Le robot utilise son "cerveau" (le modèle de langage) pour comprendre le contexte et inventer les règles du jeu sur le moment.
Il utilise son "corps" (le planificateur) pour exécuter ces règles avec une précision chirurgicale.

🏆 Les Résultats

Les chercheurs ont testé cela sur des robots réels et en simulation.

Résultat : Le robot a réussi à accomplir des tâches complexes et imprévues (comme réorganiser des fruits, verser de la soupe, ou ranger des couverts) avec un taux de réussite bien supérieur aux anciennes méthodes.
L'astuce : Le robot a même réussi à déplacer un carton de lait pour atteindre une banane cachée, exactement comme un humain le ferait, en comprenant que "près" ne signifie pas "n'importe où", mais "à côté de".

En résumé

OWL-TAMP, c'est comme donner à un robot un cerveau créatif (pour comprendre vos ordres et imaginer les solutions) et un corps discipliné (pour exécuter ces solutions sans rien casser). C'est le premier pas vers des robots qui peuvent vraiment vivre avec nous dans un monde désordonné et imprévisible, en comprenant non seulement ce qu'il faut faire, mais aussi comment le faire avec bon sens.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La robotique de manipulation fait face à un défi fondamental : résoudre des tâches complexes à long horizon spécifiées en langage naturel dans des environnements non structurés ("monde ouvert").

Limites des modèles Fondation (VLM/LLM) : Les modèles Vision-Language (VLM) excellent dans la compréhension sémantique et le raisonnement de bon sens (ex: comprendre "ranger les couverts"). Cependant, ils échouent souvent à raisonner sur des paramètres continus précis (géométrie, trajectoires sans collision, poses de préhension stables) et peinent à planifier des séquences d'actions longues et structurées sans fine-tuning spécifique.
Limites des systèmes TAMP classiques : Les systèmes de Planification de Tâches et de Mouvement (TAMP) sont robustes pour gérer le raisonnement discret-continu et les contraintes géométriques (cinématique, collisions). Cependant, ils reposent sur des modèles d'environnement et des vocabulaires symboliques prédéfinis (prédicats fixes comme "sur", "dans"). Ils ne peuvent pas interpréter de nouveaux concepts linguistiques (ex: "près de", "orienté droit") sans ingénierie manuelle coûteuse ou invention de prédicats.

Le problème central est donc de combiner la flexibilité sémantique des VLM avec la rigueur géométrique et la capacité de recherche des systèmes TAMP, permettant ainsi de résoudre des tâches décrites en langage naturel sans nécessiter de modèles prédéfinis pour chaque nouveau concept.

2. Méthodologie : OWL-TAMP

Les auteurs proposent OWL-TAMP (Open-World Language-based TAMP), une architecture qui intègre les VLM dans un pipeline TAMP existant via la génération dynamique de contraintes. L'approche repose sur trois étapes clés :

A. Actions et Prédicats "Open-World"

L'approche étend les actions TAMP traditionnelles en y ajoutant un argument de description linguistique ( $d$ ).

Actions Open-World : Une action (ex: detach) prend en entrée une description naturelle (ex: "place la banane près de la pomme"). Cette description contraint l'espace des paramètres continus valides.
Prédicats Open-World : Au lieu d'utiliser des classificateurs fixes, le système utilise des prédicats dont le comportement est généré dynamiquement. Un VLM produit une fonction de classification (sous forme de code Python) qui évalue si une configuration continue satisfait la description linguistique.

B. Pipeline en Trois Étapes

Génération de contraintes discrètes (Plan Sketch) :
- Le VLM reçoit l'image initiale, la tâche en langage naturel et la liste des actions disponibles (ancrées).
- Il génère un "croquis de plan" (plan sketch) : une séquence partielle d'actions avec des arguments discrets et des descriptions linguistiques.
- Ce croquis est traité comme une contrainte d'ordre : le planificateur TAMP doit trouver une séquence complète qui contient ce croquis comme sous-séquence, en insérant des actions supplémentaires si nécessaire (ex: déplacer un obstacle avant de saisir un objet).
Ancrage des prédicats (Génération de contraintes continues) :
- Pour chaque prédicat open-world dans le croquis, le VLM génère une fonction Python (contrainte continue).
- Cette fonction utilise des fonctions utilitaires (ex: calcul de boîtes englobantes, vérification de collisions) pour vérifier si une pose candidate satisfait la condition linguistique (ex: "la pose est-elle à moins de 5cm de la pomme ?").
- Ces fonctions sont injectées dans le solveur TAMP comme contraintes supplémentaires à satisfaire.
Résolution par le Planificateur TAMP :
- Un solveur TAMP standard (ex: PDDLStream ou SeSaME) effectue une recherche hybride (discret-continu).
- Il explore les séquences d'actions, en respectant les contraintes d'ordre du croquis et en échantillonnant des paramètres continus qui satisfont à la fois les contraintes robotiques classiques (cinématique, collisions) et les contraintes générées par le VLM.
- En cas d'échec (ex: pas de prise possible à cause d'un obstacle), le système effectue un backtracking pour modifier la séquence d'actions (ex: déplacer l'obstacle d'abord).

3. Contributions Clés

Intégration Contrainte VLM-TAMP : Proposition d'un "contrat" clair où le VLM ne génère pas directement le plan exécutable, mais génère des contraintes (discrètes et continues) qui guident un planificateur TAMP générique. Cela permet une généralisation zero-shot à diverses tâches.
Génération de Code pour Contraintes Continues : Utilisation du VLM pour écrire du code Python dynamique qui traduit des concepts linguistiques abstraits ("près de", "orienté") en contraintes géométriques vérifiables.
Preuve de Concept sur Matériel Réel : Déploiement réussi du système sur un robot physique (bras Kinova Gen3) pour résoudre 19 tâches complexes en langage naturel, démontrant la robustesse de l'approche au-delà de la simulation.
Performance Supérieure : Démonstration que cette approche surpasse les méthodes purement basées sur VLM (Code as Policies) et les approches TAMP pures (sans VLM) sur des tâches à long horizon nécessitant un raisonnement spatial et sémantique combiné.

4. Résultats Expérimentaux

Les expériences ont été menées sur 10 tâches de manipulation dans l'environnement simulé RAVENS-YCB et sur un robot réel.

Taux de réussite : OWL-TAMP a obtenu le taux de réussite le plus élevé sur 9 tâches sur 10, atteignant une moyenne globale de 92%.
- Les méthodes basées uniquement sur VLM (CaP) ou TAMP pur ont échoué sur des tâches complexes nécessitant de déplacer des obstacles ou de respecter des contraintes géométriques subtiles.
- Les ablations (suppression des contraintes discrètes ou continues) ont montré que les deux types de contraintes sont essentiels pour la réussite.
Exactitude (Soundness) : OWL-TAMP a un taux de "faux positifs" extrêmement faible (< 2%). Contrairement aux méthodes qui déclarent souvent la réussite même si la tâche n'est pas correctement accomplie (ex: placer un objet à côté mais pas "près" comme demandé), OWL-TAMP vérifie rigoureusement les contraintes générées.
Déploiement Réel : Le système a réussi à exécuter toutes les 19 tâches sur le robot réel, y compris des tâches complexes comme "ranger les couverts orientés vers l'avant" ou "peser l'objet le plus court". Les échecs observés étaient principalement dus à des contraintes continues générées incorrectes par le VLM (ex: demander une pose impossible) ou à des limitations de la perception réelle, et non à une défaillance du planificateur.

5. Signification et Impact

Ce travail représente une avancée significative vers des robots capables de fonctionner dans des environnements ouverts et non structurés :

Dépassement du "Closed-World" : Il permet aux systèmes robotiques de comprendre et d'exécuter des instructions pour des concepts qui n'ont jamais été explicitement codés dans leur base de connaissances symbolique.
Synergie Complémentaire : Il démontre que les modèles de fondation (VLM) ne doivent pas remplacer les planificateurs classiques, mais les enrichir. Le VLM agit comme un "traducteur sémantique" qui convertit l'intention humaine en contraintes mathématiques rigoureuses.
Généralisation Zero-Shot : L'approche ne nécessite ni apprentissage par renforcement, ni fine-tuning sur des données spécifiques à la tâche, ni démonstrations humaines pour chaque nouvelle instruction.
Futur de la Robotique : En combinant la flexibilité du langage naturel avec la sécurité et la précision des planificateurs TAMP, OWL-TAMP ouvre la voie à des assistants robotiques domestiques ou industriels capables de suivre des instructions complexes et changeantes sans reconfiguration logicielle majeure.

En résumé, OWL-TAMP résout le problème de l'ancrage sémantique en utilisant les VLM pour générer dynamiquement les règles du jeu (contraintes) que le planificateur robotique doit respecter, permettant ainsi une manipulation robotique véritablement ouverte et adaptative.