Large-Language-Model-Guided State Estimation for Partially Observable Task and Motion Planning

Each language version is independently generated for its own context, not a direct translation.

🤖 Le Robot "Détective" et son "Grand Livre de Bon Sens"

Imaginez que vous demandez à un robot de faire le ménage dans une maison. Le problème ? La maison est sombre, les meubles sont rangés de manière désordonnée, et le robot ne peut pas voir tous les objets en même temps. C'est comme chercher une clé perdue dans un salon où la lumière est tamisée : vous ne voyez pas tout, et vous devez deviner où elle pourrait être.

C'est le défi que résout ce papier : Comment aider un robot à planifier ses actions quand il ne voit pas tout ?

Les chercheurs (Yoonwoo Kim et son équipe) ont créé un système intelligent appelé CoCo-TAMP. Pour le comprendre, imaginons que le robot a deux modes de pensée :

1. Le problème : Le robot "naïf"

Sans aide, un robot classique est comme un touriste perdu dans une ville inconnue qui ne parle pas la langue. Il doit essayer une porte après l'autre au hasard.

Si le robot cherche un grille-pain, il va fouiller la salle de bain, le garage, la chambre... même si c'est absurde.
Il perd un temps fou à vérifier des endroits où le grille-pain n'est jamais mis.
S'il ne trouve pas l'objet, il doit tout annuler et recommencer son plan (ce qu'on appelle du "replanification"), ce qui est très lent.

2. La solution : Le robot avec un "Grand Livre de Bon Sens"

Les chercheurs ont donné au robot un assistant très spécial : un Grand Modèle de Langage (LLM). C'est une intelligence artificielle entraînée sur tout Internet, qui connaît le monde humain par cœur.

Imaginez que ce LLM est un vieux voisin très bavard qui connaît toutes les habitudes des gens. Il ne fait pas le travail à la place du robot, mais il lui donne des indices :

Indice 1 (L'endroit probable) : "Hé, si tu cherches un grille-pain, il y a 99 % de chances qu'il soit dans la cuisine, pas dans la salle de bain !"
Indice 2 (La co-localisation) : "Si tu vois une boîte de céréales sur la table, il y a de fortes chances qu'il y ait aussi du lait ou du sucre à côté. Par contre, si tu vois un marteau, ne cherche pas de céréales à côté !"

3. Comment ça marche ? (L'analogie du détective)

Le système CoCo-TAMP fonctionne comme un détective privé très organisé :

L'Enquête Initiale (La croyance) : Avant même de bouger, le robot demande au "vieux voisin" (le LLM) : "Où est le plus probable que se trouve l'objet ?". Le robot crée alors une carte mentale où il met plus d'importance aux endroits logiques (la cuisine pour le grille-pain) et moins aux endroits improbables.
L'Investigation (La recherche) : Le robot va d'abord vérifier les endroits les plus probables. S'il ne trouve pas l'objet, il ne panique pas. Il utilise la logique du voisin : "Ah, j'ai vu une cafetière ici. Donc, le sucre est probablement aussi ici."
La Mise à Jour (L'apprentissage) : À chaque fois que le robot regarde quelque chose, il met à jour sa carte mentale. Si le robot voit un interrupteur dans le salon, le système sait (grâce au LLM) que les autres interrupteurs sont probablement dispersés dans toute la maison, et non pas tous regroupés dans le salon. Il ajuste donc sa stratégie pour ne pas chercher partout dans le salon.

4. Les Résultats : Gagner du temps et de l'énergie

Dans leurs expériences (simulées sur ordinateur et testés sur un vrai robot Toyota), les chercheurs ont comparé :

Le robot sans aide : Il cherche au hasard, se trompe souvent, et doit recommencer son plan des dizaines de fois.
Le robot avec CoCo-TAMP : Il utilise le "bon sens" pour viser juste.

Le résultat est bluffant :

Le robot intelligent a été 63 % plus rapide dans les simulations.
Dans le monde réel, il a été 72 % plus rapide.
Il a fait beaucoup moins d'erreurs et a eu besoin de beaucoup moins de "remises en question" de son plan.

En résumé

Ce papier nous dit que pour que les robots soient vraiment utiles dans nos maisons, ils ne doivent pas seulement être de puissants calculateurs, mais aussi avoir du bon sens.

En utilisant l'intelligence artificielle (les LLM) comme un guide de confiance qui connaît les habitudes humaines, on permet aux robots de deviner intelligemment où chercher, plutôt que de fouiller tout au hasard. C'est la différence entre chercher une aiguille dans une botte de foin en la retournant pièce par pièce, et demander à quelqu'un qui connaît la ferme : "Elle est tombée près du seau, regarde là !"

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "Large-Language-Model-Guided State Estimation for Partially Observable Task and Motion Planning", présentant la problématique, la méthodologie, les contributions, les résultats et la signification de ce travail.

1. Problématique : Planification TAMP Partiellement Observable (PO-TAMP)

Les robots effectuant des tâches de manipulation à long terme doivent raisonner simultanément sur des décisions discrètes (quels objets manipuler) et des mouvements continus (navigation, saisie). La Planification de Tâche et de Mouvement (TAMP) est l'approche standard pour ces problèmes. Cependant, dans des environnements réalistes, les robots font face à l'incertitude due à l'occlusion et à la visibilité partielle des objets.

Le problème central abordé est le PO-TAMP (Partially Observable TAMP) :

Le robot ne connaît pas la position exacte de tous les objets pertinents.
Les planificateurs déterministes échouent souvent car ils ne peuvent pas gérer l'incertitude de manière efficace.
Pendant l'exécution, le robot peut découvrir des objets non pertinents pour la tâche, mais ignore souvent les indices contextuels (comme la co-localisation d'objets similaires) que les planificateurs naïfs ne savent pas exploiter.
L'objectif est d'estimer l'état des objets (localisation sémantique et pose) sous incertitude pour guider la recherche de plan de manière efficace.

2. Méthodologie : Le Framework CoCo-TAMP

Les auteurs proposent CoCo-TAMP, un cadre de planification et d'exécution hiérarchique qui intègre les Modèles de Langage (LLM) pour fournir des connaissances de bon sens (common-sense) afin de façonner les croyances (beliefs) du robot.

A. Intégration des connaissances via LLM

Le système exploite deux types de connaissances de bon sens fournies par les LLM :

Préférences de localisation : Certains objets sont plus susceptibles d'être trouvés dans des lieux spécifiques (ex: un grille-pain dans la cuisine).
Co-localisation sémantique : Des objets similaires ont tendance à être stockés ensemble, tandis que des objets dissimilaires sont moins susceptibles d'être trouvés au même endroit.

B. Génération de croyances initiales (Initial Belief Generation)

Au lieu d'initialiser les croyances de manière uniforme, CoCo-TAMP utilise un LLM pour générer des priors sur les emplacements sémantiques (pièces et surfaces) :

Le problème est formulé comme une tâche de Questionnaire à Choix Multiples (MCQA).
Le LLM reçoit une description d'objet et une liste de pièces/surfaces possibles.
Les probabilités sont dérivées des scores de log-probabilité (logits) du modèle de langage pour chaque option, créant ainsi une distribution de probabilité initiale informée.

C. Estimation d'état hiérarchique et Filtre Bayésien

Le système maintient une croyance hiérarchique sur trois niveaux : la pièce ( $x_r$ ), la surface ( $x_s$ ) et la pose continue ( $x_p$ ).

Filtre Bayésien Hiérarchique :
- Les croyances sur les pièces et les surfaces sont mises à jour via des filtres Bayésiens discrets.
- La croyance sur la pose est mise à jour via un filtre à particules.
Modèle d'observation sensible à la visibilité : Le système calcule un taux de visibilité ( $v$ ) basé sur la couverture du champ de vue du robot. Si une observation échoue dans une zone partiellement visible, cela ne signifie pas nécessairement que l'objet est absent (évitant les faux négatifs).
Modèle de Co-localisation :
- Le système utilise des embeddings générés par LLM pour calculer la similarité sémantique entre les objets (via la similarité cosinus).
- Si un objet $j$ est observé dans une pièce, la croyance que l'objet $k$ (similaire) se trouve dans la même pièce augmente. Inversement, pour des objets dissimilaires, la croyance diminue.
- Un "co-location toggler" (commutateur) basé sur le LLM désactive ce modèle si la sémantique de l'objet suggère une dispersion large (ex: des interrupteurs électriques sont partout).

D. Boucle de Planification et Exécution

CoCo-TAMP s'intègre avec un planificateur TAMP existant (PDDLStream) :

Le planificateur génère un plan basé sur les croyances actuelles.
Le robot exécute les actions, y compris des actions d'observation (detect).
Le coût de l'action d'observation est inversément proportionnel à la probabilité de détection (guidé par les croyances).
Si l'exécution échoue ou si de nouvelles observations sont faites, les croyances sont mises à jour (via le filtre Bayésien et le modèle de co-localisation) et le planificateur replanifie.

3. Contributions Clés

Cadre Interleaved (Entrelacé) PO-TAMP : Proposition d'un système qui alterne planification et exécution en utilisant les LLM non pas comme planificateurs directs (ce qui est peu fiable), mais comme sources de priors de bon sens et de modèles de co-localisation.
Estimation d'état guidée par LLM : Développement d'un filtre Bayésien hiérarchique qui intègre dynamiquement les connaissances sémantiques (localisation préférentielle et similarité d'objets) pour affiner les croyances sur la position des objets.
Validation Expérimentale Robuste : Démonstration de l'efficacité du système à la fois dans des simulations à grande échelle et sur un robot physique réel (Toyota HSR), prouvant que l'approche reste robuste même lorsque les priors de bon sens sont trompeurs (environnements adverses).

4. Résultats Expérimentaux

Les expériences ont été menées sur des environnements ménagers simulés (dataset Housekeep) et sur un robot réel.

Réduction du temps : Par rapport à une ligne de base (sans connaissances de bon sens), CoCo-TAMP a réduit le temps cumulé de planification et d'exécution de :
- 62,7 % en simulation.
- 72,6 % dans les démonstrations réelles.
Réduction des replanifications : Le nombre d'itérations de replanification nécessaires pour réussir la tâche a considérablement diminué, indiquant une meilleure efficacité de la recherche de plan.
Comparaison des variantes :
- La combinaison de l'initialisation par LLM (MCQA) et du modèle de co-localisation a été la méthode la plus performante.
- L'utilisation exclusive de mises à jour de croyances par LLM (sans filtre Bayésien) s'est révélée moins robuste et a conduit à plus d'échecs dans des configurations adverses.
Robustesse : Le système a maintenu sa performance même lorsque les placements d'objets étaient aléatoires pour perturber les régularités de bon sens, contrairement aux méthodes purement basées sur les LLM qui ont échoué.

5. Signification et Impact

Ce travail marque une avancée significative dans le domaine de la robotique autonome en partiellement observable :

Synergie IA Symbolique / Subsymbolique : Il démontre comment combiner la puissance de raisonnement sémantique des LLM avec la rigueur mathématique des filtres Bayésiens et de la planification TAMP.
Efficacité Opérationnelle : En réduisant drastiquement le temps de calcul et le nombre d'essais nécessaires, CoCo-TAMP rend la manipulation robotique à long terme plus viable pour des applications réelles où le temps et l'énergie sont critiques.
Généralisation : L'approche suggère que les connaissances de bon sens, autrefois difficiles à coder manuellement, peuvent être extraites et intégrées de manière structurée pour améliorer l'autonomie des robots dans des environnements domestiques complexes.

En résumé, CoCo-TAMP transforme les LLM en "assistants de raisonnement" qui guident l'estimation d'état, permettant aux robots de mieux naviguer dans l'incertitude et d'accomplir des tâches complexes avec moins d'erreurs et de temps.