H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un robot de faire le ménage dans votre cuisine, mais pas juste de ramasser une tasse. Vous lui dites : « Range la vaisselle, fais la cuisine, puis mets le couvert pour le dîner ». C'est une tâche longue et complexe.

Si vous donnez cette instruction à un robot standard (ce qu'on appelle un modèle "VLA" dans le jargon), il risque de se perdre. Il va peut-être ramasser la tasse, mais oublier de la laver, ou mettre les couverts avant d'avoir fini la vaisselle. C'est comme si vous donniez un itinéraire à un conducteur qui ne regarde que la route à 5 mètres devant lui : il va finir par faire une erreur de direction au bout de 10 kilomètres.

Voici comment les auteurs de cette paper, H-WM, ont résolu ce problème avec une idée brillante : donner au robot un "double cerveau".

1. Le problème : Le robot qui perd le fil

Les robots actuels sont très forts pour voir et agir immédiatement (comme un chat qui attrape une souris). Mais pour les longues tâches, ils perdent le fil. Ils accumulent des erreurs, un peu comme un jeu de téléphone arabe où le message déformé à la fin ne ressemble plus au début.

2. La solution : Le modèle de monde hiérarchique (H-WM)

Les chercheurs ont créé un système qui fonctionne comme un chef d'orchestre et un chef de chantier travaillant ensemble.

A. Le Chef d'Orchestre (Le Modèle Logique)

Imaginez un chef d'orchestre qui ne touche à aucun instrument. Il ne voit pas les notes, il ne voit pas les musiciens. Il a juste la partition.

Son rôle : Il pense à la structure globale de la tâche. « D'abord, on enlève les couverts sales. Ensuite, on nettoie la table. Enfin, on pose les assiettes propres. »
Comment ça marche : C'est un modèle de langage (une sorte de super-IA textuelle) qui raisonne en logique. Il ne se soucie pas de la couleur de la tasse, mais de l'ordre des actions. Il dit au robot : « Étape 1 : Prends la tasse. »
L'avantage : Il ne se trompe jamais sur l'ordre des choses. Il garde le cap sur le long terme.

B. Le Chef de Chantier (Le Modèle Visuel)

Maintenant, imaginez le chef de chantier qui, lui, voit tout. Il sait exactement à quoi ressemble une tasse propre, où elle doit être posée, et comment la saisir.

Son rôle : Il traduit les ordres abstraits du chef d'orchestre en images mentales concrètes. Quand le chef d'orchestre dit « Nettoie la table », le chef de chantier imagine : « Ok, je dois voir une table vide avec une serviette dessus ».
Comment ça marche : Au lieu de générer une vidéo complète (ce qui est lent et fait des erreurs), ce modèle crée une "image mentale" (un vecteur latent). C'est comme une photo floue mais précise de l'objectif à atteindre.
L'avantage : Il donne au robot une cible visuelle précise pour chaque étape, sans se perdre dans les détails inutiles.

3. La Magie : Comment ils travaillent ensemble ?

C'est là que la magie opère. Le robot ne reçoit pas juste une instruction floue. Il reçoit un guide en deux temps :

Le plan (Logique) : « Tu dois maintenant prendre la tasse. » (C'est le chef d'orchestre qui parle).
La cible visuelle (Visuel) : « Et quand tu l'auras prise, tu dois te retrouver dans cette position précise, avec la tasse dans cette main. » (C'est le chef de chantier qui montre l'image mentale).

Le robot (le musicien) utilise ces deux informations pour agir. Il sait quoi faire (logique) et à quoi cela doit ressembler quand c'est fini (visuel).

Pourquoi est-ce si important ?

Dans les expériences, les robots avec ce système ont réussi des tâches complexes de 7 à 20 étapes, là où les robots classiques échouaient dès la 3ème étape.

Sans H-WM : Le robot essaie de tout faire d'un coup, se trompe, et abandonne. C'est comme essayer de construire une maison en posant tous les briques en même temps sans plan.
Avec H-WM : Le robot construit brique par brique, en vérifiant à chaque fois qu'il est sur la bonne voie grâce à son "chef d'orchestre" et son "chef de chantier".

En résumé

Cette paper propose de ne plus demander au robot de tout deviner d'un coup. Au lieu de cela, on lui donne :

Un plan logique (le "quoi" et le "quand").
Des objectifs visuels (le "à quoi ça ressemble").

C'est comme si on apprenait à un enfant à faire un puzzle non pas en lui disant "fais le puzzle", mais en lui donnant d'abord l'image de la boîte (le but global), puis en lui montrant, pièce par pièce, à quoi doit ressembler la section qu'il est en train de construire. Résultat : le robot devient beaucoup plus fiable, plus intelligent et capable de gérer des tâches longues et complexes sans se perdre.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model » (H-WM : Planification de tâches et de mouvements robotiques guidée par un modèle de monde hiérarchique).

1. Problématique

Les modèles récents Vision-Language-Action (VLA) permettent de mapper directement les observations visuelles et les instructions linguistiques vers des actions robotiques. Cependant, ces approches « bout-en-bout » souffrent de limitations majeures lors de tâches à long horizon (séquences complexes comportant de nombreuses étapes) :

Accumulation d'erreurs : Les petites erreurs d'exécution s'accumulent, rendant la planification globale instable.
Ambiguïté des objectifs : Les spécifications en langage naturel manquent souvent de précision pour les contraintes physiques.
Manque de supervision intermédiaire : Les modèles peinent à maintenir la cohérence entre la perception visuelle brute et la logique symbolique du plan.

Les approches existantes (planificateurs hiérarchiques basés sur les LLM, modèles de monde purement visuels, ou planification classique TAMP) échouent soit à cause d'un manque de cohérence sémantique, soit à cause d'une propagation d'erreurs dans la génération visuelle, soit à cause d'une fragilité face au bruit de perception.

2. Méthodologie : Le Modèle de Monde Hiérarchique (H-WM)

L'article propose H-WM, un cadre unifié qui prédit conjointement les transitions d'états logiques (symboliques) et visuelles pour guider les politiques robotiques. Le système fonctionne à deux résolutions temporelles : une fréquence élevée pour le contrôle bas niveau (VLA) et une fréquence basse pour la planification de sous-tâches.

A. Modèle de Monde Logique (High-Level)

Fonction : Effectue un raisonnement symbolique à long horizon pour prédire les séquences d'actions et les transitions d'états logiques.
Implémentation : Un grand modèle de langage (LLM) finement ajusté (fine-tuned) sur des données d'expériences robotiques annotées. Il apprend la dynamique des transitions symboliques (basées sur PDDL) et génère des explications de type « chaîne de pensée » (Chain-of-Thought).
Rôle : Il agit à la fois comme un modèle de monde (prédiction d'états futurs) et comme une fonction de récompense structurée, assurant la cohérence globale et le respect des contraintes physiques.

B. Modèle de Monde Visuel (Low-Level)

Fonction : Ancrage des états logiques dans l'espace perceptuel en générant des sous-objectifs visuels latents.
Implémentation : Au lieu de générer des images brutes (pixels), ce modèle prédit des caractéristiques latentes compactes ( $f_{pred}$ ) correspondant à l'état visuel de fin de sous-tâche.
Mécanisme : Il utilise un expert de « compréhension » pour encoder l'observation actuelle, l'action logique prévue et l'état logique résultant. Un expert de « prédiction » génère ensuite la caractéristique latente du sous-objectif via un processus de débruitage itératif.
Avantage : La prédiction de caractéristiques latentes évite l'accumulation d'erreurs de génération d'images et fournit une guidance visuelle stable et concise.

C. Intégration avec les modèles VLA

Le modèle VLA guidé (Guided VLA) intègre ces deux niveaux d'information :

Expert de compréhension : Encode l'observation visuelle courante et l'action logique.
Expert de but : Traite la caractéristique latente du sous-objectif prédite par le modèle de monde visuel.
Expert d'action : Utilise une mécanisme d'attention croisée pour fusionner l'information contextuelle (compréhension) et les contraintes de but (sous-objectif visuel) afin de générer des blocs d'actions bas niveau.

3. Contributions Clés

Cadre H-WM : Un modèle de monde hiérarchique alignant les transitions logiques à long terme avec la dynamique visuelle pour une prédiction future cohérente.
Modèle Logique Appris : Un LLM finement ajusté qui internalise les comportements de planification symbolique, offrant une guidance globalement cohérente sans dépendre de domaines PDDL manuellement conçus.
Modèle Visuel Latent : Un générateur de sous-objectifs visuels conditionnés par les états logiques, évitant le bruit de la génération pixel par pixel.
Pipeline d'Intégration : Une méthode systématique pour injecter cette guidance hiérarchique dans les politiques VLA, permettant une exécution physiquement ancrée et robuste.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs benchmarks (LIBERO-10, RoboCerebra, et un nouveau benchmark LIBERO-LoHo avec des tâches allant jusqu'à 7 étapes).

Performance sur tâches longues : H-WM surpasse significativement les modèles de base (comme $\pi_0$ $π_{0}$ , $\pi_{0.5}$ $π_{0.5}$ , OpenVLA) et les approches hiérarchiques basées uniquement sur le langage.
- Sur LIBERO-LoHo, la version H-WM guidant $\pi_{0.5}$ atteint un taux de réussite moyen de 64,8 % (contre 6,4 % pour $\pi_{0.5}$ seul et 26,8 % pour une guidance par LLM pur).
- Le score Q (fraction de sous-objectifs complétés) est également nettement supérieur.
Études d'ablation :
- La guidance purement logique améliore déjà les performances de plus de 40 % par rapport à l'absence de guidance.
- L'ajout de la guidance visuelle latente apporte un gain supplémentaire de 17 % sur le taux de réussite, prouvant l'importance de l'ancrage visuel.
- La génération d'images par pixels (via Stable Diffusion) s'avère moins efficace que la prédiction de caractéristiques latentes, en raison du bruit de reconstruction.
Expérience Réelle : Déployé sur un robot UR5e pour une tâche de nettoyage de table en 8 étapes, H-WM a démontré une capacité supérieure à maintenir la cohérence de la tâche par rapport aux modèles non guidés.

5. Signification et Impact

Cet article marque une avancée significative en robotique en résolvant le compromis entre la robustesse du raisonnement symbolique et la flexibilité de la perception visuelle.

Synergie : Il démontre que la combinaison d'un raisonnement logique global (pour la structure de la tâche) et d'une guidance visuelle latente (pour l'exécution locale) est supérieure aux approches monolithiques.
Généralisation : La méthode permet aux robots d'exécuter des séquences complexes sans erreur d'accumulation, un défi majeur pour l'autonomie robotique.
Limites et Perspectives : Le système introduit une complexité de formation accrue et dépend de représentations logiques structurées. Les travaux futurs visent à améliorer l'efficacité de l'entraînement et à réduire la dépendance aux supervisions logiques explicites.

En résumé, H-WM offre une solution scalable et efficace pour combler le fossé entre la planification symbolique de haut niveau et l'exécution motrice bas niveau, rendant les robots plus capables de gérer des tâches complexes et à long terme.