Iterative On-Policy Refinement of Hierarchical Diffusion Policies for Language-Conditioned Manipulation

Le cadre HD-ExpIt améliore les politiques de manipulation hiérarchiques conditionnées par le langage en mettant en œuvre un cycle d'affinement itératif basé sur des retours environnementaux, permettant à un planificateur et à un contrôleur basés sur la diffusion de s'entraîner mutuellement et d'atteindre des performances de pointe sur le benchmark CALVIN.

Clemence Grislain, Olivier Sigaud, Mohamed Chetouani

Publié 2026-03-06
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'apprendre à un robot à cuisiner un grand repas complexe, comme un dîner de Noël, en lui donnant simplement des instructions en français : « Prépare un rôti avec des légumes ».

Le problème, c'est que si vous donnez cette instruction directement aux bras du robot, il risque de paniquer. C'est trop d'informations d'un coup.

C'est là que la méthode HD-ExpIt (décrite dans l'article) intervient. Elle fonctionne comme une équipe de deux personnes très spécialisées : un Chef et un Cuisinier.

Voici comment cela fonctionne, expliqué simplement :

1. Le duo : Le Chef (Planificateur) et le Cuisinier (Contrôleur)

  • Le Chef (Le Planificateur de haut niveau) : Il ne touche pas aux casseroles. Son travail est de regarder l'instruction « Prépare un rôti » et de dessiner un plan visuel. Il imagine les étapes : « D'abord, on prend la viande, ensuite on la met dans le four, puis on coupe les carottes... ». Il crée une série d'images mentales (des sous-objectifs) pour guider le cuisinier.
  • Le Cuisinier (Le contrôleur de bas niveau) : C'est lui qui a les mains dans la pâte. Il reçoit une image de l'étape suivante (par exemple, « la viande dans le four ») et essaie de bouger les bras du robot pour y arriver.

2. Le problème initial : Le Chef rêve trop !

Dans les anciennes méthodes, le Chef apprenait sur de vieux livres de cuisine (des données statiques). Il pouvait imaginer des étapes magnifiques, mais il ne savait pas ce que le Cuisinier était réellement capable de faire.

  • Exemple : Le Chef dit : « Sauter par-dessus la table pour attraper le sel ».
  • Réalité : Le Cuisinier est un robot avec des bras courts. Il ne peut pas sauter. Il échoue.
  • Résultat : Le robot plante, car le Chef a donné des ordres impossibles à exécuter.

3. La solution magique : La boucle d'apprentissage (HD-ExpIt)

Au lieu de se contenter des vieux livres, les auteurs ont créé une méthode où le Chef et le Cuisinier apprennent ensemble en pratiquant, comme un couple de danseurs qui répète jusqu'à ce que tout soit parfait.

Voici le cycle en 3 étapes simples :

  1. L'Essai (La Danse) : Le Chef propose un plan. Le Cuisinier essaie de l'exécuter.
    • Si ça marche : Bravo ! On garde cette séquence.
    • Si ça rate (parce que le plan était trop ambitieux) : On jette cette séquence.
  2. Le Feedback (Le Retour d'expérience) : Le robot essaie plusieurs fois (grâce à la nature « floue » et créative du modèle de diffusion, qui génère plein de variations). Il finit par trouver des façons de réussir que le Chef n'avait jamais imaginées dans les vieux livres.
  3. L'Enseignement (Le Repérage) : On prend toutes ces nouvelles réussites et on les donne au Chef pour qu'il apprenne.
    • Le résultat : Le Chef apprend : « Ah bon ? Le Cuisinier ne peut pas sauter, mais il peut très bien faire une pirouette pour attraper le sel. Je vais donc dessiner des plans avec des pirouettes à l'avenir ! »

4. Pourquoi c'est génial ?

  • Pas de professeur externe : Le robot n'a pas besoin d'un humain pour lui dire « Non, c'est mal ». Il utilise ses propres réussites et échecs pour s'améliorer.
  • Adaptation parfaite : Le Chef finit par connaître exactement les limites et les talents du Cuisinier. Il ne lui donne plus des ordres impossibles, mais des ordres parfaitement adaptés à ses capacités.
  • Résultats record : Sur des tests très difficiles (comme le benchmark CALVIN, où le robot doit faire 5 tâches complexes à la suite), cette méthode a permis au robot de réussir beaucoup plus souvent que n'importe quelle autre méthode précédente.

En résumé

Imaginez que vous apprenez à un enfant à faire du vélo.

  • L'ancienne méthode : Vous lui donnez un manuel de vélo théorique. Il essaie de pédaler, tombe, et vous dites « Relis le chapitre 3 ».
  • La méthode HD-ExpIt : Vous le laissez essayer. Il tombe, il se relève, il trouve un équilibre. Vous observez comment il a réussi à se stabiliser, et vous lui expliquez : « Tiens, la prochaine fois, penche-toi un peu plus à gauche comme tu l'as fait tout à l'heure ».

Le Chef (le planificateur) apprend à dessiner des plans que le Cuisinier (le robot) peut réellement accomplir, grâce à une boucle d'essais-erreurs intelligente. C'est comme ça que le robot passe de « maladroit » à « expert ».