Model Space Reasoning as Search in Feedback Space for Planning Domain Generation

Each language version is independently generated for its own context, not a direct translation.

🌍 Le Défi : Donner des ordres à un robot qui ne comprend pas le "vrai monde"

Imaginez que vous voulez construire une maison. Vous avez une idée très claire dans votre tête (la description naturelle), mais vous devez la transmettre à un architecte robotique (l'IA) qui ne parle que le langage technique des plans (le code PDDL).

Le problème, c'est que même les meilleurs architectes IA (les grands modèles de langage) font souvent des erreurs. Ils peuvent dessiner un plan qui a l'air beau, mais qui est impossible à construire : les murs sont trop loin, la porte est bloquée, ou les fondations ne tiennent pas.

Ce papier de recherche pose une question simple : Comment aider l'IA à corriger ses propres plans sans avoir besoin d'un humain expert pour tout vérifier ?

🛠️ La Solution : L'atelier de réparation avec "l'œil du critique"

Les auteurs proposent une méthode intelligente où l'IA ne se contente pas de dessiner une fois et d'espérer. Au lieu de cela, elle utilise un système de boucle de rétroaction (feedback), un peu comme un chef cuisinier qui goûte son plat et le réajuste.

Voici les trois ingrédients magiques de leur recette :

1. Le "Guide des Étoiles" (Les Repères ou Landmarks)

Imaginez que vous devez traverser une forêt pour arriver à un château. Vous savez qu'il y a trois étapes obligatoires pour réussir : passer le pont, traverser la rivière, et franchir la porte. Ce sont vos repères.

Dans le papier : L'IA génère un plan. Le système vérifie : "Est-ce que ce plan passe bien par le pont ?" Si non, il dit à l'IA : "Hé, tu as oublié le pont ! Tu dois y passer."
L'analogie : C'est comme si un ami vous disait : "Tu as oublié de mettre du sel dans ta soupe" sans avoir besoin de goûter toute la soupe. C'est un indice rapide et précis.

2. Le "Testeur de Vérité" (La Validation de Plan)

Imaginez que vous avez un robot qui essaie de suivre vos instructions à l'aveugle.

Dans le papier : Le système prend le plan généré par l'IA et le fait "jouer" dans un simulateur. Si le robot tombe dans un trou ou ne peut pas atteindre le but, le système renvoie un message d'erreur précis : "Tu as essayé d'ouvrir la porte alors qu'elle était fermée."
L'analogie : C'est comme un testeur de jeu vidéo qui essaie de casser le niveau que vous avez créé. S'il trouve un bug, il vous envoie le rapport.

3. Le "Détective de l'Optimisation" (La Recherche Heuristique)

C'est ici que ça devient vraiment intelligent. Au lieu de donner un seul indice au hasard à l'IA, le système agit comme un détective qui explore plusieurs pistes.

Le problème : Parfois, l'IA reçoit trop d'indices contradictoires et se perd.
La solution : Le système imagine plusieurs versions du plan. Il teste : "Si je lui donne l'indice A, ça marche mieux ? Et si je lui donne l'indice B ?" Il choisit ensuite la meilleure piste pour demander à l'IA de réessayer. C'est comme un joueur d'échecs qui regarde plusieurs coups à l'avance pour choisir le meilleur.

🧪 Les Résultats : Une cuisine qui s'améliore

Les chercheurs ont testé cette méthode sur plein de scénarios différents, du très simple (empiler des blocs) au très complexe (un jeu de Pac-Man ou une randonnée).

Sans aide : L'IA fait des plans souvent incomplets ou erronés (comme un cuisinier qui oublie les ingrédients).
Avec les repères et le testeur : La qualité des plans explose. L'IA apprend de ses erreurs.
Le résultat phare : Avec leur meilleure méthode (l'IA + les repères + le testeur + le détective), ils ont réussi à créer des plans parfaits (100% corrects) pour presque tous les scénarios testés, même ceux que l'IA n'avait jamais vus avant.

💡 Pourquoi c'est important ?

Avant, pour avoir un bon plan d'action pour un robot, il fallait un expert humain qui passait des heures à corriger le code.
Grâce à cette méthode, n'importe qui peut décrire un problème en langage courant, et le système s'occupe de transformer cette idée en un plan d'action mathématique parfait, en se corrigeant tout seul grâce à ses "critiques" automatiques.

C'est comme passer d'un apprenti qui a besoin qu'on lui tienne la main, à un chef cuisinier autonome qui sait goûter, corriger et perfectionner son plat avant de le servir.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La génération automatique de domaines de planification (modèles formels décrivant les actions, les objets et les contraintes) à partir de descriptions en langage naturel reste un défi majeur, même avec l'avènement des grands modèles de langage (LLM). Bien que les LLM puissent produire des modèles syntaxiquement corrects, ils souffrent souvent de défauts sémantiques qui empêchent leur déploiement pratique.

Les approches existantes utilisent souvent des boucles de rétroaction (feedback) itératives, mais elles présentent plusieurs limites :

Elles se reposent souvent sur un seul type de rétroaction (ex: validation de plans).
Elles peuvent générer des erreurs cumulatives en produisant simultanément des problèmes et des plans, pas seulement le domaine.
Elles sont souvent évaluées sur des benchmarks limités à quelques domaines classiques, ce qui pose des problèmes de généralisation.

L'objectif de ce travail est d'améliorer la qualité des domaines générés en utilisant un cadre de rétroaction par agent enrichi d'informations symboliques minimales, et en explorant systématiquement l'espace des messages de rétroaction via une recherche heuristique.

2. Méthodologie

Les auteurs proposent un pipeline en deux phases : construction initiale et affinement itératif.

A. Construction Initiale

Le système prend une description en langage naturel ( $D_{NL}$ ) structurée en trois parties : une description globale, des définitions de prédicats et des descriptions d'actions. Un LLM génère les actions une par une, en vérifiant la validité syntaxique (via un parseur PDDL) avant de les intégrer au domaine $D'$ .

B. Évaluation de la Qualité (HDE)

Pour éviter l'évaluation humaine, les auteurs utilisent une mesure automatisée appelée Heuristic Domain Equivalence (HDE).

Elle compare le domaine généré $D'$ à un domaine de vérité terrain $D$ (manuellement construit).
Elle utilise un ensemble de problèmes d'évaluation et de plans correspondants.
Le score HDE mesure la réciprocité : combien de plans du domaine de vérité sont valides dans $D'$ (sens avant) et combien de plans générés dans $D'$ sont valides dans le domaine de vérité (sens arrière).

C. Mécanismes de Rétroaction (Feedback)

Le cœur de la méthodologie réside dans l'utilisation de deux sources de rétroaction symbolique pour corriger $D'$ :

Rétroaction par Validation de Plan (Plan Feedback) : Utilisation de l'outil VAL. Des plans valides du domaine de vérité sont exécutés sur $D'$ . Si un plan échoue, VAL génère un message d'erreur indiquant si une précondition est manquante ou si un effet est incorrect.
Rétroaction par Points de Repère (Landmark Feedback) : Utilisation d'outils comme forbiditerative pour extraire des landmarks (faits ou actions disjonctives qui doivent nécessairement apparaître dans tout plan valide). Si un plan généré par $D'$ ne respecte pas un landmark, un message de rétroaction est généré.

D. Recherche dans l'Espace de Rétroaction

Au lieu de simplement appliquer une rétroaction aléatoire, les auteurs proposent de traiter la génération de domaines comme un problème de recherche dans l'espace des modèles.

Ils construisent un arbre où chaque nœud est un domaine $D'$ .
Les enfants d'un nœud sont générés en appliquant différents messages de rétroaction.
Une recherche heuristique (Best-First Search) est utilisée pour sélectionner les messages de rétroaction les plus prometteurs (basés sur le nombre de plans invalides et la profondeur de l'arbre) afin d'optimiser la qualité du domaine.

3. Contributions Clés

Cadre de Réflexion par Recherche : Transformation du problème de génération de domaines en une recherche heuristique dans l'espace des messages de rétroaction, permettant de naviguer intelligemment parmi les corrections possibles.
Combinaison de Rétroactions Symboliques : Introduction et évaluation combinée de deux types de rétroaction puissants : la validation de plans (VAL) et les landmarks, offrant une vue plus complète des erreurs sémantiques.
Évaluation Automatisée Robuste : Utilisation de la métrique HDE sur des domaines novateurs (non présents dans les données d'entraînement des LLM), prouvant la capacité de généralisation du système.
Pipeline Complet : Une méthode qui garantit la validité syntaxique tout en itérant sur la sémantique, sans dépendre d'évaluateurs humains.

4. Résultats Expérimentaux

Les expériences ont été menées sur un ensemble de données varié incluant des domaines classiques (Blocks, Miconic) et des domaines obscurs ou nouveaux (Hiking, Pacman). Trois modèles de langage ont été testés (gpt-5-nano, gpt-5-mini, deepseek-chat).

Impact du Feedback : La rétroaction améliore significativement la qualité des domaines par rapport à la ligne de base "sans feedback" (N).
Performance des Modèles : Le modèle gpt-5-mini combiné avec la recherche heuristique sur les deux types de rétroaction (LVS : Landmark + Plan + Search) a atteint un score HDE de 100% au moins une fois pour chaque domaine testé.
Comparaison des Stratégies :
- La recherche systématique (Search) surpasse généralement la sélection aléatoire (Random Walk), bien que des exceptions existent (ex: sur le domaine "flow" ou "hiking" avec certains modèles, la recherche a parfois réduit le score moyen par rapport au hasard, suggérant une sensibilité aux hyperparamètres).
- La combinaison des deux types de rétroaction (LVS) tend à être la plus performante, bien que dans certains cas, une seule source de rétroaction soit suffisante.
Efficacité des Landmarks : La rétroaction par landmarks s'est révélée aussi efficace, voire plus, que la validation de plans détaillée, ce qui est crucial pour la simplicité et l'accessibilité.

5. Signification et Perspectives

Ce travail démontre que l'intégration de mécanismes de rétroaction symbolique (landmarks, validation de plans) couplée à une recherche heuristique permet de surmonter les limitations actuelles des LLM dans la génération de modèles de planification complexes.

Accessibilité : La capacité à obtenir des domaines corrects avec des feedbacks simples (landmarks) rend la génération de PDDL accessible à des non-experts.
Généralisation : La réussite sur des domaines jamais vus par les LLM prouve que la méthode ne repose pas sur le "mémorisation" mais sur une véritable compréhension et correction sémantique.
Futur : Les auteurs prévoient d'explorer d'autres types de rétroaction (invariants), d'adapter les stratégies de recherche pour des espaces de branches plus larges, et de valider l'approche via des études utilisateurs avec des non-experts dans des scénarios réels.

En résumé, cette recherche établit un nouveau standard pour la génération automatique de domaines de planification, passant d'une approche purement générative à une approche réactive et guidée par la recherche, capable de produire des modèles de haute qualité prêts à l'emploi.