A Hierarchical Error-Corrective Graph Framework for Autonomous Agents with LLM-Based Action Generation

Each language version is independently generated for its own context, not a direct translation.

🤖 Le Robot qui apprend de ses erreurs (et pas seulement de ses succès)

Imaginez que vous donnez à un robot une mission complexe : "Prépare un petit-déjeuner, mets le café dans la tasse, puis va le chercher au salon."

Dans le passé, les robots fonctionnaient un peu comme un train sur des rails. Si le train déraillait (parce qu'un obstacle était sur la voie), tout s'arrêtait, ou alors le robot paniquait et repartait de zéro depuis le début. C'était inefficace et frustrant.

Ce papier propose une nouvelle méthode appelée HECG (un cadre de graphe de correction d'erreurs hiérarchique). Voici comment cela fonctionne, avec des analogies simples :

1. Le Problème : Le Robot est un peu "naïf"

Les robots actuels utilisent de très gros cerveaux artificiels (les LLM, comme les IA que nous connaissons) pour planifier leurs actions. Ces cerveaux sont brillants pour la théorie, mais ils ont deux défauts majeurs :

Ils sont trop confiants : Ils pensent que tout se passera comme prévu, même si la réalité est chaotique.
Ils ne savent pas pourquoi ils ont échoué : Si le robot rate sa prise sur une tasse, il sait juste "Échec". Il ne sait pas si c'est parce que la tasse était trop glissante, parce qu'il était trop loin, ou parce qu'il a mal visé.

2. La Solution : Le "Plan de Secours à 3 Niveaux"

Au lieu d'avoir un plan rigide, les auteurs proposent de transformer le plan en une carte de métro interactive. Si une ligne est bloquée, vous ne jetez pas la carte, vous prenez une autre ligne.

Le système fonctionne sur trois niveaux de correction, comme un mécanicien qui répare une voiture :

Niveau 1 : Le petit ajustement (Local)
- Analogie : Vous essayez de mettre une clé dans une serrure, mais ça coince un tout petit peu. Au lieu de jeter la clé, vous la bougez de 2 millimètres.
- Pour le robot : Si le robot rate sa prise, il ajuste légèrement sa position ou sa force. Pas besoin de tout arrêter.
Niveau 2 : Changer de stratégie (Optionnel)
- Analogie : La porte est bloquée. Au lieu de continuer à pousser (Niveau 1), vous essayez de la tirer, ou vous essayez de la pousser par le bas.
- Pour le robot : Si la prise directe échoue, le robot essaie une autre méthode : pousser l'objet, le faire glisser, ou changer d'angle d'approche.
Niveau 3 : Refaire tout le plan (Re-planification)
- Analogie : La voiture est en panne moteur. Changer la roue ne sert à rien. Il faut appeler un dépanneur et changer l'itinéraire complet.
- Pour le robot : Si tout échoue, le robot demande à son "cerveau" (l'IA) de repenser toute la mission en tenant compte de ce qui a échoué, pour éviter de refaire la même erreur.

3. Les 3 Innovations Magiques

Pour que ce système fonctionne, les chercheurs ont ajouté trois outils incroyables :

A. La "Carte des Causes d'Échec" (Matrice d'Erreurs)

Au lieu de dire "Échec", le robot classe l'erreur dans une boîte précise.

Analogie : Imaginez un médecin. Au lieu de dire "Le patient va mal", il dit "C'est une infection bactérienne au poumon droit".
Le résultat : Le robot sait exactement quel type de "médicament" (correction) donner. Est-ce un problème de vision ? De mécanique ? De logique ? Chaque erreur a son propre remède.

B. Le "Guide de Voyage Intelligent" (Récupération Causale)

Les robots actuels cherchent des souvenirs en regardant juste des mots-clés similaires (comme une recherche Google basique).

Analogie : Si vous cherchez comment réparer une fuite d'eau, un moteur classique vous donnerait des articles sur "l'eau". Le nouveau système, lui, vous donne le manuel de plomberie qui explique le lien de cause à effet : "Si le tuyau est cassé, alors il faut du ruban adhésif".
Le résultat : Le robot se souvient non pas juste de "ce qui s'est passé", mais de pourquoi cela s'est passé et comment cela a été résolu dans le passé. Il utilise un "graphe" (un réseau de liens) pour retrouver la solution parfaite.

C. Le "Compas de Décision" (Stratégie Multi-Dimensionnelle)

Quand le robot doit choisir entre plusieurs options (pousser, tirer, attendre), il ne devine pas. Il utilise un score complexe qui combine :

Le but : Est-ce que ça avance vers l'objectif ?
Le coût : Est-ce que ça prend trop de temps ou d'énergie ?
Le risque : Est-ce que ça va casser quelque chose ?
Le bon sens (IA) : Est-ce que c'est logique ? (Ex: "Il ne faut pas essayer d'ouvrir un frigo vide").

Le résultat : Le robot prend des décisions équilibrées, comme un capitaine de navire qui regarde la météo, le carburant et la carte avant de virer.

En Résumé

Ce papier nous dit que pour avoir des robots vraiment autonomes et fiables dans nos maisons, il ne suffit pas de leur donner un cerveau intelligent. Il faut leur donner :

Une carte flexible (pas de rails rigides).
Un système de diagnostic précis (savoir pourquoi ça rate).
Une mémoire structurée (apprendre des erreurs passées de manière logique).

C'est comme passer d'un robot qui suit une recette de cuisine à la lettre (et qui brûle tout si un ingrédient manque) à un chef cuisinier expérimenté qui goûte, ajuste les épices, change la méthode de cuisson si le feu est trop fort, et sait exactement comment sauver un plat qui commence à rater.

Grâce à cette méthode, les robots deviennent plus résistants, plus intelligents et surtout, beaucoup plus capables de gérer le chaos du monde réel.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Bien que les progrès récents en Apprentissage par Renforcement (RL) et les Grands Modèles de Langage (LLM) aient permis aux agents autonomes de générer des plans d'action complexes pour des tâches incarnées (embodied tasks), des défis critiques persistent dans des environnements dynamiques et partiellement observables :

Limites des métriques de transfert : Les méthodes traditionnelles reposent sur des métriques unidimensionnelles (ex: récompense cumulative) ou des scores pondérés simples, incapables de capturer la compatibilité sémantique et contextuelle entre les tâches sources et cibles, ce qui augmente le risque de "transfert négatif".
Absence d'attribution structurée des erreurs : Les mécanismes de feedback actuels se concentrent souvent uniquement sur le succès ou l'échec global de la tâche, sans fournir d'analyse structurée des causes racines des échecs (ex: erreur de parsing, collision, incohérence de perception).
Faiblesses de la RAG (Retrieval-Augmented Generation) : Les méthodes de récupération d'expérience existantes dépendent principalement de la similarité vectorielle ou de la correspondance de tokens. Elles capturent une proximité sémantique superficielle mais échouent à exploiter les relations structurelles, causales et temporelles entre les états historiques, les actions et les événements, limitant ainsi la généralisation et l'adaptabilité à long terme.

L'objectif est donc de créer un cadre capable d'exécuter des plans générés par des LLM de manière robuste, en gérant les incertitudes d'exécution et en permettant une récupération hiérarchisée sans nécessiter de replanification globale à chaque échec mineur.

2. Méthodologie : Le Cadre HECG

Les auteurs proposent le HECG (Hierarchical Error-Corrective Graph), un cadre intégrant la génération d'actions par LLM avec une exécution pilotée par des erreurs structurées. Le cœur de la méthode repose sur trois innovations majeures :

A. Représentation par Graphe de Récupération Causale (CCGR)

Au lieu d'une séquence linéaire rigide, le plan est modélisé comme un graphe dirigé $G = (V, E)$ :

Nœuds ( $V$ ) : Représentent des actions exécutables ou des sous-objectifs. Chaque nœud contient des informations sémantiques, l'action primitive, le résultat attendu, un seuil d'erreur local ( $\epsilon_i$ ) et des règles de correction.
Arêtes ( $E$ ) : Représentent les transitions conditionnées par les résultats d'exécution et les types d'erreurs. Quatre types d'arêtes sont définis :
1. Main (Principale) : Flux nominal de la tâche.
2. Opt (Optionnelle) : Actions alternatives pour le même sous-objectif (redondance).
3. Corr (Correction) : Déclenchées lors d'erreurs locales pour une récupération ciblée.
4. Fb (Fallback) : Déclenchées lors d'échecs majeurs pour une replanification de haut niveau.
Récupération : Le système recherche des sous-graphes pertinents basés sur le contexte actuel, capturant les dépendances causales au-delà de la simple similarité vectorielle.

B. Stratégie de Transfert Multi-Dimensionnelle (MDTS)

Pour sélectionner la meilleure transition à chaque étape, le cadre utilise une politique de transition probabiliste qui évalue quatre dimensions :

Qualité de la tâche ( $Q$ ) : Utilité à long terme et progression vers l'objectif.
Coût d'exécution ( $C$ ) : Efficacité en termes de temps, d'énergie ou de complexité.
Risque ( $R$ ) : Probabilité d'échec ou dangerosité basée sur les observations actuelles.
Score Sémantique LLM ( $\Phi_{LLM}$ ) : Évaluation de la faisabilité logique et de la cohérence avec les intentions de la tâche et les affordances des objets.

La probabilité de transition est calculée via une fonction Softmax combinant ces facteurs, permettant une sélection adaptative et interprétable.

C. Classification Matricielle des Erreurs (EMC) et Correction Hiérarchique

Le système classe les erreurs dans une matrice structurée (ex: erreur de nom d'action, erreur de parsing, collision, échec de capteur) selon leur type, sévérité et récupérabilité. Cela déclenche une correction hiérarchisée à trois niveaux :

Niveau 1 (Correction Locale) : Ajustements fins (ex: repositionner la pince, ajuster la trajectoire) sans changer la structure globale.
Niveau 2 (Changement d'Action Optionnelle) : Sélection d'une stratégie alternative (ex: pousser l'objet au lieu de le saisir) via les arêtes "Opt".
Niveau 3 (Replanification de Tâche) : Régénération complète du plan par le LLM en intégrant l'historique des échecs, déclenchée si les niveaux 1 et 2 échouent.

3. Contributions Clés

Intégration Graphique et Hiérarchique : Première approche combinant une représentation graphique des dépendances causales avec une correction d'erreurs hiérarchisée pour les agents incarnés.
Politique de Transition Probabiliste Hybride : Un mécanisme de décision qui fusionne des signaux structurés (coût, risque) avec le raisonnement sémantique des LLM pour gérer l'incertitude.
Classification Structurée des Échecs : Une taxonomie détaillée des erreurs permettant une attribution précise des causes et une activation sélective des stratégies de récupération, évitant la replanification inutile.
Récupération par Sous-graphes : Une méthode de récupération d'expérience qui exploite la structure du graphe pour trouver des patterns d'exécution adaptés, surpassant les méthodes basées uniquement sur la similarité vectorielle.

4. Résultats Expérimentaux

Les expériences ont été menées dans l'environnement simulé VirtualHome sur des tâches ménagères complexes (ex: Readbook, PutDishwasher, PrepareFood, PutFridge, SetupTable) impliquant plusieurs pièces et objets dynamiques.

Comparaison des Modèles : L'évaluation a comparé des LLM de pointe (GPT-5 Mini, DeepSeek-R1, LLaMA3.3-70B).
- GPT-5 Mini a démontré la meilleure précision au niveau de l'action et une capacité supérieure à utiliser les feedbacks de correction pour récupérer des échecs (taux de succès après correction $TSR_C \approx 1.0$ ).
- DeepSeek-R1 a montré un taux de rappel initial élevé mais une efficacité variable.
- LLaMA3.3-70B a offert une bonne robustesse au niveau de la scène mais une adaptabilité moindre lors de la replanification.
Impact de la Correction Hiérarchique : L'ajout des mécanismes de correction (HECG Full) a significativement augmenté le taux de réussite global par rapport aux planificateurs "plats" (Flat LLM Planner).
- Le taux de réussite après replanification ( $TSR_R$ ) et après correction ( $TSR_C$ ) a augmenté de manière substantielle, en particulier pour les tâches multi-étapes comme PrepareFood.
Étude d'Ablation (Politique de Transition) :
- L'ablation du terme Risque ( $R$ ) a causé la plus forte dégradation des performances, entraînant des échecs d'exécution fréquents.
- L'ablation du Score LLM a réduit la cohérence sémantique, menant à des transitions illogiques (ex: essayer de couper avec une spatula).
- Le terme Valeur ( $Q$ ) est crucial pour la planification à long terme, tandis que le terme Coût ( $C$ ) améliore l'efficacité en réduisant les étapes de récupération.
Robustesse aux Seuil : Le cadre complet s'est révélé robuste face aux variations des seuils d'erreur, contrairement aux variantes ablatées qui étaient très sensibles aux réglages trop stricts ou trop permissifs.

5. Signification et Conclusion

Ce travail démontre que la simple génération de plans par LLM est insuffisante pour une exécution robuste dans le monde réel. L'intégration d'un cadre de graphe hiérarchique de correction d'erreurs permet de :

Transformer l'exécution séquentielle fragile en un processus adaptatif et conscient des erreurs.
Réduire la nécessité de replanifications globales coûteuses en traitant les erreurs localement ou par changement de stratégie.
Améliorer la fiabilité et la sécurité des agents autonomes dans des environnements dynamiques et incertains.

La méthode HECG offre un cadre systématique pour combiner le raisonnement symbolique des LLM avec la gestion structurée des erreurs, ouvrant la voie à des robots domestiques plus fiables et capables de gérer des tâches complexes à long terme. Les travaux futurs viseront à étendre ce cadre à des environnements plus vastes et à un déploiement sur des robots physiques réels.