Novelty Adaptation Through Hybrid Large Language Model (LLM)-Symbolic Planning and LLM-guided Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous donnez un robot à un ami pour qu'il fasse le ménage. Ce robot est très intelligent, mais il a un problème : il ne connaît que les objets qu'on lui a appris. Si vous lui demandez de ranger une tasse, il le fait. Mais si vous lui donnez un objet bizarre qu'il n'a jamais vu, comme un tire-bouchon ou un tiroir secret, il panique. Il ne sait pas comment l'attraper, ni comment l'ouvrir, et il reste figé, incapable de finir sa tâche.

C'est exactement le problème que cette équipe de chercheurs de l'Université Tufts veut résoudre. Ils ont créé un système hybride qui permet au robot de s'adapter à l'inconnu, un peu comme un humain qui utiliserait son bon sens pour résoudre un problème nouveau.

Voici comment leur méthode fonctionne, expliquée avec des images simples :

1. Le Dilemme du Robot : "Je ne connais pas ce mot !"

Dans le monde des robots, il y a deux types d'intelligences :

Le Planificateur Symbolique (Le Chef de Cuisine Rigide) : Il a une recette écrite à la main. Il sait exactement comment utiliser un couteau ou une cuillère. Mais si vous lui donnez un objet qu'il ne connaît pas, il dit : "Je n'ai pas de recette pour ça !" et il abandonne.
L'Apprentissage par Renforcement (Le Chien qui Apprend) : C'est un chien qui apprend par essai-erreur. Il peut apprendre à ouvrir une porte en tirant dessus des milliers de fois. Mais si la porte est très lourde ou bizarre, il peut passer des années à essayer sans jamais réussir.

Le problème, c'est que dans un monde réel, les robots rencontrent souvent des objets nouveaux. Le "Chef" ne peut pas planifier, et le "Chien" est trop lent pour apprendre seul.

2. La Solution : Le "Grand Sage" (L'IA Générative)

Les chercheurs ont ajouté un troisième membre à l'équipe : un Grand Sage (une grande intelligence artificielle, ou LLM, comme celle qui écrit ce texte). Ce Sage a lu des millions de livres, de manuels et d'histoires. Il connaît le "bon sens" du monde.

Voici la danse à trois temps qu'ils ont mise en place :

Étape 1 : Le Sage Invente la Recette (Identification de l'opérateur manquant)

Quand le robot voit un objet nouveau (par exemple, un tiroir), le "Chef" est bloqué. Il demande au Sage : "Comment on fait avec ça ?"
Le Sage réfléchit et dit : "Ah, pour ouvrir un tiroir, il faut d'abord le saisir, puis le tirer."
Le Sage écrit alors une nouvelle "recette" (un opérateur) dans le langage du robot : Ouvrir_Tiroir. Il précise les conditions (le tiroir doit être fermé) et le résultat (le tiroir sera ouvert).

Analogie : C'est comme si vous demandiez à un ami qui n'a jamais vu de machine à café : "Comment on fait ?" et qu'il vous répondait instantanément : "Il faut mettre du café, de l'eau, et appuyer sur le bouton."

Étape 2 : Le Sage donne le Guide de Chasse (Création de récompenses)

Maintenant que le robot sait quoi faire (ouvrir le tiroir), il doit apprendre comment le faire physiquement. C'est là que l'apprentissage par renforcement entre en jeu.
Mais apprendre seul, c'est comme chercher une aiguille dans une botte de foin dans le noir. Le robot pourrait passer des heures à pousser le tiroir dans tous les sens sans l'ouvrir.

Le Sage intervient encore. Il écrit un code de récompense (une sorte de guide de chasse).

Au lieu de dire "Bravo quand le tiroir est ouvert" (ce qui n'arrive qu'à la fin), le Sage dit : "Bravo si tu t'approches de la poignée", "Bravo si tu la saisis", "Bravo si tu tires un peu".
Analogie : C'est comme un jeu vidéo où le Sage vous donne des points à chaque fois que vous vous rapprochez du trésor, au lieu de vous donner des points seulement quand vous l'avez trouvé. Cela guide le robot pas à pas.

Étape 3 : L'Entraînement et la Sélection (Le Tournoi)

Le Sage ne donne pas une seule recette de récompense. Il en génère trois différentes (comme trois coachs sportifs qui ont des méthodes différentes).
Le robot lance trois petits agents (trois versions de lui-même) qui essaient d'apprendre avec ces trois méthodes différentes.

Celui qui progresse le moins est éliminé (comme un candidat éliminé d'un concours de cuisine).
Les deux autres continuent, et on garde le meilleur pour la prochaine étape.
Cela permet de s'assurer que le robot n'apprend pas avec une "mauvaise" instruction.

Le Résultat : Un Robot qui s'adapte

Grâce à ce système, le robot peut affronter des situations qu'il n'a jamais vues :

Cuisine : Il doit enlever un couvercle qu'il ne connaît pas. Le Sage lui dit comment le faire.
Assemblage : Il doit mettre un écrou carré sur un piquet rond. Le Sage invente la méthode.
Café : Il doit ouvrir un tiroir ou une boîte pour trouver un café. Le Sage lui apprend à manipuler ces nouveaux objets.

Les tests ont montré que cette méthode est beaucoup plus rapide et efficace que les anciennes méthodes. Là où un robot seul aurait pu passer des heures (ou des jours) à essayer de comprendre comment ouvrir un tiroir, le robot assisté par le Sage y arrive en quelques minutes avec un taux de réussite de près de 100 %.

En Résumé

Cette recherche est comme donner à un robot un livre de recettes universel (le Sage) et un coach personnel (le guide de récompense).
Au lieu de laisser le robot se débrouiller seul dans le noir ou de l'empêcher de faire quoi que ce soit s'il ne connaît pas l'objet, le système lui dit : "Regarde, voici comment on utilise cet objet, et voici les étapes pour réussir."

C'est une étape majeure pour rendre les robots capables de vivre dans nos maisons, où les objets sont toujours différents, changeants et parfois totalement nouveaux.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Dans les environnements ouverts et dynamiques, les agents autonomes (robots) rencontrent fréquemment des nouveautés (objets ou situations non prévus dans leur domaine de planification initial).

Échec des planificateurs symboliques traditionnels : Lorsqu'un robot fait face à un objet nouveau (ex: un tiroir, un couvercle, un objet de forme inhabituelle), son domaine de planification (généralement codé en PDDL) manque des opérateurs nécessaires pour interagir avec cet objet. Le planificateur symbolique échoue alors à générer un plan car aucune séquence d'actions connue ne mène à l'objectif.
Limites des méthodes d'apprentissage par renforcement (RL) pures : Les approches hybrides existantes tentent de combler ce vide en lançant des agents RL pour découvrir des états planifiables par exploration. Cependant, dans des espaces d'actions continus, la découverte accidentelle d'états pertinents est extrêmement inefficace et peu évolutive (le temps d'exploration devient prohibitif).
Défi central : Comment permettre à un robot d'identifier structurellement les opérateurs manquants pour des objets nouveaux et d'apprendre efficacement les politiques de contrôle associées sans une exploration aléatoire massive ?

2. Méthodologie : Architecture Neuro-Symbolique

Les auteurs proposent une architecture intégrant trois composantes principales : un planificateur symbolique, un Grand Modèle de Langage (LLM) et un Apprentissage par Renforcement (RL) guidé. Le processus fonctionne selon une boucle "Planifier-Apprendre-Exécuter" (Plan-Learn-Execute).

A. Identification des Opérateurs Manquants (Planification Symbolique + LLM)

Recherche et Prompting : Lorsqu'un planificateur symbolique ne trouve pas de solution, il active un algorithme de recherche en largeur (BFS) couplé à un LLM (GPT-o3).
Rôle du LLM : À chaque état de recherche, le LLM est invité à proposer un opérateur manquant exécutable impliquant l'objet nouveau. Il utilise le "Chain-of-Thought" (raisonnement étape par étape) et la technique de self-consistency (échantillonnage multiple pour choisir la réponse la plus fréquente) pour définir :
- Le nom de l'opérateur et ses paramètres.
- Les préconditions (basées sur les prédicats existants).
- Les effets (états résultants).
Validation : Un algorithme de recherche symbolique ("search-ahead") vérifie rapidement si l'ajout de cet opérateur permet de trouver un plan. Si oui, le domaine PDDL est mis à jour avec ce nouvel opérateur.

B. Apprentissage des Politiques de Contrôle (RL Guidé par LLM)

Une fois les opérateurs manquants identifiés, le robot doit apprendre à les exécuter physiquement (politiques de bas niveau).

Décomposition en Sous-Objectifs : Les effets d'un nouvel opérateur sont traités comme une séquence de sous-objectifs ordonnés (ex: pour "ouvrir un tiroir", il faut d'abord "saisir la poignée", puis "tirer").
Génération de Fonctions de Récompense : Au lieu de définir manuellement des fonctions de récompense, le LLM (GPT-o4-mini) génère dynamiquement des fonctions de récompense denses (reward shaping) pour chaque sous-objectif. Ces fonctions calculent le progrès basé sur les observations numériques du robot (ex: distance entre la pince et la poignée).
Stratégie d'Élimination Génétique : Pour chaque sous-objectif, le système lance plusieurs agents RL (un par fonction de récompense candidate générée). Un processus d'élimination périodique supprime les agents les moins performants, conservant les meilleures fonctions de récompense et politiques.
Apprentissage par Phases : L'apprentissage se fait séquentiellement. Une fois le premier sous-objectif maîtrisé, le suivant est débloqué, avec des bonus de récompense exponentiellement croissants pour encourager la progression.

3. Contributions Clés

Identification Structurelle des Opérateurs : Utilisation du raisonnement de bon sens des LLM pour identifier et définir formellement les opérateurs manquants, résolvant un problème souvent intraitable pour les méthodes de découverte d'opérateurs traditionnelles.
Accélération de l'Apprentissage par RL : Intégration de fonctions de récompense denses générées par LLM, guidant l'exploration dans des espaces continus et réduisant considérablement le temps d'apprentissage par rapport aux récompenses creuses (sparse rewards).
Architecture Hybride Robuste : Combinaison de la fiabilité du planificateur symbolique (pour la structure) et de la flexibilité des LLM/RL (pour l'adaptation aux nouveautés), validée dans des environnements de manipulation robotique continus.

4. Résultats Expérimentaux

Les évaluations ont été menées dans l'environnement de simulation MimicGen sur quatre domaines de difficulté croissante :

Cuisine (Facile) : Un couvercle bloque une casserole.
Assemblage d'écrous (Moyen) : Un écrou carré sur un piquet rond (nouveau type d'objet).
Café - Boîte (Moyen) : Récupérer un objet dans une boîte nouvelle.
Café - Tiroir (Difficile) : Récupérer un objet dans un tiroir fermé (nécessite d'ouvrir le tiroir).

Comparaison avec les états de l'art :

Contre Operator Discovery (OD) : L'approche proposée a identifié avec succès les opérateurs manquants dans 100% des cas (10/10) sur tous les domaines. À l'inverse, l'OD (basé sur l'exploration pure) n'a réussi que dans le domaine facile et a échoué (> 7h de temps d'exploration sans succès) sur les domaines complexes.
Contre LEAGUE-Sparse (LS) et Reward Machine (RM) : L'agent guidé par LLM (LG) a atteint un taux de réussite moyen > 90% et un taux de progression élevé sur tous les opérateurs. Les tests statistiques (Wilcoxon) confirment une supériorité significative ( $p < 0.05$ ) par rapport aux deux méthodes de base.
Efficacité du temps : La méthode hybride a trouvé des solutions en quelques minutes (ex: 45s à 75s pour les domaines faciles), tandis que les méthodes concurrentes ont souvent échoué ou pris des heures.

5. Signification et Perspectives

Adaptabilité aux Mondes Ouverts : Cette recherche démontre qu'il est possible de déployer des robots dans des environnements non structurés où des objets nouveaux peuvent apparaître, sans nécessiter une ré-entraînement complet ou une programmation manuelle pour chaque nouvel objet.
Réduction de la "Brittleness" : En déléguant la génération de logique (opérateurs et récompenses) aux LLM, le système évite la rigidité des planificateurs symboliques classiques et l'inefficacité de l'exploration aveugle du RL.
Futur : Les auteurs prévoient de valider ce cadre sur des robots physiques en utilisant des modules de perception à vocabulaire ouvert (ex: OWLv2) pour la "grounding" (ancrage) des objets, et d'explorer l'utilisation de modèles vision-langage pour inventer dynamiquement de nouveaux prédicats.

En résumé, ce travail propose une solution élégante et efficace pour combler le fossé entre la planification de haut niveau et l'exécution de bas niveau face à l'imprévu, en exploitant la puissance sémantique des LLM pour guider l'apprentissage robotique.