Novelty Adaptation Through Hybrid Large Language Model (LLM)-Symbolic Planning and LLM-guided Reinforcement Learning

Cet article propose une architecture neuro-symbolique intégrant un modèle de langage, une planification symbolique et un apprentissage par renforcement pour permettre aux agents autonomes d'identifier et d'apprendre à interagir avec des objets novateurs dans des environnements dynamiques, surpassant ainsi les méthodes actuelles.

Hong Lu, Pierrick Lorang, Timothy R. Duggan, Jivko Sinapov, Matthias Scheutz

Publié 2026-03-13
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous donnez un robot à un ami pour qu'il fasse le ménage. Ce robot est très intelligent, mais il a un problème : il ne connaît que les objets qu'on lui a appris. Si vous lui demandez de ranger une tasse, il le fait. Mais si vous lui donnez un objet bizarre qu'il n'a jamais vu, comme un tire-bouchon ou un tiroir secret, il panique. Il ne sait pas comment l'attraper, ni comment l'ouvrir, et il reste figé, incapable de finir sa tâche.

C'est exactement le problème que cette équipe de chercheurs de l'Université Tufts veut résoudre. Ils ont créé un système hybride qui permet au robot de s'adapter à l'inconnu, un peu comme un humain qui utiliserait son bon sens pour résoudre un problème nouveau.

Voici comment leur méthode fonctionne, expliquée avec des images simples :

1. Le Dilemme du Robot : "Je ne connais pas ce mot !"

Dans le monde des robots, il y a deux types d'intelligences :

  • Le Planificateur Symbolique (Le Chef de Cuisine Rigide) : Il a une recette écrite à la main. Il sait exactement comment utiliser un couteau ou une cuillère. Mais si vous lui donnez un objet qu'il ne connaît pas, il dit : "Je n'ai pas de recette pour ça !" et il abandonne.
  • L'Apprentissage par Renforcement (Le Chien qui Apprend) : C'est un chien qui apprend par essai-erreur. Il peut apprendre à ouvrir une porte en tirant dessus des milliers de fois. Mais si la porte est très lourde ou bizarre, il peut passer des années à essayer sans jamais réussir.

Le problème, c'est que dans un monde réel, les robots rencontrent souvent des objets nouveaux. Le "Chef" ne peut pas planifier, et le "Chien" est trop lent pour apprendre seul.

2. La Solution : Le "Grand Sage" (L'IA Générative)

Les chercheurs ont ajouté un troisième membre à l'équipe : un Grand Sage (une grande intelligence artificielle, ou LLM, comme celle qui écrit ce texte). Ce Sage a lu des millions de livres, de manuels et d'histoires. Il connaît le "bon sens" du monde.

Voici la danse à trois temps qu'ils ont mise en place :

Étape 1 : Le Sage Invente la Recette (Identification de l'opérateur manquant)

Quand le robot voit un objet nouveau (par exemple, un tiroir), le "Chef" est bloqué. Il demande au Sage : "Comment on fait avec ça ?"
Le Sage réfléchit et dit : "Ah, pour ouvrir un tiroir, il faut d'abord le saisir, puis le tirer."
Le Sage écrit alors une nouvelle "recette" (un opérateur) dans le langage du robot : Ouvrir_Tiroir. Il précise les conditions (le tiroir doit être fermé) et le résultat (le tiroir sera ouvert).

  • Analogie : C'est comme si vous demandiez à un ami qui n'a jamais vu de machine à café : "Comment on fait ?" et qu'il vous répondait instantanément : "Il faut mettre du café, de l'eau, et appuyer sur le bouton."

Étape 2 : Le Sage donne le Guide de Chasse (Création de récompenses)

Maintenant que le robot sait quoi faire (ouvrir le tiroir), il doit apprendre comment le faire physiquement. C'est là que l'apprentissage par renforcement entre en jeu.
Mais apprendre seul, c'est comme chercher une aiguille dans une botte de foin dans le noir. Le robot pourrait passer des heures à pousser le tiroir dans tous les sens sans l'ouvrir.

Le Sage intervient encore. Il écrit un code de récompense (une sorte de guide de chasse).

  • Au lieu de dire "Bravo quand le tiroir est ouvert" (ce qui n'arrive qu'à la fin), le Sage dit : "Bravo si tu t'approches de la poignée", "Bravo si tu la saisis", "Bravo si tu tires un peu".
  • Analogie : C'est comme un jeu vidéo où le Sage vous donne des points à chaque fois que vous vous rapprochez du trésor, au lieu de vous donner des points seulement quand vous l'avez trouvé. Cela guide le robot pas à pas.

Étape 3 : L'Entraînement et la Sélection (Le Tournoi)

Le Sage ne donne pas une seule recette de récompense. Il en génère trois différentes (comme trois coachs sportifs qui ont des méthodes différentes).
Le robot lance trois petits agents (trois versions de lui-même) qui essaient d'apprendre avec ces trois méthodes différentes.

  • Celui qui progresse le moins est éliminé (comme un candidat éliminé d'un concours de cuisine).
  • Les deux autres continuent, et on garde le meilleur pour la prochaine étape.
    Cela permet de s'assurer que le robot n'apprend pas avec une "mauvaise" instruction.

Le Résultat : Un Robot qui s'adapte

Grâce à ce système, le robot peut affronter des situations qu'il n'a jamais vues :

  • Cuisine : Il doit enlever un couvercle qu'il ne connaît pas. Le Sage lui dit comment le faire.
  • Assemblage : Il doit mettre un écrou carré sur un piquet rond. Le Sage invente la méthode.
  • Café : Il doit ouvrir un tiroir ou une boîte pour trouver un café. Le Sage lui apprend à manipuler ces nouveaux objets.

Les tests ont montré que cette méthode est beaucoup plus rapide et efficace que les anciennes méthodes. Là où un robot seul aurait pu passer des heures (ou des jours) à essayer de comprendre comment ouvrir un tiroir, le robot assisté par le Sage y arrive en quelques minutes avec un taux de réussite de près de 100 %.

En Résumé

Cette recherche est comme donner à un robot un livre de recettes universel (le Sage) et un coach personnel (le guide de récompense).
Au lieu de laisser le robot se débrouiller seul dans le noir ou de l'empêcher de faire quoi que ce soit s'il ne connaît pas l'objet, le système lui dit : "Regarde, voici comment on utilise cet objet, et voici les étapes pour réussir."

C'est une étape majeure pour rendre les robots capables de vivre dans nos maisons, où les objets sont toujours différents, changeants et parfois totalement nouveaux.