Internalizing Agency from Reflective Experience

Each language version is independently generated for its own context, not a direct translation.

Le Problème : L'élève qui ne sait que répéter la bonne réponse

Imaginez que vous apprenez à un robot (une intelligence artificielle) à jouer à un jeu vidéo très difficile, comme un labyrinthe géant ou à coder un logiciel.

La méthode habituelle (appelée RLVR ou apprentissage par renforcement classique), c'est comme un professeur qui ne regarde que la note finale.

Si le robot finit le niveau, le professeur dit : « Bravo ! » et le robot se dit : « Je vais faire exactement la même chose la prochaine fois. »
Si le robot échoue, le professeur dit juste : « Raté. » et le robot ne sait pas pourquoi ni où il s'est trompé.

Le problème ? Le robot devient excellent pour répéter les rares fois où il a eu de la chance et réussi. Mais s'il se retrouve dans une situation légèrement différente, il panique. Il ne sait pas comment se rattraper quand il fait une erreur. C'est comme un élève qui a appris par cœur la solution d'un exercice, mais qui est perdu dès qu'une virgule change dans l'énoncé.

La Solution : LEAFE, le tuteur qui apprend à se corriger

Les auteurs de cet article proposent une nouvelle méthode appelée LEAFE. Au lieu de juste regarder la note finale, LEAFE apprend au robot à réfléchir à ses erreurs en temps réel et à apprendre de ses propres échecs.

Voici comment ça marche, en trois étapes simples :

1. L'Exploration avec "Retour en Arrière" (Le voyageur perdu)

Imaginez que le robot est un voyageur dans une forêt.

L'approche classique : Il avance, s'il tombe dans un trou, il recommence tout depuis le début au hasard.
L'approche LEAFE : Le voyageur avance. S'il sent qu'il s'engage dans un cul-de-sac (un message d'erreur, un obstacle), il s'arrête. Il dit : « Attends, j'ai fait une erreur à 10 minutes d'ici. »
Il rembobine le temps (c'est le "rollback") jusqu'au moment précis où il a pris la mauvaise décision.
Il lit un petit mémo qu'il a écrit lui-même : « Ah oui, j'ai pris le chemin de gauche, mais il y avait un précipice. Je devrais prendre celui de droite. »
Il essaie à nouveau, mais cette fois avec cette nouvelle information.

2. La Création d'un "Journal de Bord" (L'expérience)

À chaque fois que le robot se corrige ainsi, il ne jette pas cette expérience. Il écrit une petite histoire : « J'ai fait l'erreur X, j'ai vu le signal Y, et j'ai décidé de faire Z pour me sauver. »
C'est ce qu'on appelle "internaliser l'agence". Le robot apprend non seulement à réussir, mais surtout à se sauver lui-même.

3. L'Entraînement Final (Le muscle de la mémoire)

Une fois que le robot a accumulé beaucoup de ces histoires de "sauvetage", on lui fait faire un gros entraînement (comme un coach sportif).

On lui montre les situations où il a failli échouer.
On lui demande : « Sans le mémo écrit, que ferais-tu ? »
On l'entraîne à faire le bon choix (la correction) sans avoir besoin de lire le mémo à chaque fois.

Le résultat ? Le robot intègre cette capacité de rattrapage directement dans son cerveau. Il ne dépend plus de la chance ou de milliers d'essais au hasard.

Pourquoi c'est génial ? (Les résultats)

L'article montre que cette méthode change tout, surtout quand on regarde la capacité du robot à réussir sur le long terme :

Le test du "Pass@1" (Une seule chance) : Les méthodes classiques sont parfois un peu meilleures ici, car elles sont très sûres dans leurs habitudes.
Le test du "Pass@128" (128 tentatives) : C'est là que LEAFE explose tout le monde.
- Imaginez que vous avez 128 chances de résoudre un problème.
- Le robot classique, même avec 128 chances, reste bloqué sur les mêmes erreurs car il ne sait pas varier sa stratégie.
- Le robot LEAFE, lui, a appris à explorer des chemins différents et à se corriger. Avec 128 chances, il trouve la solution beaucoup plus souvent (jusqu'à 14% de mieux que les autres).

En résumé

C'est la différence entre :

Un élève qui mémorise la solution d'un problème (méthode classique).
Un élève qui apprend à comprendre pourquoi il se trompe et à trouver une nouvelle solution quand il bloque (méthode LEAFE).

Grâce à LEAFE, les intelligences artificielles deviennent moins fragiles. Elles ne sont plus juste des machines à répéter ce qu'elles savent, mais de véritables agents capables de s'adapter, de se remettre d'un échec et de continuer à avancer, même dans des environnements complexes et imprévisibles.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage (LLM) sont de plus en plus déployés en tant qu'agents autonomes capables de planifier, d'agir et de récupérer de leurs erreurs dans des environnements complexes à long terme (ex: navigation web, synthèse de code, résolution de puzzles). Cependant, les méthodes d'entraînement post-déploiement actuelles, principalement basées sur l'apprentissage par renforcement avec récompenses vérifiables (RLVR, comme GRPO), souffrent de limitations critiques :

Optimisation aveugle des résultats : Ces méthodes optimisent uniquement le signal de succès final (récompense scalaire binaire). Elles ignorent la richesse des feedbacks intermédiaires (messages d'erreur, transitions d'état, actions invalides) qui expliquent pourquoi une trajectoire a échoué.
Affûtage de la distribution (Distribution Sharpening) : En se focalisant sur les trajectoires déjà réussies, le RLVR tend à concentrer la probabilité du modèle sur un petit ensemble de comportements existants. Cela améliore le taux de réussite à un seul essai (Pass@1) mais limite la capacité d'exploration et de couverture des solutions (Pass@k pour $k$ élevé).
Dépendance au calcul à l'inférence : Pour éviter les erreurs, les praticiens doivent souvent recourir à des méthodes coûteuses à l'inférence (réessais multiples, recherche arborescente explicite, vote par échantillonnage), augmentant la latence et la complexité de déploiement.

L'objectif est donc de transformer le modèle pour qu'il internalise la capacité de détecter les échecs, de réfléchir aux causes, et de réviser ses décisions de manière autonome, sans dépendre de mécanismes externes coûteux.

2. Méthodologie : LEAFE

Les auteurs proposent LEAFE (Learning Feedback-Grounded Agency from Reflective Experience), un cadre d'apprentissage en deux étapes conçu pour internaliser une « agence fondée sur le feedback ».

Étape 1 : Génération d'expérience basée sur un arbre avec retour en arrière (Tree-Based Experience Generation with Rollback)

Cette phase vise à collecter des données d'apprentissage riches en transformant les échecs en opportunités d'apprentissage.

Réflexion périodique : Pendant l'exploration, l'agent analyse sa trajectoire. À intervalles réguliers ou en cas d'échec, il identifie un point de décision sous-optimal (un « point de retour en arrière » ou rollback point $\tau$ ).
Synthèse d'expérience : Le modèle génère un résumé d'expérience ( $e$ ) sous forme de diagnostic naturel et de suggestion d'action corrective.
Retour en arrière et embranchement (Branching) : Le système revient à l'état $\tau$ , rejoue l'historique jusqu'à ce point, puis utilise l'expérience synthétisée ( $e$ ) pour générer une action révisée ( $a'_\tau$ ).
Construction d'un arbre : Ce processus crée un arbre de trajectoires de type « Échec $\to$ Retour en arrière $\to$ Correction $\to$ Succès ». Cela permet d'explorer des branches alternatives guidées par le feedback plutôt que de simplement réessayer au hasard.

Étape 2 : Distillation de l'expérience vers la politique (Experience-to-Policy Distillation)

Cette phase intègre les compétences acquises dans les poids du modèle pour qu'il puisse agir seul lors de l'inférence.

Deux types de données supervisées :
1. Répétition comportementale (Behavior Rehearsal) : Échantillonnage de trajectoires réussies (y compris celles issues de l'arbre) pour maintenir les capacités de base et éviter l'oubli catastrophique.
2. Distillation contrefactuelle (Counterfactual Distillation) : C'est le cœur de la méthode. Le modèle est entraîné à prédire l'action corrigée ( $a'_\tau$ ) en se basant uniquement sur l'historique original ( $h_\tau$ ) et l'instruction, sans recevoir l'explication explicite ( $e$ ) fournie lors de l'entraînement.
Objectif : Le modèle apprend à internaliser la logique de correction. Il doit être capable de détecter qu'une trajectoire est en train de dévier et de réviser son action de manière intrinsèque, sans avoir besoin d'une étape de réflexion explicite ou d'un guide externe à l'inférence.

3. Contributions Clés

Exploration structurée par le feedback : Introduction d'un mécanisme de retour en arrière (rollback) qui transforme des signaux scalaires bruts en branches d'exploration guidées par l'expérience, dépassant l'exploitation simple des modes dominants du modèle de base.
Supervision riche au niveau décisionnel : Contrairement aux récompenses scalaires globales, LEAFE fournit une supervision au niveau de l'étape (« réfléchir $\to$ réviser »), spécifiant exactement où l'erreur s'est produite et comment la corriger.
Internalisation de la récupération : En affinant le modèle sur les actions correctives post-retour en arrière, l'agence fondée sur le feedback devient une capacité intrinsèque du modèle, améliorant significativement le Pass@k (couverture des solutions) sans augmenter le coût computationnel à l'inférence.

4. Résultats Expérimentaux

Le cadre LEAFE a été évalué sur une série de benchmarks exigeant une interaction à long terme et une récupération d'erreurs : CodeContests, WebShop, ALFWorld, ScienceWorld et Sokoban.

Performance Pass@k (Capacité d'exploration) :
- LEAFE surpasse systématiquement les méthodes basées sur le RLVR (comme GRPO) et les méthodes basées sur l'expérience (EarlyExp) sur les métriques Pass@128.
- Sur CodeContests, LEAFE améliore le Pass@128 de jusqu'à 14 % par rapport au modèle de base, tandis que GRPO montre des gains marginaux ou nuls sur les grands $k$ .
- Cela démontre que LEAFE élargit la couverture comportementale du modèle plutôt que de simplement renforcer les succès existants.
Efficacité de l'échantillonnage :
- Les courbes de mise à l'échelle (Pass@k vs nombre d'échantillons) montrent que LEAFE atteint des seuils de précision plus élevés avec moins d'échantillons et maintient un taux de réussite supérieur aux baselines pour des budgets d'inférence importants.
Généralisation Hors Distribution (OOD) :
- Lors d'un test sur le benchmark MBPP (entraîné sur CodeContests), LEAFE a montré une robustesse supérieure. Là où GRPO a subi une chute de performance significative (-4,2 %), LEAFE a non seulement préservé les performances mais les a légèrement améliorées, indiquant un apprentissage de principes fondamentaux plutôt qu'un surapprentissage aux raccourcis du jeu de données.
Ablation :
- L'ajout de la distillation contrefactuelle ( $L_{cf}$ ) s'est avéré crucial pour améliorer le Pass@128, tandis que la répétition comportementale ( $L_{reh}$ ) servait principalement à stabiliser les performances de base.

5. Signification et Impact

Ce travail marque un changement de paradigme dans l'entraînement des agents LLM :

Du « Succès Final » à la « Récupération Active » : Il démontre que pour des tâches complexes à long terme, la capacité à identifier et corriger les erreurs en cours de route est plus importante que la simple probabilité de succès final.
Réduction de la complexité à l'inférence : En internalisant la capacité de réflexion et de correction, LEAFE réduit le besoin de méthodes coûteuses à l'inférence (comme les arbres de pensée explicites ou les multiples réessais), rendant les agents plus efficaces et plus rapides en production.
Robustesse : La méthode améliore la résilience des agents face aux environnements dynamiques et aux feedbacks complexes, un pas essentiel vers des agents autonomes réellement fiables.

En résumé, LEAFE transforme l'expérience d'échec en une compétence durable, permettant aux modèles de langage de devenir des agents véritablement adaptatifs et capables de s'améliorer continuellement grâce à l'interaction.