Reinforcement Learning for Self-Improving Agent with Skill Library

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous apprenez à cuisiner. Au début, vous suivez scrupuleusement une recette étape par étape : "prenez un œuf, cassez-le, battez-le". C'est ce que font les intelligences artificielles (IA) actuelles : elles sont très doues pour suivre des instructions précises, mais si vous les mettez dans une cuisine inconnue ou si vous leur demandez de faire quelque chose de nouveau, elles paniquent et doivent tout réapprendre depuis zéro.

Le papier que vous avez soumis propose une solution géniale pour rendre ces IA plus autonomes et intelligentes. Voici l'explication simple, avec des images pour mieux comprendre.

1. Le Problème : L'IA qui oublie tout

Actuellement, les agents IA (des robots logiciels) sont comme des étudiants qui étudient pour un examen spécifique. Une fois l'examen fini, ils oublient tout. Si on leur donne un nouveau problème similaire, ils doivent le résoudre comme s'ils ne l'avaient jamais vu. Ils ne savent pas dire : "Attends, j'ai déjà fait ça la semaine dernière, je peux réutiliser ma méthode !"

2. La Solution : La "Boîte à Outils" (Skill Library)

Les auteurs proposent de donner à l'IA une boîte à outils (ce qu'ils appellent une "bibliothèque de compétences").

L'idée : Au lieu de réinventer la roue à chaque fois, l'IA apprend à créer de petits "outils" (des fonctions ou des scripts) pour résoudre un problème.
L'analogie : Imaginez que vous devez assembler 10 meubles identiques.
- Sans boîte à outils : Vous lisez le manuel, vissez, dévissez, lisez à nouveau, vissez... 10 fois de suite.
- Avec boîte à outils : Après le premier meuble, vous créez un "kit de montage" spécial. Pour les 9 suivants, vous utilisez simplement ce kit. C'est beaucoup plus rapide et moins d'erreurs !

3. Le Défi : Comment apprendre à utiliser cette boîte ?

Le problème, c'est que les IA actuelles sont souvent trop bêtes pour bien remplir cette boîte à outils elles-mêmes. Si on leur dit juste "crée des outils", elles font n'importe quoi. C'est comme donner un marteau à un singe et lui dire "construis une maison".

4. La Méthode Magique : SAGE (L'entraîneur personnel)

C'est là que le papier propose son innovation, appelée SAGE. C'est une méthode d'apprentissage par renforcement (comme un jeu vidéo où l'IA apprend par essai-erreur) avec deux astuces de génie :

Astuce A : La "Chaîne de tâches" (Sequential Rollout)

Au lieu de faire faire un seul exercice à l'IA, on lui en donne une chaîne de trois tâches très similaires (comme assembler 3 meubles identiques).

Le processus :
1. L'IA fait le premier meuble. Elle crée un outil dans sa boîte.
2. Elle passe au deuxième meuble. Elle a le droit d'utiliser l'outil qu'elle vient de créer !
3. Si elle réussit grâce à l'outil, elle reçoit une récompense.
L'effet : L'IA comprend vite que "créer un outil maintenant" = "gagner de la récompense plus tard". Elle apprend à être proactive.

Astuce B : La Récompense "Double" (Skill-integrated Reward)

Habituellement, on récompense l'IA seulement quand elle a fini la tâche (le meuble est monté). Ici, les auteurs ajoutent une récompense supplémentaire :

Si l'IA crée un bon outil, elle a des points.
Si elle utilise un bon outil pour finir la tâche suivante, elle a encore plus de points.
C'est comme si un coach de sport disait : "Bravo pour avoir inventé une nouvelle technique de tir (création), et bravo d'avoir marqué le but avec (utilisation) !"

5. Les Résultats : Plus rapide, plus intelligent

Les tests ont été faits sur un environnement virtuel appelé "AppWorld" (où l'IA doit gérer des tâches comme envoyer des messages ou transférer de l'argent via des applications).

Les résultats sont impressionnants :

Efficacité : L'IA utilise beaucoup moins d'étapes pour finir le travail (elle ne fait pas de mouvements inutiles).
Économie : Elle "parle" moins (moins de mots générés), ce qui coûte moins cher en énergie.
Succès : Elle réussit beaucoup plus souvent ses missions complexes.

En résumé

Ce papier nous dit : "Ne forcez pas l'IA à tout apprendre à chaque fois. Donnez-lui une boîte à outils, entraînez-la à créer ses propres outils sur des tâches en chaîne, et récompensez-la doublement quand elle les utilise."

C'est comme passer d'un apprenti qui lit le manuel à chaque fois, à un artisan expert qui a son propre atelier bien rangé et qui sait exactement quel outil prendre pour quel travail. Grâce à cette méthode (SAGE), l'IA devient non seulement plus intelligente, mais aussi beaucoup plus efficace et économe.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les agents basés sur les grands modèles de langage (LLM) ont démontré des capacités remarquables en raisonnement complexe et en interactions multi-tours. Cependant, ils rencontrent des difficultés majeures lorsqu'ils sont déployés dans de nouveaux environnements :

Manque d'adaptabilité continue : Ils peinent à apprendre continuellement et à s'adapter aux expériences en cours d'exécution pour les tâches futures.
Limites des approches actuelles : Bien que l'idée d'utiliser des bibliothèques de compétences (skill libraries) pour stocker et réutiliser des expériences réussies soit prometteuse, les méthodes existantes reposent principalement sur le prompting (instruction par texte). Cette approche est limitée par la capacité du modèle de base à suivre les instructions, ce qui affecte la qualité et l'adaptabilité des compétences générées.
Inefficacité : Les agents actuels génèrent souvent des séquences d'actions redondantes et consomment beaucoup de tokens pour accomplir des tâches complexes qui pourraient être optimisées par des compétences réutilisables.

L'objectif de cet article est de surmonter ces limites en proposant une approche basée sur l'Apprentissage par Renforcement (RL) pour permettre aux agents de générer, valider et utiliser efficacement des compétences exécutables au sein d'une bibliothèque.

2. Méthodologie : Le cadre SAGE

Les auteurs proposent un nouveau cadre d'apprentissage par renforcement nommé SAGE (Skill Augmented GRPO for self-Evolution). Ce cadre est conçu spécifiquement pour les agents utilisant des outils (tool-using agents) qui interagissent avec des environnements via des appels API.

A. Agent avec Bibliothèque de Compétences

Contrairement aux travaux précédents qui définissent les compétences uniquement après la fin d'une tâche, SAGE adopte un format unifié pour la résolution de tâches et la génération de compétences :

Au lieu d'appeler directement plusieurs API, l'agent génère d'abord une fonction de compétence (un bloc de code) qui encapsule une séquence d'actions.
Cette fonction est ensuite appelée pour exécuter la tâche.
Si la fonction réussit, elle est sauvegardée dans la bibliothèque pour une réutilisation future.

B. Composants Clés de SAGE

SAGE s'appuie sur l'algorithme GRPO (Group Relative Policy Optimization) mais introduit deux innovations majeures :

Déroulement Séquentiel (Sequential Rollout) :
- Au lieu d'entraîner l'agent sur des tâches isolées, SAGE utilise des chaînes de tâches similaires (généralement deux tâches par scénario).
- L'agent traite la première tâche ( $q_1$ ), génère des compétences, puis traite la deuxième tâche ( $q_2$ ) en ayant accès à la bibliothèque mise à jour contenant les compétences de $q_1$ .
- Cela permet de propager le signal de récompense : le succès de $q_2$ grâce à une compétence générée lors de $q_1$ renforce la génération de cette compétence.
Récompense Intégrée aux Compétences (Skill-integrated Reward) :
- La récompense totale n'est pas seulement basée sur le succès de la tâche (récompense de résultat), mais inclut des bonus spécifiques pour encourager deux comportements :
  - Génération de compétences : Récompense si la tâche réussie génère une compétence qui sera utilisée avec succès dans une tâche ultérieure.
  - Utilisation de compétences : Récompense si l'agent utilise avec succès une compétence existante pour résoudre la tâche courante.
- Cela guide l'agent non seulement vers la réussite, mais vers l'efficacité et la réutilisabilité de ses actions.

C. Initialisation par Affinement Supervisé (SFT)

Les expériences montrent que les modèles open-source peinent à suivre le format complexe de la bibliothèque de compétences dès le début. Par conséquent, SAGE est initialisé par un affinement supervisé (SFT) utilisant des trajectoires de haute qualité générées par un modèle expert (Claude 3.5 Sonnet V2) avant d'appliquer le RL.

3. Contributions Clés

Cadre SAGE : Introduction d'un algorithme RL novateur combinant GRPO, déroulement séquentiel et récompenses intégrées aux compétences pour l'auto-évolution des agents.
Format Unifié : Une approche où la génération de compétences et l'exécution de tâches sont traitées de manière cohérente au sein du même flux de génération de code, évitant les incohérences des méthodes précédentes.
Preuve de Concept sur AppWorld : Démonstration que l'ajout d'une bibliothèque de compétences pilotée par le RL permet de dépasser les performances des modèles experts humains sur des tâches complexes d'interaction avec des applications.

4. Résultats Expérimentaux

Les expériences ont été menées sur le dataset AppWorld, qui simule des interactions avec 9 applications courantes (Amazon, Spotify, Gmail, etc.) via des API. Le modèle de base utilisé est Qwen2.5-32B-Instruct.

Performances Principales (Jeu de données Test Normal) :

Taux de Réussite des Scénarios (SGC) : SAGE atteint 60,7 %, soit une amélioration de 8,9 % par rapport à la baseline GRPO (51,8 %) et plus du double par rapport aux méthodes sans entraînement RL.
Efficacité :
- Réduction de 26 % du nombre moyen d'étapes d'interaction (12,1 vs 16,4).
- Réduction massive de 59 % du nombre de tokens générés (1 475 vs 3 613), démontrant que la réutilisation de compétences condense les actions.
Comparaison avec l'Expert : Bien que le modèle initial soit inférieur à l'expert (Claude), l'approche SAGE permet au modèle open-source de dépasser les performances de l'expert en termes de SGC et d'efficacité.

Analyse des Compétences :

Les agents entraînés avec SAGE utilisent les compétences apprises avec un taux de succès plus de 2 fois supérieur à celui des agents non entraînés.
L'ablation study confirme que la combinaison de SFT et de la récompense intégrée aux compétences est cruciale : SFT seul améliore la qualité de base, mais le RL est nécessaire pour optimiser l'auto-amélioration et l'efficacité.

5. Signification et Impact

Ce travail marque une avancée significative dans le domaine des agents autonomes :

Passage du Prompting au RL : Il démontre que pour des systèmes complexes comme les bibliothèques de compétences, l'apprentissage par renforcement est supérieur au simple prompting pour assurer la cohérence et la qualité.
Auto-Évolution Continue : SAGE offre un mécanisme permettant aux agents d'accumuler des connaissances sous forme de compétences réutilisables, résolvant le problème de l'oubli et de la difficulté d'adaptation dans de nouveaux environnements.
Efficacité Opérationnelle : La réduction drastique des tokens et des étapes d'interaction a des implications directes sur les coûts de déploiement et la latence des agents LLM dans des applications réelles.

En conclusion, SAGE établit un nouveau standard pour les agents capables d'apprendre continuellement, en transformant les expériences éphémères en compétences durables et exécutables, surpassant ainsi les approches traditionnelles en précision et en efficacité.