Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

Ce rapport de synthèse propose un cadre unifié en quatre paradigmes pour analyser l'adaptation des agents d'IA après l'entraînement préliminaire, en examinant les méthodes d'amélioration des agents et des outils, les architectures de mémoire adaptative et les compétences, tout en évaluant leurs compromis et en identifiant les défis futurs.

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han

Publié Tue, 10 Ma
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que l'Intelligence Artificielle (IA) est comme un génie très intelligent qui vit dans une lampe magique (le modèle de langage, ou LLM). Ce génie est très savant, mais il a deux gros problèmes : il ne peut pas toucher au monde réel, et il oublie vite ce qu'il a appris après chaque conversation.

Pour le rendre vraiment utile, nous devons le transformer en un Agent capable d'agir. Mais comment l'améliorer ? C'est là que cette recherche intervient. Elle propose une carte au trésor avec quatre chemins pour adapter ce génie, en fonction de ce que l'on veut changer et de comment on lui donne des conseils.

Voici l'explication simple de ces quatre chemins, avec des analogies du quotidien :

1. Le Génie lui-même (L'Agent)

C'est le cerveau principal. On peut le modifier de deux façons :

  • Chemin A1 : L'entraînement par la pratique (Le signal vient de l'action)

    • L'analogie : Imaginez un apprenti cuisinier qui apprend à utiliser un couteau. S'il coupe un doigt, il a mal (échec). S'il coupe une carotte parfaitement, il a réussi. Il apprend directement par le résultat de son action.
    • En IA : On laisse l'IA utiliser un outil (comme un moteur de recherche ou un compilateur de code). Si l'outil dit "C'est bon" ou "C'est faux", l'IA ajuste son cerveau immédiatement. C'est très précis, mais ça demande beaucoup d'essais et d'erreurs.
    • Exemple : Un agent qui apprend à écrire du code en voyant si le programme plante ou non.
  • Chemin A2 : L'entraînement par la note finale (Le signal vient du résultat global)

    • L'analogie : C'est comme un étudiant qui passe un examen. Il ne sait pas exactement où il a fait une erreur dans son raisonnement, mais il reçoit une note finale (15/20). Il doit deviner comment améliorer sa stratégie globale pour avoir 20/20 la prochaine fois.
    • En IA : On ne regarde pas chaque petite étape, mais seulement si la réponse finale est bonne. C'est plus flexible (l'IA apprend à penser stratégiquement), mais c'est plus difficile à apprendre car il est dur de savoir pourquoi on a eu une mauvaise note.
    • Exemple : Un agent qui doit résoudre un problème complexe en plusieurs étapes et reçoit une récompense seulement à la toute fin.

2. Les Outils du Génie (Les Outils)

Parfois, on ne veut pas changer le génie (c'est trop cher ou impossible, comme avec ChatGPT). On préfère améliorer ses outils (sa "boîte à outils").

  • Chemin T1 : Les outils tout faits (Indépendants)

    • L'analogie : C'est comme acheter un marteau professionnel dans un magasin de bricolage. Le marteau est déjà parfait, il est fabriqué par un expert, et n'importe quel artisan peut l'utiliser sans le modifier.
    • En IA : On utilise des outils pré-entraînés (comme un moteur de recherche très rapide ou un traducteur) que l'IA peut appeler. L'IA reste la même, mais elle a de meilleurs outils.
    • Exemple : Utiliser un moteur de recherche Google optimisé pour trouver des documents précis.
  • Chemin T2 : Les outils sur mesure (Adaptés au Génie)

    • L'analogie : Imaginez que vous avez un chef cuisinier très célèbre mais qui ne peut pas changer de recette. Au lieu de le changer, vous formez un assistant spécial qui prépare les ingrédients exactement comme le chef les aime. L'assistant apprend en regardant ce que le chef mange et en ajustant ses préparations pour que le chef soit plus heureux.
    • En IA : On garde l'IA principale figée, mais on entraîne un petit "sous-agent" (un outil) pour qu'il soit parfaitement synchronisé avec elle. Si l'IA principale fait une erreur, le sous-agent apprend à mieux fournir les informations pour éviter l'erreur la prochaine fois.
    • Exemple : Un petit robot qui apprend à chercher les bonnes informations spécifiquement pour aider un grand modèle d'IA à répondre à des questions médicales.

Pourquoi tout cela est important ? (Le grand tableau)

Les chercheurs disent qu'il n'y a pas de "meilleure" méthode, tout dépend de la situation :

  • Si vous voulez de la précision technique (comme coder ou faire des maths), le chemin A1 (pratique directe) est souvent le meilleur.
  • Si vous voulez de la stratégie complexe (comme faire de la recherche approfondie), le chemin A2 (note finale) est nécessaire.
  • Si vous voulez aller vite et économiser de l'argent, le chemin T2 (outils sur mesure) est souvent le gagnant. Il est beaucoup moins cher d'entraîner un petit assistant (l'outil) que de rééduquer tout le génie (l'IA).

En résumé

Cette étude nous dit : Ne changez pas tout le système si vous n'avez besoin que d'un petit ajustement.

  • Si votre IA est maladroite avec les outils, entraînez-la à les utiliser (A1).
  • Si elle a du mal à réfléchir globalement, entraînez-la sur les résultats (A2).
  • Si elle est bloquée par des outils médiocres, achetez de meilleurs outils (T1).
  • Si votre IA est parfaite mais que ses outils ne lui parlent pas bien, créez un traducteur ou un assistant sur mesure pour elle (T2).

C'est comme construire une équipe : parfois, il faut entraîner le capitaine (l'agent), parfois il faut juste acheter de meilleures chaussures à l'équipe (les outils), et parfois il faut créer un manager spécial qui aide le capitaine à mieux utiliser l'équipe (l'adaptation T2). L'avenir de l'IA intelligente repose sur le bon mélange de ces quatre stratégies.