Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

Each language version is independently generated for its own context, not a direct translation.

Imaginez que l'Intelligence Artificielle (IA) est comme un génie très intelligent qui vit dans une lampe magique (le modèle de langage, ou LLM). Ce génie est très savant, mais il a deux gros problèmes : il ne peut pas toucher au monde réel, et il oublie vite ce qu'il a appris après chaque conversation.

Pour le rendre vraiment utile, nous devons le transformer en un Agent capable d'agir. Mais comment l'améliorer ? C'est là que cette recherche intervient. Elle propose une carte au trésor avec quatre chemins pour adapter ce génie, en fonction de ce que l'on veut changer et de comment on lui donne des conseils.

Voici l'explication simple de ces quatre chemins, avec des analogies du quotidien :

1. Le Génie lui-même (L'Agent)

C'est le cerveau principal. On peut le modifier de deux façons :

Chemin A1 : L'entraînement par la pratique (Le signal vient de l'action)
- L'analogie : Imaginez un apprenti cuisinier qui apprend à utiliser un couteau. S'il coupe un doigt, il a mal (échec). S'il coupe une carotte parfaitement, il a réussi. Il apprend directement par le résultat de son action.
- En IA : On laisse l'IA utiliser un outil (comme un moteur de recherche ou un compilateur de code). Si l'outil dit "C'est bon" ou "C'est faux", l'IA ajuste son cerveau immédiatement. C'est très précis, mais ça demande beaucoup d'essais et d'erreurs.
- Exemple : Un agent qui apprend à écrire du code en voyant si le programme plante ou non.
Chemin A2 : L'entraînement par la note finale (Le signal vient du résultat global)
- L'analogie : C'est comme un étudiant qui passe un examen. Il ne sait pas exactement où il a fait une erreur dans son raisonnement, mais il reçoit une note finale (15/20). Il doit deviner comment améliorer sa stratégie globale pour avoir 20/20 la prochaine fois.
- En IA : On ne regarde pas chaque petite étape, mais seulement si la réponse finale est bonne. C'est plus flexible (l'IA apprend à penser stratégiquement), mais c'est plus difficile à apprendre car il est dur de savoir pourquoi on a eu une mauvaise note.
- Exemple : Un agent qui doit résoudre un problème complexe en plusieurs étapes et reçoit une récompense seulement à la toute fin.

2. Les Outils du Génie (Les Outils)

Parfois, on ne veut pas changer le génie (c'est trop cher ou impossible, comme avec ChatGPT). On préfère améliorer ses outils (sa "boîte à outils").

Chemin T1 : Les outils tout faits (Indépendants)
- L'analogie : C'est comme acheter un marteau professionnel dans un magasin de bricolage. Le marteau est déjà parfait, il est fabriqué par un expert, et n'importe quel artisan peut l'utiliser sans le modifier.
- En IA : On utilise des outils pré-entraînés (comme un moteur de recherche très rapide ou un traducteur) que l'IA peut appeler. L'IA reste la même, mais elle a de meilleurs outils.
- Exemple : Utiliser un moteur de recherche Google optimisé pour trouver des documents précis.
Chemin T2 : Les outils sur mesure (Adaptés au Génie)
- L'analogie : Imaginez que vous avez un chef cuisinier très célèbre mais qui ne peut pas changer de recette. Au lieu de le changer, vous formez un assistant spécial qui prépare les ingrédients exactement comme le chef les aime. L'assistant apprend en regardant ce que le chef mange et en ajustant ses préparations pour que le chef soit plus heureux.
- En IA : On garde l'IA principale figée, mais on entraîne un petit "sous-agent" (un outil) pour qu'il soit parfaitement synchronisé avec elle. Si l'IA principale fait une erreur, le sous-agent apprend à mieux fournir les informations pour éviter l'erreur la prochaine fois.
- Exemple : Un petit robot qui apprend à chercher les bonnes informations spécifiquement pour aider un grand modèle d'IA à répondre à des questions médicales.

Pourquoi tout cela est important ? (Le grand tableau)

Les chercheurs disent qu'il n'y a pas de "meilleure" méthode, tout dépend de la situation :

Si vous voulez de la précision technique (comme coder ou faire des maths), le chemin A1 (pratique directe) est souvent le meilleur.
Si vous voulez de la stratégie complexe (comme faire de la recherche approfondie), le chemin A2 (note finale) est nécessaire.
Si vous voulez aller vite et économiser de l'argent, le chemin T2 (outils sur mesure) est souvent le gagnant. Il est beaucoup moins cher d'entraîner un petit assistant (l'outil) que de rééduquer tout le génie (l'IA).

En résumé

Cette étude nous dit : Ne changez pas tout le système si vous n'avez besoin que d'un petit ajustement.

Si votre IA est maladroite avec les outils, entraînez-la à les utiliser (A1).
Si elle a du mal à réfléchir globalement, entraînez-la sur les résultats (A2).
Si elle est bloquée par des outils médiocres, achetez de meilleurs outils (T1).
Si votre IA est parfaite mais que ses outils ne lui parlent pas bien, créez un traducteur ou un assistant sur mesure pour elle (T2).

C'est comme construire une équipe : parfois, il faut entraîner le capitaine (l'agent), parfois il faut juste acheter de meilleures chaussures à l'équipe (les outils), et parfois il faut créer un manager spécial qui aide le capitaine à mieux utiliser l'équipe (l'adaptation T2). L'avenir de l'IA intelligente repose sur le bon mélange de ces quatre stratégies.

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

1. Le Génie lui-même (L'Agent)

2. Les Outils du Génie (Les Outils)

Pourquoi tout cela est important ? (Le grand tableau)

En résumé

1. Problématique et Contexte

2. Méthodologie : Le Cadre à Quatre Paradigmes

A. Adaptation de l'Agent (Agent Adaptation)

B. Adaptation de l'Outil (Tool Adaptation)

3. Contributions Clés

4. Résultats et Observations Principales

5. Signification et Perspectives Futures

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

1. Le Génie lui-même (L'Agent)

2. Les Outils du Génie (Les Outils)

Pourquoi tout cela est important ? (Le grand tableau)

En résumé

1. Problématique et Contexte

2. Méthodologie : Le Cadre à Quatre Paradigmes

A. Adaptation de l'Agent (Agent Adaptation)

B. Adaptation de l'Outil (Tool Adaptation)

3. Contributions Clés

4. Résultats et Observations Principales

5. Signification et Perspectives Futures

Articles similaires

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance