SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un assistant très intelligent, un peu comme un génie dans une lampe, mais qui a un problème : il a une mémoire formidable pour ce qu'il a appris à l'école, mais il ne connaît pas les actualités d'aujourd'hui, ni les documents secrets de votre entreprise.

C'est là qu'intervient le RAG (Retrieval-Augmented Generation). C'est comme donner à ce génie une bibliothèque à portée de main. Quand vous posez une question, il va chercher dans la bibliothèque, lit les livres pertinents, et vous donne une réponse basée sur ce qu'il vient de lire.

Mais, jusqu'à récemment, ce système était un peu rigide. C'était comme un robot qui suit un chemin tout tracé : Lire un livre -> Répondre. Si le premier livre qu'il a choisi était mauvais, il se trompait, et il ne pouvait pas revenir en arrière pour en chercher un autre.

Cette nouvelle étude (un "SoK" ou État des Lieux) parle de l'évolution de ce système vers le RAG Agentique. Voici l'explication simple, avec des images pour mieux comprendre :

1. Le passage du "Lecteur Passif" au "Détective Actif"

L'ancien système (RAG Statique) :
Imaginez un étudiant qui doit rédiger un exposé. Il ouvre un seul livre, lit le premier chapitre, et écrit sa réponse. S'il manque une information, il ne le sait pas et continue d'écrire n'importe quoi. C'est ce qu'on appelle le "RAG statique".

Le nouveau système (RAG Agentique) :
Maintenant, imaginez un détective privé ou un chef d'orchestre.

Il ne se contente pas de lire un livre. Il réfléchit : "Attends, ce livre ne me dit pas tout. Je dois aller chercher un autre document."
Il peut changer de stratégie en cours de route.
Il peut utiliser différents outils (un calculatrice, une base de données, un moteur de recherche).
Il peut dire : "J'ai fait une erreur, je vais recommencer cette étape."

C'est ça, le RAG Agentique : une intelligence artificielle qui ne se contente pas de répondre, mais qui planifie, cherche, vérifie et corrige ses propres actions, comme un humain le ferait.

2. Comment ça marche ? (Les pièces du puzzle)

Les auteurs de l'article ont décortiqué ces systèmes pour voir comment ils sont construits. Ils les comparent à une équipe de travail très organisée :

Le Stratège (Le Planificateur) : C'est le chef qui reçoit votre demande. Il la décompose en petites tâches. "Pour répondre à cette question complexe, je dois d'abord chercher les dates, puis les noms des personnes, et enfin comparer les deux."
Le Chasseur (Le Moteur de Recherche) : C'est celui qui va réellement chercher les documents. Mais contrairement à l'ancien système, il ne cherche pas n'importe quoi. Il écoute le Stratège et adapte sa recherche en fonction de ce qu'il a déjà trouvé.
Le Mémoire (La Mémoire) : C'est le carnet de notes. Le système doit se souvenir de ce qu'il a déjà lu, de ses erreurs passées et de ce qu'il a déjà fait, pour ne pas tourner en rond.
Le Vérificateur (Le Contrôleur) : C'est le garde du corps. Avant de donner la réponse finale, il vérifie : "Est-ce que cette information est vraie ? Est-ce que j'ai bien utilisé les outils ?"

3. Les pièges et les dangers (Pourquoi c'est risqué)

Comme tout système puissant, le RAG Agentique a ses défauts, un peu comme une voiture de course très rapide mais difficile à piloter :

L'effet "Boule de Neige" (Hallucinations en cascade) : Si le détective se trompe dès la première recherche, il va utiliser cette mauvaise information pour chercher la suivante. L'erreur s'agrandit à chaque étape, comme une boule de neige qui dévale une pente.
Le "Poison" de la Mémoire : Si quelqu'un met un faux document dans la bibliothèque du détective, et que le détective le mémorise, il risque de se tromper à chaque fois qu'il consulte ses notes, même des jours plus tard.
La boucle infinie : Parfois, le détective peut se perdre dans ses propres pensées, chercher encore et encore sans jamais trouver la réponse, épuisant ainsi le temps et l'argent (les "tokens" ou crédits) de l'entreprise.

4. Comment on les juge ? (Nouveau mode d'évaluation)

Avant, on jugeait un système d'IA uniquement sur la réponse finale. C'était comme noter un élève uniquement sur la note de son examen, sans regarder comment il a raisonné.

Les auteurs disent qu'il faut changer de méthode. Il faut maintenant évaluer le chemin parcouru :

Est-ce que le détective a bien planifié ses étapes ?
A-t-il choisi les bons documents ?
A-t-il su se corriger quand il s'est trompé ?
A-t-il été efficace ou a-t-il gaspillé du temps ?

C'est comme juger un cuisinier non pas seulement sur le goût du plat final, mais sur sa capacité à choisir les bons ingrédients, à nettoyer son plan de travail et à ne pas brûler la sauce.

5. Le futur : Vers des systèmes plus sûrs

L'article conclut en disant que pour que ces systèmes soient vraiment utiles dans le monde réel (médecine, droit, finance), il faut résoudre de gros problèmes :

Comment s'assurer qu'ils ne tournent pas en boucle infinie ?
Comment les protéger contre les documents falsifiés ?
Comment les rendre moins coûteux à utiliser ?

En résumé :
Ce papier nous dit que nous sommes passés de simples "lecteurs de livres" à de véritables "agents autonomes". C'est une révolution formidable, mais qui demande une nouvelle façon de construire, de surveiller et de juger ces intelligences artificielles pour qu'elles soient fiables, sûres et efficaces. C'est le passage d'un outil passif à un véritable partenaire de travail, mais un partenaire qu'il faut apprendre à bien encadrer.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du papier de recherche "SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions" (Systématisation des connaissances sur le RAG Agentic).

1. Problématique et Contexte

Les systèmes de Génération Augmentée par Récupération (RAG) traditionnels fonctionnent selon un flux de contrôle statique et linéaire : un récupérateur extrait un ensemble fixe de documents basé sur une requête utilisateur, puis un générateur (LLM) produit une réponse. Cette approche présente plusieurs limites critiques :

Fragilité : Elle échoue dans les tâches complexes nécessitant un raisonnement multi-sauts (multi-hop) ou une reformulation dynamique de la requête.
Manque d'adaptabilité : Le système ne peut pas corriger ses erreurs de récupération ni ajuster sa stratégie en cours de route.
Surcharge contextuelle : L'injection de contextes non pertinents dégrade la qualité de la réponse (effet "lost in the middle").

Bien que l'adoption industrielle de systèmes "agentic" (autonomes) soit rapide, la recherche manque d'une compréhension systématique de ces architectures. Il n'existe pas de taxonomie unifiée, les méthodes d'évaluation sont incohérentes (basées sur des métriques statiques) et les risques de fiabilité (hallucinations en cascade, empoisonnement de la mémoire) sont mal définis.

2. Méthodologie et Formalisation

Les auteurs adoptent une approche de Systématisation des Connaissances (SoK) pour structurer le domaine. Leur méthodologie repose sur trois piliers :

A. Formalisation Mathématique (POMDP)

Le papier propose de modéliser le RAG Agentic non pas comme un pipeline de traitement, mais comme un Processus de Décision Markovien Partiellement Observable (POMDP) à horizon fini.

État ( $S_{env}$ ) : La vérité latente dans la base de connaissances.
Action ( $A$ ) : Un espace discret incluant la récupération, le raisonnement, l'appel d'outils et la terminaison.
Observation ( $O$ ) : Les chunks de texte ou les résultats d'outils retournés.
Politique ( $\pi_\theta$ ) : Contrôlée par le LLM, elle décide de la prochaine action en fonction de l'historique observable (mémoire).
Objectif : Maximiser la qualité de la réponse finale tout en minimisant les coûts computationnels (latence, tokens).

B. Taxonomie Multidimensionnelle

Les auteurs établissent une taxonomie complète organisant les systèmes selon quatre axes orthogonaux :

Topologie Architecturale : Agent unique, Architectures Planificateur-Exécutant, ou Systèmes Multi-Agents.
Stratégie de Récupération : Récupération en un seul coup (One-shot), itérative, ou auto-affinante (Self-Refining).
Paradigme de Raisonnement : Chaîne de pensée (CoT), ReAct (raisonnement + action), réflexion (Reflexion), ou exploration arborescente (Tree-of-Thoughts).
Gestion de la Mémoire : Mémoire à court terme (contexte), mémoire épisodique (trajectoires passées) et mémoire persistante à long terme.

C. Décomposition Architecturale et Motifs de Conception

Le papier décompose les systèmes en modules fonctionnels (Planificateur, Moteur de Récupération, Moteur de Raisonnement, Système de Mémoire, Orchestration d'outils) et identifie des motifs de conception récurrents (Design Patterns) tels que :

Plan-then-Retrieve : Décomposition de la tâche avant la recherche.
Retrieve-Reflect-Refine : Boucle itérative de critique et d'amélioration.
Multi-Agent Collaboration : Division du travail entre agents spécialisés.
Human-as-a-Tool (HITL) : Intégration de l'humain pour la validation des incertitudes.

3. Contributions Clés

Premier cadre unifié : Définition formelle du RAG Agentic comme un processus de décision séquentiel, distinguant clairement les systèmes "actifs" (Active RAG) des véritables systèmes "agentic" (basés sur une politique de contrôle autonome).
Taxonomie exhaustive : Classification des systèmes existants selon leurs mécanismes de planification, d'orchestration de récupération et de gestion de la mémoire.
Blueprint Architectural : Identification des composants modulaires essentiels et des motifs de conception pour construire des systèmes robustes.
Réforme de l'Évaluation : Critique des métriques statiques (BLEU, ROUGE) et proposition d'une évaluation en trois couches :
- Niveau Composant : Justesse des outils et de la récupération.
- Niveau Trajectoire : Cohérence du raisonnement, taux de progression, efficacité de l'information.
- Niveau Système : Fiabilité globale, coût et latence.
Analyse des Risques : Identification des vulnérabilités systémiques spécifiques aux boucles autonomes (hallucinations en cascade, injection de prompts indirecte, empoisonnement de la mémoire).

4. Résultats et Analyses

Limites des métriques actuelles : Les auteurs démontrent que les métriques traditionnelles échouent à détecter les erreurs de raisonnement intermédiaires ou les boucles infinies, favorisant les réponses correctes par hasard plutôt que par logique.
Risques de sécurité : L'itération amplifie les risques. Une erreur initiale (ex: récupération biaisée) se propage et se renforce dans les étapes suivantes (boucles d'hallucination). De plus, l'injection de prompts dans les documents récupérés peut manipuler le comportement de l'agent sur plusieurs tours.
Déploiement Industriel : Les frameworks industriels (LangGraph, AutoGen, etc.) montrent une tendance vers l'orchestration modulaire, mais souffrent souvent de problèmes de latence empilée (latency stacking) et de coûts de tokens exponentiels dus à l'itération.

5. Signification et Directions de Recherche Futures

Ce papier établit une feuille de route pour transformer le RAG Agentic d'une collection d'heuristiques empiriques en un domaine d'ingénierie rigoureux. Les auteurs identifient cinq grands défis de recherche (niveau doctoral) :

Récupération Adaptative Stable : Garantir la convergence des boucles de récupération itérative et éviter la dérive sémantique (théorie du contrôle).
Évaluation Formelle du Raisonnement : Développer des méthodes pour vérifier la validité logique des trajectoires de raisonnement, pas seulement le résultat final.
Robustesse de la Mémoire : Sécuriser les mémoires persistantes contre l'empoisonnement et les injections adverses.
Orchestration Consciente des Coûts : Optimiser le compromis entre la profondeur du raisonnement et les coûts computationnels (recherche opérationnelle).
Calibration de la Confiance : Développer des mécanismes pour que l'agent quantifie son incertitude et déclenche une intervention humaine (HITL) de manière autonome.

Conclusion :
Le papier conclut que le RAG Agentic ne doit pas être vu comme une simple extension de la récupération, mais comme un système de décision séquentiel complexe. La transition vers des systèmes fiables, contrôlables et évolutifs nécessite une convergence interdisciplinaire entre la théorie du contrôle, la vérification formelle, la cybersécurité et la recherche opérationnelle.