SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem klugen, aber manchmal etwas vergesslichen Assistenten, der ein riesiges Wissen in seinem Kopf hat (das ist die KI oder das „Large Language Model").

Früher war dieser Assistent wie ein Student, der für eine Prüfung lernt, aber keine Bücher zur Hand hat. Wenn er eine Frage bekam, musste er sich alles aus dem Gedächtnis holen. Das funktionierte gut für einfache Dinge, aber bei komplizierten Fragen oder wenn er Fakten brauchte, die er nicht gelernt hatte, fing er an zu halluzinieren (Dinge zu erfinden, die nicht stimmen).

Dann kam das Konzept RAG (Retrieval-Augmented Generation). Das war wie ein Assistent, dem man eine Bibliothek gab. Bevor er antwortete, schaute er schnell in ein paar Bücher nach. Das war besser, aber der Assistent war immer noch etwas stur: Er schaute einmal in die Bücher, egal ob er die richtige Antwort fand oder nicht, und schrieb dann sofort seine Antwort auf. Wenn er das erste Buch falsch verstand, war die ganze Antwort falsch.

Was ist „Agentic RAG"?

Dieses Papier beschreibt den nächsten großen Schritt: Den Assistenten zu einem autonomen Agenten zu machen. Stell dir das nicht mehr wie einen Studenten vor, sondern wie einen erfahrenen Detektiv oder einen Chefarchitekten.

Hier ist die einfache Erklärung der wichtigsten Punkte des Papiers, mit ein paar kreativen Vergleichen:

1. Der Detektiv statt des Studenten (Der Kernunterschied)

Ein normaler RAG-Assistent ist wie ein Student, der eine Frage bekommt, schnell ein Buch aufschlägt und sofort schreibt.
Ein Agentic RAG ist wie ein Detektiv:

Er hört sich die Frage an.
Er denkt: „Hmm, das reicht mir nicht. Ich muss erst mal hier nachschauen."
Er sucht etwas.
Er denkt: „Okay, das passt, aber ich brauche noch eine Bestätigung von einem anderen Zeugen."
Er sucht wieder, vergleicht die Ergebnisse, wirft falsche Informationen weg und fragt vielleicht sogar einen Kollegen um Rat.
Erst wenn er sich sicher ist, schreibt er den Bericht auf.

Das Papier sagt: Wir müssen aufhören, diese Systeme nur als „Suchmaschinen" zu sehen. Sie sind Entscheidungsmaschinen, die in mehreren Schritten planen, suchen, prüfen und handeln.

2. Die Bausteine des Agenten (Die Architektur)

Das Papier zerlegt diesen „Detektiv" in verschiedene Abteilungen, damit man versteht, wie er funktioniert:

Der Planer (Der Chef): Er denkt sich den Gesamtplan aus. „Wir müssen zuerst das Finanzbuch prüfen, dann das Wetter, und dann die E-Mail lesen."
Der Sucher (Der Bibliothekar): Er holt die Informationen, aber nicht blind. Er fragt den Planer: „Was genau brauchst du jetzt?"
Das Gedächtnis (Das Notizbuch): Der Agent vergisst nicht, was er vor 10 Minuten gefunden hat. Er schreibt wichtige Dinge in ein Notizbuch, damit er sie später nutzen kann.
Der Werkzeugkasten: Der Agent kann nicht nur lesen, sondern auch Dinge tun: Code ausführen, Datenbanken abfragen oder APIs nutzen.

3. Die Gefahren (Warum wir vorsichtig sein müssen)

Das Papier warnt auch vor neuen Problemen, die es beim alten „Studenten" nicht gab:

Der Teufelskreis der Halluzination: Wenn der Detektiv in Schritt 1 eine falsche Information findet und sie in sein Notizbuch schreibt, nutzt er diese falsche Info in Schritt 2, um eine neue Frage zu stellen. Das führt dazu, dass er sich immer mehr in die falsche Richtung verirrt. Ein kleiner Fehler wird zu einem riesigen Problem.
Das „Vergiftete Notizbuch": Wenn jemand böswillig eine falsche Information in das Notizbuch des Agenten schreibt (Memory Poisoning), dann wird der Agent bei jeder zukünftigen Aufgabe von dieser Lüge beeinflusst.
Die endlose Schleife: Manchmal denkt der Agent, er müsse noch einmal suchen, und sucht noch einmal, und noch einmal, bis er alle seine „Geld" (Rechenleistung) ausgegeben hat, ohne eine Antwort zu haben.

4. Wie testen wir das? (Die Bewertung)

Früher haben wir nur geschaut: „Hat der Assistent die richtige Antwort auf dem Zettel?"
Jetzt reicht das nicht mehr. Wir müssen den gesamten Weg des Detektivs bewerten:

Hat er die richtigen Bücher gesucht?
Hat er die falschen Informationen erkannt und weggeworfen?
Hat er nicht zu lange gebraucht?
War sein Plan logisch?

Das Papier schlägt vor, dass wir nicht nur das Endergebnis prüfen, sondern den gesamten Denkprozess (die Spur, die der Agent hinterlässt).

5. Wohin geht die Reise? (Zukunft)

Die Autoren sagen: Wir müssen diese Systeme nicht nur „herumprobieren", sondern sie wissenschaftlich fundiert bauen. Wir brauchen:

Sicherheitsnetze: Damit der Agent nicht in endlose Schleifen gerät.
Bessere Gedächtnis-Sicherheit: Damit niemand das Notizbuch vergiften kann.
Kostenkontrolle: Damit der Agent nicht zu teuer wird, indem er unnötig oft sucht.
Menschliche Aufsicht: In wichtigen Fällen (wie Medizin oder Recht) sollte der Agent wissen, wann er den Menschen fragen muss, statt alles selbst zu entscheiden.

Zusammenfassung in einem Satz

Dieses Papier ist wie eine Bauanleitung und Warnung für die nächste Generation von KI-Assistenten: Sie sind nicht mehr nur kluge Suchmaschinen, sondern eigenständige Denker, die wir verstehen, strukturieren und sicher machen müssen, damit sie uns nicht in die Irre führen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions" auf Deutsch.

1. Problemstellung

Das Paper adressiert die kritische Lücke zwischen statischen Retrieval-Augmented-Generation (RAG)-Systemen und der aufkommenden Generation autonomer „Agentic RAG"-Systeme.

Limitationen statischer RAG: Herkömmliche RAG-Pipelines folgen einem starren, linearen Ablauf („Retrieve-then-Generate"). Sie leiden unter Kontext-Überlastung, können keine adaptiven Mehrschritt-Entscheidungen treffen und haben keine Korrekturschleifen, wenn die initiale Suche fehlschlägt oder verrauschte Daten liefert.
Fehlende Systematisierung: Trotz der schnellen industriellen Adoption von Agentic RAG (wo LLMs autonom Multi-Step-Reasoning, dynamisches Memory-Management und iterative Suchstrategien koordinieren) fehlt es an einem einheitlichen Verständnis. Die Forschung ist fragmentiert, Evaluierungsmethoden sind inkonsistent (oft auf statische Antwortmetriken beschränkt), und es bestehen ungelöste Risiken hinsichtlich Zuverlässigkeit und Sicherheit (z. B. sich verstärkende Halluzinationen).
Kernproblem: Es besteht keine klare formale Abgrenzung zwischen einfacher „aktiver" Iteration und echter autonomer Agenten-Logik, was die Entwicklung robuster, skalierbarer Systeme behindert.

2. Methodik

Die Autoren wenden einen „Systematization of Knowledge" (SoK)-Ansatz an, der auf einer rigorosen formalen Modellierung und einer multidimensionalen Analyse basiert:

Formale Definition (POMDP): Agentic RAG wird als endlicher, teilweise beobachtbarer Markov-Entscheidungsprozess (POMDP) formalisiert. Das System wird als Tupel definiert, das Zustände ( $S$ ), Aktionen ( $A$ ), Beobachtungen ( $O$ ), eine Kontrollpolitik ( $\pi_\theta$ ), Gedächtnis ( $M$ ) und Übergangsfunktionen ( $T$ ) umfasst. Dies modelliert den Such- und Denkprozess als sequenzielle Entscheidungsfindung unter Unsicherheit.
Taxonomie-Entwicklung: Basierend auf der formalen Definition wird eine mehrdimensionale Taxonomie entwickelt, die Systeme nach vier orthogonalen Achsen klassifiziert:
1. Planungsstrategien (z. B. Single-Agent vs. Multi-Agent, Planner-Executor).
2. Retrieval-Orchestrierung (One-Shot, Iterativ, Selbst-verfeinernd).
3. Gedächtnis-Paradigmen (Kurzzeit-Arbeitsgedächtnis, episodisches Gedächtnis, persistente Langzeit-Speicher).
4. Tool-Interaktion (Art und Weise der Tool-Aufrufe und -Validierung).
Architekturelle Zerlegung: Die Systeme werden in modulare Komponenten zerlegt (Planner, Retrieval-Engine, Reasoning-Engine/Controller, Memory-Systeme, Tool-Orchestrierungsschicht, Verifikationsmodule), um wiederkehrende Designmuster zu identifizieren.
Evaluierungs-Framework: Statt statischer Metriken (BLEU, ROUGE) wird ein mehrschichtiges Evaluierungsmodell vorgeschlagen, das Komponenten-, Trajektorien- und Systemebene betrachtet.

3. Schlüsselbeiträge

Das Paper liefert fünf Hauptbeiträge zur Forschung und Praxis:

Formale Konzeptualisierung: Agentic RAG wird erstmals explizit als sequenzieller Entscheidungsprozess definiert, der Planung, Retrieval, Gedächtnis und Tool-Interaktion integriert. Dies grenzt es klar von rein iterativen RAG-Ansätzen ab.
Umfassende Taxonomie: Eine neue Klassifikation, die Designräume strukturiert und Architekturen nach ihren Planungsmechanismen, Retrieval-Strategien und Gedächtnisparadigmen kategorisiert.
Architektonische Blaupause: Eine detaillierte Zerlegung in wiederverwendbare Designmuster (z. B. „Plan-then-Retrieve", „Retrieve-Reflect-Refine", „Multi-Agent Collaboration") und eine Analyse der Trade-offs zwischen Kosten, Latenz und Risiko.
Evaluierungs-Reform: Kritik an bestehenden Benchmarks und Einführung eines dreischichtigen Evaluierungsframeworks, das die Qualität des Denkpfades (Trajektorie), die Effizienz des Retrievals und die Robustheit der Tool-Nutzung misst.
Risikoidentifikation und Forschungsagenda: Eine strukturierte Analyse von Sicherheitsrisiken (Prompt Injection, Memory Poisoning, kaskadierende Fehler) und die Definition von fünf „Grand Challenges" für zukünftige Doktorarbeiten.

4. Ergebnisse und Erkenntnisse

Architektonische Evolution: Der Übergang von statischen Pipelines zu agenticen Systemen erfordert einen Wechsel von deterministischen Abläufen zu zyklischen, politikgesteuerten Kontrollschleifen.
Design-Patterns: Es wurden sieben dominante Designmuster identifiziert, die unterschiedliche Stärken und Schwächen aufweisen. Beispielsweise bietet das „Multi-Agent Collaboration"-Muster hohe Spezialisierung, führt aber zu massiver Token-Amplifikation und Koordinations-Overhead.
Evaluierungs-Lücke: Herkömmliche Metriken versagen bei Agentic RAG, da sie den Denkprozess ignorieren. Ein Agent kann das richtige Ergebnis durch falsche Logik erzielen (oder umgekehrt). Neue Metriken wie „Progress Rate" (Fortschrittsrate) und „Effective Information Rate" (Effektivitätsrate des Informationsgewinns) sind notwendig.
Sicherheitsrisiken: Die Iterativität führt zu neuen Angriffsvektoren. Fehler in frühen Schritten (z. B. eine falsche Tool-Auswahl) verstärken sich in nachfolgenden Schritten (kaskadierende Fehler). Zudem ist „Memory Poisoning" (das Vergiften des Langzeitgedächtnisses) eine kritische, persistente Bedrohung, die in statischen Systemen nicht existiert.
Industrielle Realität: Während akademische Prototypen oft unconstrained sind, müssen industrielle Systeme strenge Budgets (Token-Kosten, Latenz) und Sicherheitsgrenzen einhalten. Es besteht eine Kluft zwischen akademischer Flexibilität und industrieller Deterministik.

5. Bedeutung und Ausblick

Dieses Paper stellt einen Meilenstein für das Feld dar, indem es Agentic RAG von einem reinen Prompt-Engineering-Phänomen zu einem System-Engineering-Problem erhebt.

Theoretische Fundierung: Durch die POMDP-Formalisierung erhält das Feld eine mathematische Basis für Stabilitätsanalysen und Konvergenzbeweise.
Praxisrelevanz: Die bereitgestellte Taxonomie und die Designmuster helfen Entwicklern, robuste Architekturen zu entwerfen, die Kosten, Latenz und Zuverlässigkeit balancieren.
Zukünftige Forschungsrichtungen: Das Paper skizziert fünf kritische Forschungsgebiete, die interdisziplinäre Zusammenarbeit erfordern:
1. Stabile adaptive Retrieval unter Planungs-Schleifen (Kontrolltheorie).
2. Formale Evaluierung von Reasoning-Trajektorien (Formale Verifikation).
3. Robustheit gegen Memory Poisoning (Cybersicherheit).
4. Kostenbewusste autonome Orchestrierung (Operations Research).
5. Vertrauenskalibrierung und menschliche Aufsicht (Human-Computer Interaction).

Zusammenfassend liefert das Paper eine definitive Roadmap, um Agentic RAG-Systeme von experimentellen Prototypen zu verlässlichen, kontrollierbaren und skalierbaren autonomen Wissenssystemen für Hochrisiko-Umgebungen zu entwickeln.

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

1. Der Detektiv statt des Studenten (Der Kernunterschied)

2. Die Bausteine des Agenten (Die Architektur)

3. Die Gefahren (Warum wir vorsichtig sein müssen)

4. Wie testen wir das? (Die Bewertung)

5. Wohin geht die Reise? (Zukunft)

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik

3. Schlüsselbeiträge

4. Ergebnisse und Erkenntnisse

5. Bedeutung und Ausblick

Mehr davon

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance