SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel groot raadsel moet oplossen, maar de aanwijzingen zijn verspreid over honderden verschillende boeken in een enorme bibliotheek. Als je één persoon vraagt om al die boeken in één keer te lezen en het antwoord te vinden, wordt die persoon snel overweldigd. Ze raken de draad kwijt, missen belangrijke details of vergeten wat er in boek 50 stond terwijl ze boek 100 lezen.

Dit is precies het probleem dat moderne kunstmatige intelligentie (AI) heeft als het moet zoeken in enorme documenten. De nieuwe methode uit dit paper, genaamd SPD-RAG, lost dit op met een slimme aanpak die we kunnen vergelijken met een professioneel detective-team.

Hier is hoe het werkt, in simpele taal:

1. De oude manier: De "Alles-weet-alleen" Detective

Stel je een enkele detective voor die alle boeken in de bibliotheek moet doorzoeken.

Het probleem: Als er 100 boeken zijn, kan de detective niet alles tegelijk onthouden. Hij pakt misschien de eerste 10 boeken, leest die, en denkt: "Oké, hier is het antwoord." Maar hij mist de cruciale aanwijzing die in boek 95 stond.
De consequentie: Het antwoord is vaak onvolledig of foutief.

2. De SPD-RAG manier: Het Detective-Team

In plaats van één detective, sturen we een hoofdinspecteur en een team van gespecialiseerde agenten.

De Hoofdinspecteur (De Coördinator):
Deze persoon krijgt de vraag van de klant. Hij denkt niet zelf het antwoord uit, maar beseft: "Dit is een complex probleem. We moeten dit opsplitsen." Hij maakt een duidelijke lijst met instructies: "Jullie moeten allemaal zoeken naar specifieke cijfers en namen in jullie eigen boek."
De Gespecialiseerde Agenten (De Sub-agenten):
Nu gebeurt het magische: Elk boek krijgt zijn eigen detective.
- Agent A kijkt alleen naar Boek 1.
- Agent B kijkt alleen naar Boek 2.
- Agent C kijkt alleen naar Boek 3.
Omdat Agent A alleen naar Boek 1 hoeft te kijken, kan hij zich volledig concentreren. Hij leest het boek tot in de kleinste details, zoekt naar elke aanwijzing die relevant is, en maakt een beknopt verslag. Hij hoeft zich geen zorgen te maken over wat er in de andere boeken staat. Dit gebeurt allemaal tegelijkertijd (paralell), dus het duurt niet langer dan het lezen van één boek.
De Samenvoeger (De Synthese-laag):
Als alle agenten hun verslagen hebben ingeleverd, neemt de Hoofdinspecteur deze stukjes informatie en plakt ze samen tot één groot, compleet verhaal.
- Als het verslag te lang wordt, gebruikt hij een slimme truc: hij groepeert de meest vergelijkbare stukjes informatie eerst en vat die samen, net zoals je een berg losse puzzelstukken eerst in kleine groepjes sorteert voordat je ze tot één plaatje maakt.

Waarom is dit zo slim?

Geen vergeten details: Omdat elke agent zich alleen op één document richt, wordt er niets over het hoofd gezien. Het is alsof je 100 mensen vraagt om elk één pagina van een boek te controleren, in plaats van één persoon die het hele boek moet scannen.
Kostenbesparing: Het is goedkoper om 100 kleine, snelle detectives (die minder "hersencapaciteit" nodig hebben) te betalen dan één super-detective die urenlang moet nadenken over alles. In de paper blijkt dat deze methode 76% betere antwoorden geeft dan de oude methoden, maar slechts 38% van de kosten kost van de duurste manier.
Schaalbaarheid: Of je nu 10 of 10.000 boeken hebt, het systeem werkt hetzelfde. Je geeft gewoon een nieuwe agent een nieuw boek.

De Resultaten in het Kort

De onderzoekers hebben dit getest op een moeilijke test (het "Loong"-benchmark), waarbij AI moest antwoorden op vragen over financiële rapporten en wetenschappelijke artikelen.

De oude AI: Haalde een score van ongeveer 33 (van 100).
De nieuwe SPD-RAG: Haalde een score van 58.
De "Perfecte" AI (die alles in één keer leest): Haalde 68, maar kostte bijna drie keer zoveel geld en tijd.

Conclusie:
SPD-RAG leert ons dat voor complexe vragen niet "meer kracht" (een grotere AI die alles in één keer leest) de oplossing is, maar slimmer werken. Door het werk op te splitsen in kleine, gespecialiseerde taken en die later slim samen te voegen, krijg je een veel accurater antwoord voor een fractie van de prijs. Het is de kracht van samenwerking in plaats van eenzame heldenmoed.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation" in het Nederlands.

1. Het Probleem

Het beantwoorden van complexe, real-world vragen vereist vaak het synthetiseren van feiten die verspreid liggen over enorme documentcorpora. Bestaande systemen kampen met twee fundamentele beperkingen in deze scenario's:

Onvolledige dekking bij standaard RAG: Traditionele Retrieval-Augmented Generation (RAG) pipelines halen een vast aantal documenten (top-K) op. Als het antwoord informatie bevat die verspreid is over alle documenten (en niet alleen de top-K), gaat cruciaal bewijs verloren.
Redeneringsdegradatie bij lange contexten: Hoewel Large Language Models (LLMs) nu contextvensters van 128K tot 2M tokens kunnen verwerken, blijkt empirisch dat de kwaliteit van het redeneren afneemt naarmate de contextlengte toeneemt ("lost in the middle" fenomeen).
Schaalbaarheid: Het verwerken van honderden of duizenden documenten in één enkele context is vaak te duur of technisch onhaalbaar, terwijl het splitsen van taken vaak leidt tot fragmentatie van informatie.

2. Methodologie: SPD-RAG

De auteurs introduceren SPD-RAG (Sub-agent Per Document RAG), een hiërarchisch multi-agent framework dat het probleem decomposeert langs de document-as in plaats van de taak-as. De architectuur bestaat uit drie lagen:

A. Coördinatie-laag (Coordination Layer)

Een centrale "coordinator agent" ontvangt de gebruikersvraag en de corpus. Deze agent deconstructeert de vraag in:

Een gedeelde instructie-set voor documenten (wat moet er worden geëxtraheerd?).
Synthese-instructies voor de downstream-laag.
De output is gestructureerd als een WriteTodos-object met specifieke extractietaken.

B. Parallelle Retrieval-laag (Parallel Retrieval Layer)

Dit is het kerninnovatiepunt:

Toewijzing: Elke document $d_i$ in het corpus krijgt een dedicated sub-agent ( $\alpha_i$ ).
Isolatie: Elke sub-agent werkt uitsluitend binnen zijn toegewezen document als een geïsoleerd "retrieval universum". Dit voorkomt dat afleidende chunks uit andere documenten de lokale extractie verstoren.
Iteratief proces: De agent voert een retrieve-and-reason loop uit binnen het document (maximaal 5 zoekopdrachten), waarbij het dichte vectorretrieval (Qdrant) en her-ranking (Cohere) gebruikt om relevante stukken te vinden.
Output: Elke agent produceert een rapport met bevindingen en een relevantie-score. Alle agents werken parallel via een fan-out mechanisme (LangGraph).

C. Synthese-laag (Synthesis Layer)

De output van alle sub-agents moet worden samengevoegd tot één antwoord.

Recursieve Map-Reduce: Om contextlimieten te omzeilen en schaalbaarheid te garanderen, gebruikt de laag een dynamische, recursieve map-reduce pipeline.
Semantische Sortering: Bevindingen worden ingesloten (embedded) en gesorteerd op semantische gelijkenis.
Agglomeratieve Clustering: Een hiërarchische clustering (UPGMA) groepeert vergelijkbare samenvattingen.
Token-gedreven samenvoeging: Groepen worden samengevoegd zolang ze binnen een token-budget blijven (bijv. 750k tokens). Dit proces herhaalt zich totdat er één finale samenvatting overblijft. Dit zorgt voor schaalbaarheid naar corpora met duizenden documenten.

3. Belangrijkste Bijdragen

Architectuur: Een hiërarchisch multi-agent systeem dat per-document specialisatie combineert met een centrale synthese-laag. Dit zorgt voor diepgaande analyse van elk document zonder de contextlimieten van één enkel model te overschrijden.
Schaalbaarheid en Kwaliteit: Het systeem lost het "Leave No Document Behind" probleem op door elk document te behandelen als een gespecialiseerde eenheid, wat essentieel is voor vragen waarbij het antwoord verspreid ligt over het hele corpus.
Efficiëntie: Door het gebruik van goedkopere modellen (Gemini 2.5 Flash) voor de document-sub-agents en een krachtiger model (Gemini 2.5 Pro) alleen voor coördinatie en synthese, wordt de API-kost drastisch verlaagd ten opzichte van full-context baselines.

4. Resultaten

De evaluatie vond plaats op de Loong-benchmark (EMNLP 2024), specifiek gericht op lange context en multi-document QA (financiële rapporten en academische papers).

Prestatie: SPD-RAG behaalde een Avg Score van 58,1 (beoordeeld door GPT-5).
- Dit is een aanzienlijke verbetering ten opzichte van Normal RAG (33,0) en Agentic RAG (32,8).
- Het systeem bereikte 85,4% van de kwaliteit van de "Oracle Full-Context Baseline" (68,0), maar deed dit met slechts 37,9% van de API-kosten.
Kosten-Kwaliteit Trade-off: SPD-RAG is 2,25x efficiënter in kosten-kwaliteit dan de full-context baseline. Het kost slechts $0,103 per query, vergeleken met $0,273 voor de full-context baseline.
Specifieke Verbeteringen:
- De prestaties waren het sterkst bij taken die diepe cross-document synthese vereisen: Clustering (+40,5 punten t.o.v. Normal RAG) en Chain of Reasoning (+26,2 punten t.o.v. Agentic RAG).
- Bij Academische Papers faalden standaard RAG-systemen volledig (0% Perfect Rate), terwijl SPD-RAG hier een score van 60,0 haalde.
Latentie: Er is een lichte toename in latentie (54,8s vs ~42s voor baselines) door de multi-agent architectuur, maar dit wordt opgewogen door de kwaliteitswinst.

5. Betekenis en Conclusie

SPD-RAG demonstreert dat voor complexe informatiezoekopdrachten in grote corpora, de manier waarop informatie wordt verwerkt cruciaal is. Het bewijst dat het toewijzen van een dedicated, geïsoleerde agent aan elk document (in plaats van het dumpen van alles in één contextvenster) een effectievere, kostenefficiëntere en schaalbaardere strategie is.

De methologie lost het fundamentele spanningsveld op tussen:

De noodzaak om alle relevante documenten te raadplegen (dekking).
De beperkingen van LLM's in het redeneren over extreem lange contexten.

Dit maakt SPD-RAG een veelbelovende oplossing voor real-world toepassingen zoals het analyseren van jarenlange financiële rapporten, juridische dossiers of grote verzamelingen wetenschappelijke literatuur, waar traditionele RAG-systemen vaak tekortschieten.

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

1. De oude manier: De "Alles-weet-alleen" Detective

2. De SPD-RAG manier: Het Detective-Team

Waarom is dit zo slim?

De Resultaten in het Kort

1. Het Probleem

2. Methodologie: SPD-RAG

A. Coördinatie-laag (Coordination Layer)

B. Parallelle Retrieval-laag (Parallel Retrieval Layer)

C. Synthese-laag (Synthesis Layer)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance