Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een rechercheur bent die een uitgebreid rapport moet schrijven over een complex onderwerp, bijvoorbeeld "De toekomst van ruimtevaart".

Vroeger deed je dit zo: je ging naar de bibliotheek, zocht boeken uit, en plakte de beste pagina's achter elkaar op een vel papier. Dat was je eindresultaat.

Vandaag gebruiken we AI (zoals een slimme chatbot) om dit te doen. Maar de AI kan niet uit het niets weten wat er in de boeken staat. Daarom gebruiken we een systeem dat RAG (Retrieval-Augmented Generation) heet.

De Zoeker (Retrieval): Een robot die eerst de beste pagina's uit de bibliotheek zoekt.
De Schrijver (Generation): De AI die die pagina's leest en een mooi, samenhangend verhaal schrijft.

Dit artikel van onderzoekers van o.a. de Johns Hopkins Universiteit stelt een heel belangrijke vraag: Is het belangrijk dat de Zoeker perfect werkt, of kan de Schrijver het ook wel alleen redden als de Zoeker wat minder goed is?

Hier is de uitleg, vertaald naar alledaagse taal:

1. Het Probleem: Een volle tas vs. een goed verhaal

Stel je voor dat de Zoeker een tas vol met documenten voor de Schrijver legt.

Als de Zoeker alleen maar relevante documenten vindt, maar ze zeggen allemaal precies hetzelfde (redundantie), heeft de Schrijver weinig te kiezen. Het verhaal wordt saai.
Als de Zoeker een breed scala aan verschillende feiten (de "juweeltjes" of nuggets) vindt, kan de Schrijver een rijk, compleet verhaal maken.

De onderzoekers wilden weten: Kunnen we zien hoe goed het eindverhaal wordt, door alleen te kijken naar hoe goed de Zoeker zijn werk deed? Of moeten we het hele dure proces van het schrijven van het verhaal laten draaien om dat te weten?

2. De Experimenten: De Bibliotheekstest

De onderzoekers hebben dit getest in drie verschillende scenario's:

Tekst-rapporten: Het schrijven van rapporten over nieuws in verschillende talen.
Vragen beantwoorden: Het zoeken van feiten voor specifieke vragen.
Video's: Het zoeken van videofragmenten om een artikel over een gebeurtenis te schrijven.

Ze hebben 15 verschillende manieren gebruikt om te zoeken (de "Zoekers") en 4 verschillende manieren om te schrijven (de "Schrijvers").

3. De Belangrijkste Ontdekkingen

A. Een goede Zoeker is cruciaal (De "Basisregel")

In de meeste gevallen geldt: Hoe beter de Zoeker de juiste, diverse informatie vindt, hoe beter het eindverhaal wordt.

Analogie: Als je een kok (de Schrijver) een mand vol met verse, diverse groenten geeft, maakt hij een heerlijke soep. Geef je hem alleen maar aardappels (zelfs als ze heel vers zijn), wordt het een aardappelsoep.
De onderzoekers ontdekten dat je aan de "Zoek-resultaten" al goed kunt voorspellen of het eindresultaat goed zal zijn. Je hoeft dus niet altijd het hele dure schrijfproces te draaien om te weten of je zoekmachine goed werkt.

B. De "Slimme Schrijver" kan een zwakke Zoeker opvangen (Maar niet altijd)

Sommige systemen zijn heel slim. Ze doen niet alleen "Zoek en Schrijf", maar ze denken na: "Hm, dit verhaal mist iets. Ik ga zelf nog een paar zoekopdrachten doen."

Analogie: Een gewone kok volgt het recept. Een topkok proeft de soep, merkt dat er peper mist, en gaat zelf naar de kruidenkast om het toe te voegen.
De onderzoekers zagen dat deze complexe systemen (zoals LangGraph) minder afhankelijk zijn van de eerste Zoeker. Ze kunnen hun eigen zoekopdrachten aanpassen.
Maar: Dit werkt niet altijd perfect. Soms is de "topkok" zo druk met zelf zoeken dat hij de basisinformatie uit de eerste Zoeker verwaarloost. En het is veel duurder en complexer om zo'n systeem te bouwen.

C. Video's zijn een beetje anders

Bij video's (zoals nieuwsfragmenten) bleek dat de AI vaak al veel weet uit zijn eigen "hersenen" (training).

Analogie: Als je vraagt "Wat is er gebeurd in 2020?", weet de AI dat al uit zijn hoofd. De video's dienen dan meer als controle (om te checken of de AI niet liegt) dan als nieuwe informatie.
Hier werkt de Zoeker dus vooral als een "feitencheck", niet als de bron van het verhaal.

4. Wat betekent dit voor de praktijk?

De onderzoekers geven ons een heel handige vuistregel:

Focus op de Zoeker: Als je een systeem wilt bouwen dat goede rapporten schrijft, investeer dan eerst in een goede Zoeker die diverse informatie vindt. Je kunt de kwaliteit van de Zoeker gebruiken als een "vroegtijdig waarschuwingssignaal". Als de Zoeker slecht presteert, zal het eindverhaal waarschijnlijk ook slecht zijn.
Simpel is vaak beter: Complexe systemen die zelf blijven zoeken, klinken cool, maar ze maken het systeem onvoorspelbaar. Een simpele "Zoek-then-Schrijf" lijn werkt vaak betrouwbaarder, zolang je maar een goede Zoeker hebt.
Bespaar geld: Je hoeft niet elke keer het hele dure schrijfproces te draaien om te testen of je zoekmachine werkt. Je kunt kijken naar de zoekresultaten zelf; dat zegt al genoeg.

Kortom: Een goede schrijver heeft een goede bibliothecaris nodig. Als de bibliothecaris de juiste boeken (en vooral verschillende soorten boeken) vindt, schrijft de AI een geweldig verhaal. Als de bibliothecaris alleen maar dezelfde pagina's teruggeeft, helpt de slimste AI er niet aan.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage" in het Nederlands.

Probleemstelling

Retrieval-Augmented Generation (RAG) systemen combineren documentretrieval met generatieve modellen (LLM's) om complexe informatievraagstukken op te lossen, zoals het genereren van rapporten. Hoewel de relatie tussen de kwaliteit van de retrieval en de effectiviteit van de generatie intuïtief lijkt, is deze niet systematisch onderzocht.

De kern van het probleem is dat traditionele retrieval-metrics (zoals MRR of MAP) zich richten op de relevantie van individuele documenten voor een query. Voor RAG-taken, zoals rapportgeneratie, is echter informatiedekking (coverage) cruciaal: het systeem moet diverse aspecten van een onderwerp verzamelen zonder redundantie.

Uitdaging: Het evalueren van een volledig RAG-pijplijn is computatievrij duur en introduceert ruis door de variabiliteit van LLM's.
Vraag: Kan de kwaliteit van de upstream retrieval (de zoekresultaten) dienen als een betrouwbare vroege indicator voor de informatiedekking van de uiteindelijke gegenereerde respons? Als dit zo is, kunnen ontwikkelaars zich richten op het optimaliseren van de retrieval-component om de RAG-prestaties te verbeteren, zonder elke keer de dure end-to-end generatie te hoeven evalueren.

Methodologie

De auteurs hebben een uitgebreide empirische studie uitgevoerd over meerdere datasets, retrieval-stacks en RAG-pijplijnen.

1. Datasets en Taken:

TREC NeuCLIR 2024: Een meertalige rapportgeneratie-taak (Chinese, Perzische, Russische nieuwsartikelen) met 19 onderwerpen.
TREC RAG 2024: Een vraag-antwoord taak met MS MARCO documenten en 55 geoordeelde queries.
WikiVideo: Een multimodale taak waarbij video's worden gebruikt als bron voor het schrijven van artikelen over evenementen (109K video's, 57 onderwerpen).

2. Retrieval Systemen:
Er werden 15 retrieval-stacks getest voor tekst en 10 stacks voor video. Deze bestonden uit verschillende eerste-staps modellen (BM25, PLAID-X, LSR, dense embeddings zoals Qwen3-8B, en multimodale modellen zoals CLIP en Video-ColBERT) gecombineerd met twee rerankers (Qwen3-8B Reranker en Rank1-7B).

3. RAG Pijplijnen:
Vier verschillende generatiestrategieën werden geëvalueerd:

GPT-Researcher (GPT-R): Een cascade-systeem dat sub-queries genereert (testen met 1 en 3 queries).
Bullet List: Een extractieve aanpak die Google-achtige queries genereert en feiten groepeert.
LangGraph: Een iteratief systeem dat reflecteert, kennisgaten identificeert en extra retrieval-loops uitvoert.
CAG (voor WikiVideo): Een video-specifiek systeem.

4. Evaluatie:

Retrieval-metrics: De auteurs gebruikten dekking-gebaseerde metrics zoals $\alpha$ -nDCG (straf voor redundantie), nDCG (geen straf voor redundantie) en Sub-topic Recall (StRecall), gebaseerd op "nuggets" (atomische eenheden van informatie). Ook traditionele relevantie-metrics werden gebruikt voor vergelijking.
Generatie-metrics:
- Auto-ARGUE: Evalueert hoeveel "nuggets" (vraag-antwoord paren) correct worden beantwoord en geciteerd.
- MiRAGE: Evalueert multimodale output op feitelijke juistheid (InfoP) en informatiedekking (InfoR).
Statistische Analyse: Er werd gebruikgemaakt van de Pearson-correlatiecoëfficiënt om de relatie te meten tussen retrieval-metrics en de gegenereerde dekking, zowel op onderwerpniveau (per query) als systeemniveau (gemiddeld over alle queries).

Belangrijkste Bijdragen

Empirisch bewijs voor correlatie: Het paper demonstreert dat nugget-georiënteerde retrieval-metrics sterke indicatoren zijn voor de informatiedekking van RAG-antwoorden, zowel op onderwerp- als systeemniveau.
Invloed van pijplijncomplexiteit: Het toont aan dat de complexiteit van de RAG-pijplijn de relatie tussen retrieval en generatie beïnvloedt. Simpele pijplijnen profiteren direct van betere retrieval, terwijl complexe, iteratieve pijplijnen de kwaliteit van de generatie kunnen "ontkoppelen" van de retrieval-effectiviteit door de LLM aan te passen aan de retrieval-capaciteiten.
Robuustheid en Generalisatie: De bevindingen zijn gevalideerd over verschillende evaluatieframeworks (Auto-ARGUE, MiRAGE), generatiestrategieën en modaliteiten (tekst en video).

Resultaten

1. Onderwerpniveau-analyse (RQ1):
Er is een sterke positieve correlatie gevonden tussen retrieval-metrics die gericht zijn op dekking (zoals $\alpha$ -nDCG en StRecall) en de nugget-dekking in de gegenereerde antwoorden.

Retrieval-systemen die een brede dekking van informatie bieden, leiden tot antwoorden met een hogere dekking.
Traditionele relevantie-metrics (zonder dekkingsoptimalisatie) tonen een lagere correlatie, vooral bij complexe rapportgeneratie (NeuCLIR), omdat een enkel relevant document niet voldoende is voor een compleet rapport.

2. Systeemniveau-analyse (RQ2):
Systeemgemiddelde retrieval-metrics voorspellen ook goed de gemiddelde prestaties van de RAG-pijplijn.

Belangrijke nuance: De correlatie is het sterkst wanneer de evaluatie-doelstellingen van de retrieval en de generatie overeenkomen (bijv. dekking-metrics voor beide).
Het gebruik van een ander benchmark of doelstelling voor de retrieval-evaluatie levert nog steeds bruikbare informatie op, maar met een lagere correlatie.

3. Complexiteit en Ontkoppeling (RQ3):

Simpele pijplijnen (bijv. GPT-R met 1 query): Profiteren direct van verbeterde retrieval.
Complexe/Iteratieve pijplijnen (bijv. LangGraph): Kunnen de relatie verzwakken. LangGraph kan soms goede resultaten behalen met een minder effectief retrieval-systeem door zelf queries aan te passen of extra loops te draaien. Echter, dit "ontkoppelen" garandeert niet per se een betere eindkwaliteit; het verplaatst de bottleneck van het ophalen van documenten naar de interactie van de LLM met het retrieval-systeem.

4. Evaluatieframeworks en Multimodaliteit (RQ4 & RQ5):

De correlatie blijft bestaan bij gebruik van verschillende evaluatoren (Auto-ARGUE vs. MiRAGE), hoewel de sterkte varieert afhankelijk van hoe strikt de evaluatie is (bijv. of citaties verplicht zijn).
Multimodaal (WikiVideo): Er is een sterke correlatie gevonden tussen retrieval-effectiviteit en feitelijke juistheid (factuality), maar minder sterk voor informatiedekking. Dit komt doordat multimodale modellen vaak vertrouwen op parametrische kennis (vooraf getrainde data) voor bekende gebeurtenissen, waardoor retrieval vooral dient om feiten te verifiëren in plaats van nieuwe informatie te vinden.

Betekenis en Conclusie

De studie biedt empirische onderbouwing voor het gebruik van retrieval-metrics als proxy voor RAG-prestaties. Dit heeft belangrijke implicaties voor de ontwikkeling van RAG-systemen:

Efficiëntie: Ontwikkelaars kunnen zich richten op het optimaliseren van de upstream retrieval-component (bijv. het kiezen van de juiste dekking-metrics en rerankers) om de kwaliteit van de gegenereerde rapporten te verbeteren, zonder de dure end-to-end evaluatie bij elke iteratie uit te hoeven voeren.
Ontwerpkeuzes: Voor toepassingen waar kostenefficiëntie belangrijk is, zijn simpele, lineaire RAG-pijplijnen vaak superieur omdat ze direct profiteren van betere retrieval. Complexe, iteratieve systemen zijn alleen zinvol als de LLM specifiek is getuned om de beperkingen van het retrieval-systeem te compenseren.
Toekomstige richtingen: Voor multimodale RAG-systemen die echt nieuwe informatie moeten verzamelen (in plaats van parametrische kennis te verifiëren), wordt verwacht dat de correlatie tussen retrieval-dekking en generatie-dekking even sterk zal zijn als bij tekst.

Kortom, de paper concludeert dat "Beyond Relevance" (buiten relevantie om) de focus op informatiedekking in de retrieval-fase de sleutel is tot succesvolle RAG-systemen voor rapportgeneratie.

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

1. Het Probleem: Een volle tas vs. een goed verhaal

2. De Experimenten: De Bibliotheekstest

3. De Belangrijkste Ontdekkingen

A. Een goede Zoeker is cruciaal (De "Basisregel")

B. De "Slimme Schrijver" kan een zwakke Zoeker opvangen (Maar niet altijd)

C. Video's zijn een beetje anders

4. Wat betekent dit voor de praktijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem