Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, chaotische bibliotheek hebt met miljoenen boeken over beleggingen. Je wilt een vraag stellen, zoals: "Welke fondsen hebben de beste prestaties in de afgelopen vijf jaar en wie zijn hun beheerders?"

In de traditionele manier van werken (wat de auteurs RAG noemen), is dit alsof je een robot hebt die door de bibliotheek rent, op basis van je vraag een paar boeken pakt die lijken op wat je zoekt, en die dan samenvat. Het probleem? Als je vraag complex is, of als je niet precies weet hoeveel boeken je nodig hebt, raakt de robot in de war. Hij pakt misschien de verkeerde boeken, mist belangrijke details, of verzonnet feiten omdat hij niet zeker weet wat er echt in de boeken staat. Dit noemen ze "hallucinaties".

Deze paper introduceert een slimme nieuwe aanpak: Graph RAG. In plaats van een rommelige bibliotheek, bouwen ze een ultra-georganiseerd spoorwegnet van informatie.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De twee nieuwe manieren om te zoeken

De auteurs testen twee manieren om dit spoorwegnet te bouwen, beide beter dan de oude "boeken zoeken" methode.

Methode A: Het RDF-netwerk (De "Drie-delige Zin" Methode)

Stel je voor dat je elke feitelijke informatie uit de boeken haalt en omzet in simpele zinnen van drie delen: Onderwerp - Werkwoord - Object.

Voorbeeld: "AMCAP-Fonds" - "heeft als beheerder" - "Jan Jansen".
Voorbeeld: "AMCAP-Fonds" - "volgt" - "S&P 500".

Dit is als het bouwen van een gigantisch, logisch web van kaarten. Als je een vraag stelt, zoekt de robot niet naar hele boeken, maar volgt hij deze lijntjes (zoals een spoorlijn) om precies de juiste kaarten te vinden. Het is heel snel en precies, omdat het geen gissen is, maar het volgen van vaste regels.

Methode B: Het LPG-netwerk (De "Stadsplattegrond" Methode)

Dit is nog geavanceerder. Hierbij maken ze niet alleen lijntjes, maar bouwen ze een compleet stadsmodel.

De fondsen zijn gebouwen.
De beheerders zijn straten die naar die gebouwen leiden.
De eigenschappen (zoals "groei-fonds" of "ETF") zijn de borden op de gebouwen.

Ze gebruiken een speciale taal (Cypher) die de robot vertelt: "Ga van dit gebouw, neem de straat 'beheerder', en stop bij het bord 'Jan Jansen'."
Dit is als het hebben van een GPS die niet alleen de weg zoekt, maar ook begrijpt hoe de stad in elkaar zit. Je kunt heel complexe routes plannen, zoals: "Vind alle gebouwen die verbonden zijn met deze ene straat, maar alleen als ze ook een rode dakpan hebben."

2. Waarom is dit zo veel beter?

De paper vergelijkt hun nieuwe "spoorwegnet" (Graph RAG) met de oude "boeken zoeken" methode (Agentic RAG) aan de hand van 200 moeilijke vragen.

Het oude systeem (Boeken zoeken):
- Het probleem: Het is alsof je iemand vraagt om "alle rode auto's" te vinden, maar je zegt niet hoeveel er zijn. De robot pakt er misschien 5, maar er zijn er 50. Of hij pakt een rood vrachtwagentje omdat het woord "rood" in de tekst staat, maar het is geen auto.
- Het resultaat: Veel fouten, onvolledige antwoorden en soms verzonnen feiten.
Het nieuwe systeem (Spoorwegnet & Stadsplattegrond):
- Het voordeel: Omdat de informatie in een strak netwerk zit, weet de robot precies welke "sporen" hij moet volgen. Hij hoeft niet te gokken hoeveel boeken hij moet lezen. Hij volgt gewoon de lijn tot hij bij het antwoord is.
- Het resultaat: De "Stadsplattegrond" (LPG) won het met kop en schouders. Het gaf bijna altijd het juiste, volledige antwoord, zelfs bij de allerlastigste vragen.

3. De belangrijkste lessen (in simpele bewoordingen)

Structuur is koning: Als je data (zoals financiële rapporten) geordend is in een net (een graf), werkt het veel beter dan als je het laat "zwemmen" in een zee van tekst.
Geen gissen meer: Bij de oude methode moest de robot raden hoeveel informatie hij moest halen. Bij de nieuwe methode volgt hij de lijnen, dus hij haalt precies wat hij nodig heeft, niet meer en niet minder.
De "Vertaler" is cruciaal: De grootste uitdaging was het vertalen van een menselijke vraag ("Wie beheert dit fonds?") naar de taal van het spoorwegnet (Cypher). Als je die vertaling fout maakt, ga je de verkeerde weg op. Maar als het goed zit, is het een magische sleutel.

Conclusie

Kortom: De auteurs zeggen dat als je echt slimme antwoorden wilt op complexe vragen (zoals in de financiële wereld), je niet moet vertrouwen op het "lezen van boeken" door een AI. Je moet in plaats daarvan een georganiseerd netwerk bouwen waar de AI doorheen kan reizen.

Het is het verschil tussen iemand vragen om "een verhaal te vertellen over een stad" (wat vaak onzin wordt) en iemand een GPS geven die precies de straten en gebouwen kent. De GPS (Graph RAG) wint het altijd als het gaat om nauwkeurigheid en betrouwbaarheid.

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

1. De twee nieuwe manieren om te zoeken

Methode A: Het RDF-netwerk (De "Drie-delige Zin" Methode)

Methode B: Het LPG-netwerk (De "Stadsplattegrond" Methode)

2. Waarom is dit zo veel beter?

3. De belangrijkste lessen (in simpele bewoordingen)

Conclusie

Titel: Graph RAG op Schaal: Voorbij Retrieval-Augmented Generation met Gelabelde Eigenschapsgrafen en Resource Description Framework voor Complexe en Onbekende Zoekruimtes

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

1. De twee nieuwe manieren om te zoeken

Methode A: Het RDF-netwerk (De "Drie-delige Zin" Methode)

Methode B: Het LPG-netwerk (De "Stadsplattegrond" Methode)

2. Waarom is dit zo veel beter?

3. De belangrijkste lessen (in simpele bewoordingen)

Conclusie

Titel: Graph RAG op Schaal: Voorbij Retrieval-Augmented Generation met Gelabelde Eigenschapsgrafen en Resource Description Framework voor Complexe en Onbekende Zoekruimtes

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

Personalized Federated Sequential Recommender