Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der veraltete Bibliothekar

Stell dir vor, du hast einen extrem intelligenten Bibliothekar (das ist die Künstliche Intelligenz oder KI). Er kann alles erzählen, was er in seinem Gedächtnis hat. Aber es gibt ein riesiges Problem: Sein Gedächtnis ist statisch. Er wurde einmal ausgebildet und weiß dann nichts mehr von den Neuigkeiten von heute. Wenn er etwas nicht weiß, erfindet er es sich oft einfach aus, klingt dabei aber sehr überzeugend. Das nennt man „Halluzinieren".

Um das zu lösen, gibt es den Ansatz RAG (Retrieval-Augmented Generation). Das ist wie ein Assistent, der dem Bibliothekar sagt: „Hey, bevor du antwortest, schau mal in diese Bücherregale, vielleicht steht die Antwort dort."

Das Problem mit dem alten Weg:
Der alte Assistent sucht in einem riesigen Haufen loser Zettel (Textdokumente). Er muss raten, wie viele Zettel er holen soll.

Holt er zu wenige? Die Antwort ist lückenhaft.
Holt er zu viele? Der Bibliothekar ertrinkt im Chaos und verliert den Faden.
Besonders bei strukturierten Daten (wie Tabellen oder Finanzdaten in JSON-Format) ist dieser Ansatz wie der Versuch, einen Nadelhaufen mit einem Magneten zu finden, der nur nach „ähnlichem Geruch" sucht. Er findet oft die falsche Nadel.

Die neue Lösung: Der Graph-RAG (Das Stadtplan-Prinzip)

Die Autoren dieses Papiers sagen: „Warum suchen wir in einem Haufen Zettel, wenn wir eine Landkarte haben?"

Statt loser Zettel bauen sie eine riesige, vernetzte Stadt (Graph). Jeder Punkt ist ein Objekt (z. B. ein Fonds), und die Straßen dazwischen sind die Beziehungen (z. B. „gehört zu", „hat Rendite von").

Sie testen zwei verschiedene Arten, diese Landkarte zu bauen:

1. Der RDF-Weg (Das Dreier-Team)

Stell dir vor, jede Information wird in ein strenges Dreier-System gepackt: Wer – Was – Womit.

Beispiel: „AMCAP-Fonds" – „hat" – „S&P 500 Index".
Vorteil: Es ist extrem präzise und maschinenlesbar. Wie ein perfekt sortiertes Archiv.
Nachteil: Es ist etwas starr. Man muss genau wissen, wie man die Fragen formuliert, um die richtigen Dreier-Teams zu finden.

2. Der LPG-Weg (Die flexible Stadt)

Hier ist die Landkarte etwas lebendiger. Die Punkte (Knoten) und Straßen (Kanten) haben nicht nur Namen, sondern auch viele kleine Notizen (Eigenschaften) direkt an sich.

Der Clou: Sie haben eine Art „Übersetzer" (Text-to-Cypher) gebaut. Du kannst auf Deutsch fragen: „Welche Fonds hat Manager Müller?", und der Übersetzer wandelt das sofort in eine präzise Straßenanweisung für die Landkarte um.
Ergebnis: Das funktioniert wie ein GPS, das dir den kürzesten Weg durch die Stadt zeigt, ohne dass du alle Häuser einzeln durchsuchen musst.

Was haben sie herausgefunden?

Sie haben einen Test mit 200 schwierigen Fragen gestellt (z. B. „Vergleiche alle Fonds mit X und Y" oder „Liste alle Fonds auf, die...").

Der alte Weg (Zettel-Haufen): Hat oft versagt. Er hat entweder die falschen Zettel geholt oder war verwirrt, weil er nicht wusste, wie viele er holen soll.
Der RDF-Weg (Dreier-Team): Hat sehr gut funktioniert. Sehr genau, aber manchmal etwas steif.
Der LPG-Weg (Die Stadt): Hat am besten abgeschnitten. Besonders bei komplexen Fragen, bei denen man durch mehrere Stationen reisen muss (z. B. „Finde den Manager, der den Fonds leitet, der diese Rendite hat").

Warum ist das so wichtig?

Stell dir vor, du suchst nach einem bestimmten Rezept in einer riesigen Küche.

Der alte Weg ist, wie wenn du in jedem Schrank wild herumwühlst und hoffst, dass du die Zutaten findest.
Der neue Graph-Weg ist, wie wenn du einen perfekten Grundriss der Küche hast. Du weißt genau: „Die Eier sind im Kühlschrank, der Kühlschrank ist links neben dem Herd." Du musst nicht wühlen, du gehst direkt hin.

Fazit:
Für komplexe, strukturierte Daten (wie Finanzdaten, medizinische Akten oder juristische Dokumente) ist die „Landkarte" (Graph) viel besser als der „Zettelhaufen". Der LPG-Ansatz (die flexible Stadt mit dem Übersetzer) ist dabei der Gewinner, weil er schnell, genau und skalierbar ist. Er verhindert, dass die KI Dinge erfindet, weil sie sich direkt an die Fakten in der Landkarte hält.

Das Papier zeigt also: Wenn wir KI mit einer echten Landkarte statt mit einem Haufen lose Blätter füttern, wird sie viel schlauer, zuverlässiger und schneller.

Each language version is independently generated for its own context, not a direct translation.

Titel: Graph RAG im Maßstab: Über Retrieval-Augmented Generation hinaus mit Labeled Property Graphs und Resource Description Framework für komplexe und unbekannte Suchräume

1. Problemstellung

Traditionelle Retrieval-Augmented Generation (RAG)-Systeme, die auf dichten Vektor-Embeddings und Ähnlichkeitssuche in unstrukturierten Texten basieren, stoßen bei bestimmten Szenarien an ihre Grenzen:

Unbekannter Suchraum: Wenn die Anzahl der relevanten Dokumente nicht im Voraus bekannt ist, führt die Festlegung eines festen $k$ (Anzahl der zu retrievenden Dokumente) entweder zu Informationsverlust (wenn $k$ zu klein ist) oder zu Rauschen und Ineffizienz (wenn $k$ zu groß ist).
Strukturierte und halbstrukturierte Daten: Herkömmliche RAG-Pipelines haben Schwierigkeiten, komplexe, verschachtelte Datenstrukturen (wie JSON-Objekte mit tiefen Hierarchien, Tabellen oder Key-Value-Paare) effektiv zu verarbeiten.
Halluzinationen und Genauigkeit: LLMs neigen zu Halluzinationen, wenn sie nicht auf aktuelle, autoritative Quellen zurückgreifen können. Zudem sind bestehende RAG-Systeme stark von Reranking-Modellen abhängig, was die Pipeline verlangsamt und nicht immer die Genauigkeit garantiert.

Die Autoren untersuchen, ob Graph-basierte Ansätze (Labeled Property Graphs und RDF) diese Limitierungen überwinden können, insbesondere im Finanzsektor mit komplexen Mutual-Fund-Daten.

2. Methodik

Die Studie vergleicht drei verschiedene Architekturen zur Wissensabfrage auf einem Datensatz von 1.104 Investmentfonds (Mutual Funds, ETFs, PPS), die als tief verschachtelte JSON-Objekte vorliegen.

A. Datenrepräsentation:

RAG1 (Text-Konvertierung): JSON-Daten werden per LLM in narrative Texte umgewandelt. Diese Methode wurde verworfen, da sie nicht skalierbar ist, Informationen verliert und zu Halluzinationen führt.
RAG2 (Agentic RAG): JSON-Daten werden in natürliche Sprache übersetzt, in Chunks zerlegt und mit Embeddings (BGE-m3) indiziert. Es werden Reranker-Modelle eingesetzt, um die Relevanz zu optimieren.
Graph RAG (RDF): Die JSON-Daten werden deterministisch in RDF-Tripel (Subjekt-Prädikat-Objekt) umgewandelt. Der Abbreviated Name eines Fonds dient als Subjekt. Dies erzeugt über 650.000 Tripel. Die Abfrage erfolgt über SPARQL in Amazon Neptune.
Graph RAG (LPG - Labeled Property Graph): Die JSON-Daten werden in ein Labeled Property Graph-Modell überführt. Hier werden Entitäten (z. B. Fonds, Produkttypen) als Knoten und Attribute als Beziehungen oder Eigenschaften modelliert. Ein entscheidender Schritt ist das Schema-Design, bei dem häufige Attribute als eigene Knoten normalisiert werden, um Multi-Hop-Traversals zu ermöglichen.

B. Abfragegenerierung:

Für RDF: Ein Agent nutzt LLMs und deterministische Regeln, um relevante Knoten und Beziehungen basierend auf der Benutzeranfrage zu identifizieren, gefolgt von einer SPARQL-Abfrage.
Für LPG: Ein Text-to-Cypher-Framework wird entwickelt. Ein LLM (fine-tuned) wandelt natürliche Sprachabfragen direkt in ausführbare Cypher-Queries um. Dies wird durch die Bereitstellung des vollständigen Graph-Schemas (Labels, Eigenschaften, Relationstypen) und Metadaten unterstützt, um die Genauigkeit zu erhöhen.

C. Evaluierung:

Datensatz: 200 manuell erstellte Fragen, die vier Intent-Kategorien abdecken: Search/Listing (Suche/Auflistung), Compare (Vergleich), Detail (Details) und Other.
Metriken: Bewertung basierend auf Genauigkeit (Faktische Richtigkeit, keine Halluzinationen) und Vollständigkeit (Alle relevanten Informationen sind enthalten). Eine perfekte Antwort erhält 1 Punkt, eine teilweise korrekte 0,5 Punkte.

3. Wichtige Beiträge

End-to-End Graph RAG Framework: Präsentation eines Systems, das sowohl RDF als auch LPG nutzt, um halbstrukturierte JSON-Daten für RAG nutzbar zu machen, ohne die Anzahl der zu suchenden Dokumente vordefinieren zu müssen.
Innovative JSON-zu-RDF-Konvertierung: Eine deterministische Methode zur Umwandlung von JSON-Key-Value-Paaren in RDF-Tripel, die die Integrität der Daten bewahrt und keine Rausch- oder Redundanzprobleme wie bei LLM-basierter Extraktion aus Text aufweist.
Text-to-Cypher Framework: Entwicklung eines Systems, das natürliche Sprache mit über 90% Genauigkeit in Cypher-Queries übersetzt, indem es Graph-Schema und Metadaten in den Prompt integriert. Dies ermöglicht Echtzeit-Abfragen für Online-Anwendungen.
Umfassender empirischer Vergleich: Der Nachweis, dass Graph-basierte Ansätze (LPG und RDF) herkömmlichen Embedding-basierten RAG-Systemen in komplexen Szenarien überlegen sind.

4. Ergebnisse

Die Studie testete 200 Fragen. Die Gesamtergebnisse (Score aus 200 möglichen Punkten) zeigen klare Unterschiede:

RAGLPG (LPG-basiert): 185,5 Punkte (Beste Leistung).
RAGRDF (RDF-basiert): 172,5 Punkte.
RAG2 (Agentic RAG / Text-basiert): 116 Punkte.

Detaillierte Erkenntnisse nach Intent:

Search/Listing (Suche/Auflistung): Hier zeigt LPG mit 93/100 Punkten eine massive Überlegenheit gegenüber RDF (80/100) und Agentic RAG (38,5/100). Der Grund liegt in der effizienten Handhabung von Multi-Hop-Traversals und der Fähigkeit, den unbekannten Suchraum durch Graph-Strukturen zu navigieren, ohne auf eine feste Anzahl von Dokumenten angewiesen zu sein.
Compare & Detail: Sowohl LPG als auch RDF schneiden hier sehr gut ab (ca. 41-43,5 Punkte von 45), während Agentic RAG deutlich schlechter abschneidet (ca. 34,5 Punkte).
Schwächen:
- Agentic RAG: Leidet unter dem "K-Problem" (feste Anzahl der Dokumente) und der Unfähigkeit, feine semantische Unterscheidungen (z. B. ähnliche Fonds-Namen) in Embeddings zu treffen.
- RDF: Fehler entstehen oft durch die falsche Auswahl von Knoten/Beziehungen, da das Schema weniger explizit strukturiert ist als bei LPG.
- LPG: Die Hauptfehlerquelle liegt in der Text-zu-Cypher-Konvertierung (falsche Label-Namen), nicht im Retrieval selbst.

5. Bedeutung und Fazit

Das Paper demonstriert, dass Graph RAG, insbesondere basierend auf Labeled Property Graphs (LPG), eine transformative Lösung für Retrieval-Augmented Generation in komplexen, strukturierten Umgebungen darstellt.

Skalierbarkeit: Graph-basierte Systeme eliminieren die Notwendigkeit, die Anzahl der zu retrievenden Dokumente vorab festzulegen, was sie ideal für Suchräume mit unbekannter Größe macht.
Genauigkeit: Durch die explizite Modellierung von Beziehungen und die Nutzung von Graph-Abfragesprachen (Cypher/SPARQL) werden Halluzinationen reduziert und die Vollständigkeit der Antworten erhöht.
Anwendbarkeit: Die vorgestellte Pipeline ist besonders effektiv für Finanzdaten und andere Bereiche mit stark verschachtelten, halbstrukturierten Daten (JSON), wo traditionelle Vektor-RAG-Systeme an ihre Grenzen stoßen.

Die Autoren schlussfolgern, dass Graph RAG der nächste Schritt für zuverlässige, faktenbasierte KI-Systeme ist, wobei die sorgfältige Gestaltung des Graph-Schemas (Normalisierung von Attributen) der Schlüssel zum Erfolg ist.

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

Das große Problem: Der veraltete Bibliothekar

Die neue Lösung: Der Graph-RAG (Das Stadtplan-Prinzip)

1. Der RDF-Weg (Das Dreier-Team)

2. Der LPG-Weg (Die flexible Stadt)

Was haben sie herausgefunden?

Warum ist das so wichtig?

Titel: Graph RAG im Maßstab: Über Retrieval-Augmented Generation hinaus mit Labeled Property Graphs und Resource Description Framework für komplexe und unbekannte Suchräume

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

Personalized Federated Sequential Recommender