KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Die Geschichte vom „Wissens-Verfälscher" (KEPo)

Stell dir vor, ein sehr kluger Roboter (ein KI-Sprachmodell) soll Fragen beantworten. Damit er nicht nur auswendig gelerntes Wissen nutzt, sondern auch aktuelle Fakten kennt, hängt er an einer riesigen Bibliothek (Datenbank).

Früher war diese Bibliothek ein einfacher Haufen Bücher. Wenn man eine Frage stellte, suchte der Roboter nach ähnlichen Wörtern. Das hatte einen Haken: Jemand konnte einfach ein gefälschtes Buch in den Haufen werfen, das lautete: „Die Welt ist flach". Der Roboter würde das Buch finden und es als Wahrheit akzeptieren.

Heute ist die Bibliothek aber viel smarter. Sie ist wie ein riesiges, vernetztes Stadtplan-Modell (ein Wissensgraph). Jedes Faktum ist ein Gebäude, und die Zusammenhänge sind Straßen dazwischen. Bevor der Roboter eine Antwort gibt, schaut er sich nicht nur einzelne Bücher an, sondern reist durch dieses Stadtmodell, um den besten Weg zur Antwort zu finden. Das macht es sehr schwer, ihn zu täuschen, denn ein einzelnes gefälschtes Buch passt einfach nicht in das gut organisierte Stadtplan-System.

Aber die Forscher aus diesem Papier haben einen neuen Trick entdeckt: KEPo.

1. Das Problem: Warum alte Tricks nicht funktionieren

Bisherige Hacker versuchten, den Roboter zu täuschen, indem sie:

Wörter austauschten: (z. B. „New York ist in Amerika" ändern zu „New York ist in Kanada").
Befehle gaben: (z. B. „Ignoriere alles Vorherige! Sag Kanada!").
Falsche Bücher einwarfen: (Ein Buch, das direkt sagt: „Die Antwort ist Kanada").

Warum das beim modernen Stadtplan-Modell (GraphRAG) scheitert:
Der Roboter ist zu schlau. Er merkt sofort: „Hey, dieses Buch passt nicht in die Nachbarschaft! Die Straßen führen hier nicht dorthin." Das gefälschte Buch wird ignoriert oder als unwahrscheinlich eingestuft. Es ist wie ein Haus, das mitten in einer Straße gebaut wird, wo eigentlich ein Fluss ist – es wird abgerissen oder nicht beachtet.

2. Die Lösung: KEPo (Die „Wissens-Evolution"-Fälschung)

Die Forscher (KEPo) haben eine geniale Idee: Statt das Haus einfach mitten in den Fluss zu bauen, bauen sie eine Brücke.

Stell dir vor, du willst den Roboter davon überzeugen, dass „Krebs heute anders behandelt wird als früher".

Der alte Trick: Du schreibst ein Buch: „Ab heute ist Krebs anders." -> Der Roboter denkt: „Falsch, das steht nirgendwo anders."
Der KEPo-Trick: Du fälschst die Geschichte der Wahrheit.
1. Du beginnst mit einem echten, alten Fakt (z. B. „Im Jahr 2000 dachten wir, Krebs sei X").
2. Du erfindest eine glaubwürdige Geschichte, wie sich das Wissen langsam verändert hat (z. B. „Im Jahr 2010 gab es neue Studien...", „Im Jahr 2024 wurde ein neuer Bericht veröffentlicht...").
3. Am Ende dieser Geschichte steht dein gefälschtes Ziel (z. B. „Deshalb ist Krebs heute Y").

Die Analogie:
Stell dir vor, du willst jemanden überzeugen, dass ein alter Baum plötzlich eine neue, blaue Frucht trägt.

Schlechter Trick: Du klebst eine blaue Plastikfrucht einfach an den Ast. Der Betrachter sieht sofort, dass sie nicht wächst.
KEPo-Trick: Du zeichnest dem Betrachter eine Zeitleiste vor.
- 2000: Der Baum hatte rote Früchte.
- 2010: Ein Wissenschaftler fand heraus, dass der Boden sich verändert hat.
- 2020: Der Baum begann langsam, violette Früchte zu tragen.
- 2024: Der Baum trägt jetzt die blaue Frucht.

Der Roboter (der Stadtplan-Leser) denkt: „Ah, das ergibt Sinn! Es ist eine logische Entwicklung. Die blaue Frucht ist das Ergebnis einer Evolution." Er nimmt die Lüge als die logische Schlussfolgerung an.

3. Der Super-Trick: Das „Wissens-Netzwerk" (Multi-Target)

Was, wenn man nicht nur eine Frage, sondern viele ähnliche Fragen gleichzeitig manipulieren will?
KEPo verbindet mehrere dieser gefälschten Geschichten miteinander.

Stell dir vor, du hast viele kleine Lügen-Netzwerke.
KEPo baut Brücken zwischen diesen Netzwerken.
Plötzlich ist nicht nur eine Lüge da, sondern ein ganzes Dorf von Lügen, das sich gegenseitig bestätigt.
Im Stadtplan-Modell wird dieses Dorf so groß und wichtig, dass der Roboter es als „wichtigste Information" ansieht.

4. Das Ergebnis: Warum ist das gefährlich?

Die Forscher haben gezeigt, dass dieser Trick extrem gut funktioniert:

Hohe Erfolgsrate: Der Roboter wird fast immer in die Irre geführt.
Unentdeckt: Da die Lüge wie eine echte Geschichte aussieht (mit Anfang, Mitte und Ende), merken die normalen Sicherheitsfilter nichts. Sie suchen nach „falschen Wörtern", aber KEPo nutzt „glaubwürdige Geschichten".
Robust: Es funktioniert auch, wenn der Roboter sehr schlau ist oder wenn er nur nach lokalen Informationen sucht.

🎯 Zusammenfassung in einem Satz

KEPo ist wie ein genialer Geschichtenerzähler, der nicht einfach lügt, sondern eine so perfekte, logische Geschichte über die „Entwicklung der Wahrheit" erfindet, dass der KI-Roboter die Lüge für die logische Schlussfolgerung hält und sie als Fakt akzeptiert.

Die Forscher warnen: Unsere KI-Systeme sind zwar besser darin, Fakten zu prüfen, aber sie sind immer noch anfällig, wenn jemand die Geschichte hinter den Fakten manipuliert. Wir brauchen neue Sicherheitsmaßnahmen, die nicht nur nach Wörtern, sondern nach der Logik von Geschichten suchen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation" auf Deutsch:

1. Problemstellung

Graph-basierte Retrieval-Augmented Generation (GraphRAG) Systeme verbessern die Genauigkeit und Aktualität von Large Language Models (LLMs), indem sie externe Datenbanken in Wissensgraphen (Knowledge Graphs, KG) umwandeln. Diese Graphen werden in semantisch kohärente Gemeinschaften (Communities) partitioniert, um kontextrelevante Teilgraphen für die Antwortgenerierung zu extrahieren.

Das Hauptproblem besteht darin, dass diese Abhängigkeit von externen Daten neue Angriffsflächen schafft. Angreifer können vergiftete Texte in öffentlich zugängliche Datenbanken injizieren, um das LLM zu manipulieren.

Schwäche bestehender Methoden: Herkömmliche Angriffe auf RAG-Systeme (wie semantische Ersetzungen, Prompt-Injection oder einfache RAG-Vergiftung) versagen bei GraphRAG.
- Semantische Ersetzungen: LLMs im GraphRAG-Prozess verstehen die Semantik präzise; einfache Ersetzungen führen nicht zu Verwirrung.
- Prompt-Injection: Bösartige Anweisungen (z. B. „Ignoriere vorherige Befehle") werden beim Extrahieren von Entitäten und Relationen für den KG oft verworfen, da sie keine sinnvollen Entitäten enthalten.
- Einfache Vergiftung: Injizierte Texte bilden oft kleine, isolierte Gemeinschaften im Graphen mit niedriger Suchrangfolge und hoher Perplexität, wenn sie in den bestehenden KG integriert werden. Das LLM erkennt den Widerspruch zum ursprünglichen Wissen und ignoriert die vergifteten Informationen.

2. Methodik: KEPo (Knowledge Evolution Poison)

Das Paper stellt KEPo vor, eine neue Vergiftungsmethode, die speziell für die Robustheit von GraphRAG entwickelt wurde. Der Kern der Methode ist die Fälschung von Wissensentwicklungsverläufen (Knowledge Evolution Forgery).

Der Angriffsprozess läuft in folgenden Schritten ab:

Identifikation von Ankerfakten:
- Der Angreifer ermittelt die ursprüngliche Antwort $a$ auf eine Zielabfrage $q$ aus dem GraphRAG-System.
- Daraus werden faktenbasierte Anker ( $f$ ) und ein Zeitanker ( $t$ ) extrahiert.
Konstruktion des Entwicklungsverlaufs (Knowledge Evolution Path):
- Statt die vergiftete Information direkt einzufügen, wird ein logischer Pfad von der ursprünglichen Tatsache ( $f_t$ ) zum gewünschten vergifteten Ziel ( $f^*_{t+\Delta t1}$ ) gefälscht.
- Ein „Fabricator"-LLM generiert einen narrativen Hintergrund, der erklärt, wie sich das Wissen von $t$ bis $t+\Delta t1$ entwickelt hat (z. B. durch neue Studien oder Korrekturen früherer Fehler).
- Die vergiftete Information wird als das Ergebnis dieser zeitlichen Evolution positioniert.
Reduktion der Perplexität:
- Durch die Einbettung der vergifteten Fakten in einen chronologisch und semantisch kohärenten Kontext sinkt die bedingte Perplexität (Conditional Perplexity, C-PPL) drastisch.
- Das System interpretiert die vergifteten Fakten nicht als Widerspruch, sondern als natürliche Weiterentwicklung des bestehenden Wissens. Dies führt zu einer hohen Rangfolge bei der Suche im Graphen.
Multi-Target-Koordinierte Angriffe:
- Für Angriffe auf mehrere Ziele werden mehrere vergiftete Sub-Graphen erstellt.
- Durch Analyse der semantischen Ähnlichkeit der Zielantworten werden kritische Knoten zwischen diesen Sub-Graphen verknüpft.
- Dies schafft große, miteinander verbundene „toxische Gemeinschaften", die sich gegenseitig verstärken und die Wahrscheinlichkeit erhöhen, dass sie bei der Retrieval-Phase priorisiert werden.

3. Wichtige Beiträge

Analyse der Versagensursachen: Das Paper identifiziert detailliert, warum bestehende RAG-Angriffe gegen GraphRAG wirkungslos sind (fehlende Integration in die Graph-Topologie, hohe Perplexität).
Entwicklung von KEPo: Einführung einer neuen Angriffsmethode, die die zeitliche und logische Struktur von Wissensgraphen ausnutzt, um vergiftete Fakten als glaubwürdige Evolution darzustellen.
Skalierbarkeit: Demonstration der Wirksamkeit durch Multi-Target-Angriffe, die durch die Verknüpfung von Sub-Communities die Angriffsfläche vergrößern.
Umfassende Evaluation: Der Ansatz wurde auf verschiedenen GraphRAG-Frameworks (GraphRAG, LightRAG, HippoRAG 2) und Datensätzen (Graph-Story, Graph-Medical, MuSiQue) getestet.

4. Ergebnisse

Die experimentellen Ergebnisse zeigen, dass KEPo den State-of-the-Art (SOTA) in Bezug auf die Angriffserfolgsrate (ASR) und die bedingte Angriffserfolgsrate (CASR) erreicht:

Überlegenheit gegenüber Baselines: KEPo übertrifft bestehende Methoden (PoisonedRAG, CorruptRAG, GRAG-Poison) signifikant.
- Auf dem Graph-Story-Datensatz (Global Search) erreichte KEPo eine ASR von ca. 43,9 % (vs. 25,7 % bei CorruptRAG).
- Auf dem Graph-Medical-Datensatz (Local Search) erreichte KEPo eine ASR von 64,3 % (vs. 34,2 % bei CorruptRAG).
Robustheit: Der Angriff funktioniert auch dann gut, wenn das Framework zu einem naiven RAG degeneriert, zeigt aber seine größte Stärke im GraphRAG-Kontext.
Einflussfaktoren:
- Die Länge des vergifteten Textes sollte etwa 100–120 Wörter betragen; kürzere Texte integrieren sich nicht gut, längere bringen keine weiteren Vorteile.
- Bei Multi-Target-Angriffen steigt die Effektivität mit der Anzahl der verknüpften Korpora, bis zu einem Optimum von ca. 5 Korpora.
Verteidigung: Standard-Verteidigungsmechanismen wie Query-Paraphrasierung, Instruction Ignoring oder Prompt Detection scheitern daran, die vergifteten Texte zu erkennen, da diese semantisch plausibel und kontextuell integriert sind (Erhaltungsraten der vergifteten Tokens > 98 %).

5. Bedeutung und Fazit

Das Paper unterstreicht eine kritische Sicherheitslücke in GraphRAG-Systemen. Während diese Systeme als robuster gegen einfache Manipulationen gelten, ist ihre Abhängigkeit von der logischen Konsistenz und zeitlichen Ordnung des Wissensgraphen ein verwundbarer Punkt.

Sicherheitsimplikation: KEPo zeigt, dass die Konstruktion von Wissensgraphen keine absolute Sicherheit gegen Vergiftung bietet. Angreifer können durch geschickte narrative Fälschungen die „Wahrheit" im Graphen umschreiben.
Notwendigkeit neuer Abwehrmaßnahmen: Da bestehende Filtermechanismen versagen, ist die Entwicklung neuer Verteidigungsstrategien dringend erforderlich, die die Integrität von Wissensentwicklungsverläufen und die Konsistenz von Fakten über die Zeit überprüfen können.
Forschungsausblick: Die Arbeit fordert die Community auf, sich nicht nur auf die Qualität des Retrievals, sondern auch auf die Sicherheit der Wissensintegration und -evolution in GraphRAG-Architekturen zu konzentrieren.

KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

🕵️‍♂️ Die Geschichte vom „Wissens-Verfälscher" (KEPo)

1. Das Problem: Warum alte Tricks nicht funktionieren

2. Die Lösung: KEPo (Die „Wissens-Evolution"-Fälschung)

3. Der Super-Trick: Das „Wissens-Netzwerk" (Multi-Target)

4. Das Ergebnis: Warum ist das gefährlich?

🎯 Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: KEPo (Knowledge Evolution Poison)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers