Das Problem: Das „vergiftete Tagebuch“

Stellen Sie sich einen intelligenten Büroassistenten (einen KI-Agenten) vor, der Mitarbeitern hilft, indem er sich an vergangene Gespräche, Unternehmensrichtlinien und Fakten erinnert. Er führt ein digitales Tagebuch (Gedächtnis), das er jedes Mal aktualisiert, wenn jemand mit ihm spricht. Dieses Tagebuch hilft der KI, zukünftige Fragen präziser zu beantworten.

Der Angriff:
Ein böswilliger Akteur (Hacker) muss nicht das Gehirn der KI hacken oder deren Code umschreiben. Stattdessen spricht er einfach ganz normal mit der KI, schleust aber gefälschte, geschickt formulierte Lügen in das Gespräch ein. Die KI hält dies für eine normale Aktualisierung und schreibt diese Lügen in ihr Tagebuch.

Wenn später ein anderer Mitarbeiter eine Frage stellt, liest die KI in ihrem Tagebuch, findet die gefälschte Lüge und glaubt, dass sie wahr ist. Sie gibt dem neuen Mitarbeiter dann die falsche Antwort. Dies wird als „Memory Poisoning“ (Gedächtnisvergiftung) bezeichnet.

Bestehende Abwehrmethoden sind wie ein Sicherheitsmann, der nur den Inhalt dessen prüft, was Sie sagen. Aber ein geschickter Lügner kann seine Fake-Neuigkeiten so formulieren, dass sie völlig normal klingen und den Sicherheitsmann täuschen. Die Arbeit argumentiert, dass man ohne eine Möglichkeit zu verifizieren, wer den Eintrag geschrieben hat, niemals zu 100 % sicher sein kann, ob das Tagebuch sicher ist.

Die Lösung: SMSR (Signed Memory with Smoothed Retrieval)

Die Autoren schlagen ein zweiteiliges Verteidigungssystem namens SMSR vor. Betrachten Sie dies als eine Kombination aus einem Sicherheitsstempel und einer randomisierten Jury.

Teil 1: Der Sicherheitsstempel (HMAC Provenance)

Die Analogie: Stellen Sie sich vor, jede Seite, die die KI in ihr Tagebuch schreibt, muss von einem vertrauenswürdigen Manager mit einem speziellen, unfälschbaren Wachssiegel (einer kryptografischen Signatur) versehen werden, bevor sie gespeichert wird.
Wie es funktioniert:
- Wenn ein Hacker versucht, eine gefälschte Erinnerung einzuschleusen, indem er direkt die Datenbank hackt (ohne über den normalen Chat zu gehen), kann er das Siegel nicht fälschen. Das System erkennt das fehlende Siegel und verwirft diese Erinnerung sofort.
- Ergebnis: Dies stoppt 100 % der „ununterschriebenen“ Angriffe (Hacker, die versuchen, Daten ohne Erlaubnis einzuschleusen).

Teil 2: Die randomisierte Jury (Smoothed Retrieval)

Das Problem: Was ist, wenn der Hacker ein legitimer Mitarbeiter ist? Er besitzt ein gültiges Siegel, daher lässt Teil 1 seine gefälschte Erinnerung hinein.
Die Analogie: Stellen Sie sich vor, die KI muss eine Frage beantworten. Anstatt das gesamte Tagebuch zu lesen (das vielleicht voller Lügen ist), spielt sie ein Glücksspiel:
1. Sie zieht einen riesigen Stapel relevanter Seiten (sagen wir 20 Seiten) heraus.
2. Sie wählt zufällig eine kleine Handvoll davon aus (sagen wir 5 Seiten).
3. Sie wiederholt diesen Prozess 5 Mal und erstellt so 5 verschiedene „Mini-Geschichten“.
4. Sie fragt einen „Richter“ (eine andere KI), um jede Geschichte zu prüfen: „Erzählt diese Geschichte die Wahrheit oder eine Lüge?“
5. Sie nimmt eine Mehrheitsentscheidung. Wenn 3 von 5 Geschichten sagen: „Dies ist eine Lüge“, ignoriert das System die Lüge.
Warum es funktioniert: Selbst wenn der Hacker eine Lüge platziert hat, kann er nicht garantieren, dass diese Lüge in jeder zufälligen Handvoll Seiten enthalten ist. Wenn die Lüge nur in 1 oder 2 der 5 Zufallsstichproben erscheint, gewinnt die ehrliche Mehrheit.
Der „zertifizierte“ Teil: Die Autoren haben die Mathematik dahinter berechnet, um genau zu beweisen, wie wahrscheinlich es ist, dass das System versagt. Sie können sagen: „Wir garantieren mathematisch, dass die Wahrscheinlichkeit, dass die KI eine falsche Antwort gibt, weniger als 10,4 % beträgt.“ Dies ist ein „Sicherheitszertifikat“.

Wichtige Konzepte vereinfacht

1. Die Falle der „konsistenten Minderheit“

Die Falle: Wenn Sie einer Gruppe von Menschen eine Frage stellen und 3 Personen unterschiedliche, leicht variierende „Ich weiß es nicht“-Antworten geben, aber 2 Personen exakt dieselbe gefälschte Antwort geben, könnte eine einfache Abstimmung die gefälschte Antwort wählen, nur weil sie die häufigste Zeichenkette von Wörtern ist.
Die Lösung: SMSR stimmt nicht über die Wörter ab, sondern über das Urteil. Die Richter-KI prüft die Bedeutung. Selbst wenn die gefälschten Antworten unterschiedlich formuliert sind, erkennt die Richter-KI, dass sie alle „Bösartig“ sind. Die ehrlichen „Ich weiß es nicht“-Antworten sind alle „Sicher“. Die Abstimmung zählt das Sicherheitsurteil, nicht die spezifischen Wörter, sodass die gefälschte Antwort verliert.

2. Die Kosten

Um dieses hohe Maß an Sicherheit zu erreichen, muss das System härter arbeiten. Anstatt die KI nur eine Frage zu stellen und eine Antwort zu erhalten, stellt es die Frage 5 Mal (mit verschiedenen zufälligen Erinnerungen) und fragt 5 Mal eine Richter-KI, um die Antworten zu prüfen.
Der Kompromiss: Es benötigt etwa 10-mal mehr Rechenleistung (und ein klein wenig mehr Geld), aber es verhindert, dass die KI durch Lügen getäuscht wird. Die Arbeit besagt, dass dies für wichtige Geschäftsentscheidungen lohnenswert ist.

Was die Arbeit tatsächlich herausgefunden hat (Die Ergebnisse)

Die Autoren testeten dies in 15 verschiedenen Geschäftsszenarien (wie z. B. die Prüfung von Spesenrichtlinien oder Sicherheitsregeln).

Das Stoppen der Hacker: Wenn Hacker versuchten, gefälschte Daten ohne gültiges Siegel einzuschleusen, stoppte das System sie zu 100 % der Zeit.
Das Stoppen der hinterlistigen Mitarbeiter: Wenn ein legitimer Nutzer (der ein gültiges Siegel besitzt) versuchte, eine Lüge einzuschleusen, reduzierte das System die Erfolgsrate des Angriffs in einem großen, realistischen Test von fast 100 % auf etwa 8 %.
Die Mathematik hält stand: Die tatsächliche Fehlerrate (8 %) war niedriger als die mathematische „Worst-Case“-Vorhersage (10,4 %), was beweist, dass das Sicherheitszertifikat funktioniert.
Realitätscheck: Selbst wenn der Hacker die KI dazu brachte, die Vergiftung selbst zu schreiben (indem er eine Fangfrage stellte, die die KI dazu brachte, die Lüge in ihr eigenes Tagebuch zu schreiben), funktionierte die Abwehr dennoch und senkte die Erfolgsrate von 65 % auf 5 %.

Zusammenfassung

Die Arbeit stellt ein System vor, das wie ein notariell beglaubigtes Tagebuch kombiniert mit einer randomisierten Jury fungiert. Sie beweist mathematisch, dass man nicht nur schlechte Wörter filtern kann; man muss verifizieren, wer die Erinnerung geschrieben hat, und Zufall nutzen, um die giftigen Erinnerungen zu verwässern. Dies stellt sicher, dass selbst wenn ein geschickter Hacker eindringt, er die KI nicht leichtfertig dazu bringen kann, gefährliche Ratschläge zu geben.

Technisches Resümee: SMSR – Zertifizierte Verteidigung gegen Runtime-Memory-Poisoning in persistenten LLM-Agenten-Systemen

1. Problemstellung: Multi-Session Memory Poisoning (MSMP)

Retrieval-Augmented Generation (RAG)-Agenten in Unternehmensumgebungen verlassen sich zunehmend auf persistente Speicherstrukturen, die Interaktionen über Benutzersitzungen hinweg akkumulieren. Diese Persistenz schafft eine neuartige Angriffsfläche: Ein Angreifer (der als Mitarbeiter, Kunde oder kompromittiertes Tool agiert) kann sorgfältig gestaltete Erinnerungen injizieren, die unbegrenzt bestehen bleiben. Sobald diese abgerufen werden, leiten die vergifteten Einträge das Verhalten des Agenten bei zukünftigen Abfragen um, ohne die Modellgewichte oder den Anwendungscode zu modifizieren.

Das Paper identifiziert die Bedrohung durch Multi-Session Memory Poisoning (MSMP), bei der ein Angreifer Erinnerungen injiziert, die semantisch mit zukünftigen Benutzeranfragen übereinstimmen und so den Agenten dazu bringen, bösartige oder falsche Antworten auszugeben. Bestehende Abwehrmechanismen sind unzureichend:

Statische Korpus-Verteidigungen (z. B. RobustRAG, ReliabilityRAG) setzen ein festes Wissen voraus, das offline indiziert wurde, und versagen, wenn der Angreifer zur Laufzeit über den normalen Schreibpfad des Agenten Daten injiziert.
Heuristische Filter (z. B. Keyword-Blacklists, Entropie-Checks, semantische Anomalieerkennung) sind umgehbar durch flüssigen, unternehmenstypischen Text, der legitime Richtlinienaktualisierungen imitiert.
Konsensbasierte Heuristiken (z. B. A-MemGuard) verfügen über keine formalen Sicherheitsgarantien und können von persistenten Angreifern besiegt werden, die ihre Injektionsstrategien anpassen.

Entscheidend ist, dass keine bestehende Verteidigung ein formales Sicherheitszertifikat (eine mathematische Schranke für den Angriffserfolg) gegen adaptive Runtime-Memory-Poisoning bietet.

2. Methodik: Signed Memory with Smoothed Retrieval (SMSR)

Die Autoren schlagen SMSR vor, einen zweiteiligen Verteidigungsmechanismus, der eine zertifizierte Robustheitsschranke gegen MSMP bietet.

Komponente 1: HMAC-Provenienz-Tagging (Schreibzeit-Grenze)

Um unsignierte Angreifer (jene mit direktem Datenbankzugriff, aber ohne Authentifizierungsdaten) zu adressieren, implementiert SMSR eine kryptografische Grenze zur Schreibzeit.

Mechanismus: Jeder legitime Erinnerungseintrag wird mit einem HMAC-SHA256-Signatur unter Verwendung eines serverseitigen geheimen Schlüssels ( $K$ ) versehen.
Abruf: Zum Zeitpunkt der Abfrage verifiziert das System das HMAC-Tag der abgerufenen Einträge. Nur Einträge mit gültigen Tags werden in den Kandidatenpool aufgenommen.
Sicherheit: Unter den Standard-HMAC-Annahmen kann ein unsignierter Angreifer kein gültiges Tag fälschen, wodurch die Erfolgsrate (Attack Success Rate, ASR) für unsignierte Injektionen effektiv auf 0 % reduziert wird.

Komponente 2: Randomisierte Memory-Ablation mit urteilbasierten Aggregationen (Authentifizierte Angreifer)

Um authentifizierte Angreifer (legitime Benutzer, die signierte Erinnerungen schreiben können) zu adressieren, nutzt SMSR eine randomisierte Verteidigung, die der geglätteten Klassifizierung ähnelt.

Over-fetching: Für eine Abfrage ruft das System einen großen Pool von $m$ verifizierten Kandidaten ab ( $m > k$ , wobei $k$ die Standard-Kontextgröße ist).
Randomisierte Ablation: Das System führt $n_{runs}$ unabhängige Versuche durch. In jedem Versuch werden $k$ Einträge gleichmäßig zufällig (ohne Zurücklegen) aus den $m$ Kandidaten gezogen.
Urteilbasierte Aggregation: Ein LLM-Judge bewertet die in jedem Versuch generierte Antwort und gibt ein Urteil zurück (z. B. korrekt, bösartig, weder noch). Die endgültige Ausgabe wird durch eine Mehrheitsentscheidung der Urteile bestimmt, nicht durch die Textzeichenfolgen selbst.
Theoretische Basis: Dieser Ansatz stützt sich auf eine Hypergeometrische Verteilung, um die Wahrscheinlichkeit zu begrenzen, mit der eine Mehrheit der Stichprobenkontexte bösartige Einträge enthält.

Theoretische Beiträge

Unmöglichkeitsresultat (Theorem 1): Die Autoren beweisen, dass kein deterministischer, provienzfreier Filter, der ausschließlich zur Abrufzeit arbeitet, ein nicht-triviales Sicherheitszertifikat gegen einen adaptiven Angreifer erreichen kann. Dies macht den Provenienz-Mechanismus der Komponente 1 notwendig.
Zertifizierte Robustheitsschranke (Theorem 2): Ein formales hypergeometrisches Zertifikat wird für Komponente 2 hergeleitet, welches die maximale Wahrscheinlichkeit ( $\delta$ ) einer bösartigen Ausgabe definiert, gegeben $t$ bösartige Einträge in einem Pool der Größe $m$ .
Consistent Minority Effect (CME): Das Paper formalisiert eine Falle, bei der stringbasierte Mehrheitsentscheidungen scheitern können, da bösartige Antworten textuell konsistent sind, während gutartige Antworten variieren (Paraphrasen-Variation). SMSR mildert dies durch die urteilbasierte Aggregation ab, die auf semantischer Korrektheit statt auf String-Gleichheit basiert.

3. Wesentliche Beiträge

Formale Definitionen: Einführung des MSMP-Bedrohungsmodells und der ersten $(t, \delta)$ -Sicherheitsdefinition für persistente LLM-Agenten-Speichersysteme.
Unmöglichkeitsbeweis: Demonstration, dass provienzfreie Verteidigungen nicht gegen adaptive Injektion zertifiziert werden können.
SMSR-Konstruktion: Eine praktische Verteidigung, die HMAC-Provenienz mit randomisierter Ablation und einem formalen Zertifikat kombiniert.
CME-Charakterisierung: Formalisierung und Quantifizierung des Consistent Minority Effect, der zeigt, dass eine urteilbasierte Aggregation erforderlich ist, um diesen zu neutralisieren.
Empirische Validierung: Umfangreiche Evaluierung über 15 Enterprise-Szenarien und 3.150 wiederholte Versuche.

4. Experimentelle Ergebnisse

Die Evaluierung wurde in 15 Enterprise-Wissensdatenbank-Szenarien (Finanzen, Compliance, IT, HR) durchgeführt, unter Verwendung eines 20-Seed-Speichers für Produktionstests und eines 10+ Seed-Speichers für die Skalenevaluierung.

Unsignierte Angriffe (Komponente 1): SMSR reduzierte die Attack Success Rate (ASR) von 93–100 % (bei undefendierten Baselines) auf 0 % für alle unsignierten Injektionsvarianten, einschließlich "Bypass"-Angriffen, die darauf ausgelegt sind, heuristische Filter zu umgehen.
Authentifizierte Angriffe (Komponente 2):
- Produktionsskala ( $m=20, t=1$ ): SMSR reduzierte die ASR von 93–100 % auf 8,0 % (95 % KI [5,8 %, 10,9 %]). Dieses Ergebnis liegt sicher unter der theoretischen Worst-Case-Schranke von $\delta = 10,4 \%$ (bei $n_{runs}=5$ ).
- Kleines Maßstab ( $m'=11, t=1$ ): ASR war 37,8 % (95 % KI [33,4 %, 42,3 %]), was unter der Zertifikatschranke von $\delta = 41,5 \%$ liegt.
- Flooding-Varianten: In Flooding-Szenarien (mehrere paraphrasierte Injektionen) näherte sich die ASR der theoretischen Schranke an, was die Tightness des Zertifikats bestätigt.
Vergleich mit Heuristiken: Während eine A-MemGuard-ähnliche Konsens-Baseline eine vergleichbare empirische ASR erreichte (3,8 % vs. 8,0 % in einem spezifischen 20-Seed-Test), bot sie kein formales Zertifikat. Die Unterscheidung von SMSR liegt in der Bereitstellung einer mathematischen Garantie.
End-to-End-Validierung: In einem Query-only-Angriff, bei dem der Agent selbst die Vergiftung schrieb (analog zum MINJA-Angriffsvektor), reduzierte SMSR die ASR von 65,3 % auf 5,3 %.
Utility (Nützlichkeit): Komponente 1 bewahrte 90 % Utility bei sauberen Abfragen. Die kombinierte Verteidigung (Komponenten 1 & 2) hielt 85 % Utility, was einem Preis von 5 % für die Sicherheitsgarantie entspricht.
Zuverlässigkeit des Judges: Die Inter-Judge-Agreement zwischen Haiku- und Sonnet-Modellen war hoch ( $\kappa = 0,955$ ), was die Zuverlässigkeit der urteilbasierten Aggregation bestätigt.

5. Bedeutung und Ansprüche

Das Paper beansprucht, die erste formal zertifizierte Verteidigung gegen Runtime-Memory-Poisoning in persistenten LLM-Agenten-Systemen zu präsentieren. Seine Bedeutung liegt in:

Bewegung weg von Heuristiken: Im Gegensatz zu bisherigen Arbeiten, die auf empirischen Beobachtungen oder statischen Annahmen beruhen, liefert SMSR eine mathematische Garantie ( $\delta$ ) für die Wahrscheinlichkeit eines erfolgreichen Angriffs.
Adressierung der dynamischen Natur des Speichers: Es zielt spezifisch auf die "Live Append-Only"-Natur des Agenten-Speichers ab, ein Szenario, in dem statische Korpus-Verteidigungen versagen.
Nachweis der Notwendigkeit von Provenienz: Das Unmöglichkeitsresultat stellt fest, dass ohne kryptografische Attestierung zur Schreibzeit keine Abrufzeit-Filter zertifiziert werden können.
Praktische Einsetzbarkeit: Das System ist als Drop-in-Wrapper für bestehende RAG-Architekturen konzipiert, der keine Änderungen am zugrunde liegenden LLM oder den Embedding-Modellen erfordert und einen überschaubaren Rechenaufwand (ca. 10 API-Aufrufe pro Abfrage für $n_{runs}=5$ ) aufweist.

Die Autoren kommen zu dem Schluss, dass SMSR die MSMP-Bedrohung für begrenzte Angreifer effektiv mildert und einen grundlegenden Schritt in Richtung eines umfassenden Sicherheits-Stacks für LLM-Anwendungen darstellt (speziell zur Adressierung von OWASP LLM08 Poisoning Sub-Problemen).

SMSR: Certified Defence Against Runtime Memory Poisoning in Persistent LLM Agent Systems