AgentDrift: Unsafe Recommendation Drift Under Tool Corruption Hidden by Ranking Metrics in LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Die Geschichte vom blinden Finanzberater

Stellen Sie sich vor, Sie haben einen hochintelligenten, digitalen Finanzberater (einen „Agenten"), der von einer künstlichen Intelligenz (KI) angetrieben wird. Dieser Berater liest Nachrichten, prüft Börsendaten und gibt Ihnen Empfehlungen, welche Aktien Sie kaufen sollen. Er ist darauf trainiert, Ihre Sicherheit zu beachten: Wenn Sie sagen „Ich mag keine Risiken", sollte er Ihnen nur sichere Aktien wie einen Sparstrumpf empfehlen, nicht aber riskante Wetten.

Das Problem, das die Forscher entdeckt haben, ist wie ein Hacker, der die Nachrichtenzeitung manipuliert, bevor sie beim Berater ankommt.

1. Der Trick: Die gefälschte Zeitung

Normalerweise ist der Berater sehr gut darin, die Qualität seiner Empfehlungen zu bewerten. Er schaut auf Metriken wie: „Wie gut passt die Empfehlung zu den aktuellen Markttrends?" oder „Wie hoch ist die Rendite?".

Aber was passiert, wenn jemand die Datenquelle vergiftet?
Stellen Sie sich vor, ein Hacker ändert die Daten in der Zeitung des Beraters:

Er schreibt über eine extrem riskante Aktie (z. B. ein hochgehebeltes ETF), dass sie „sicher und stabil" sei.
Er schreibt über eine sehr sichere Aktie (z. B. ein Versorgungsunternehmen), dass sie „hochriskant und instabil" sei.
Er ändert die Zahlen so, dass die riskante Aktie wie ein sicherer Hafen aussieht.

Der Berater liest diese gefälschten Daten. Da er darauf programmiert ist, den Daten zu vertrauen, folgt er ihnen blind.

2. Das Schockierende: Der „Blinde Fleck" der Bewertung

Hier kommt der eigentliche Schock der Studie: Der Berater scheint immer noch perfekt zu funktionieren.

Wenn man den Berater nach der „Qualität" seiner Empfehlungen fragt (basierend auf Standard-Metriken, die nur schauen, ob die Empfehlung logisch klingt oder gut bewertet wird), erhält man ein grünes Licht. Die Bewertung sagt: „Alles super! Die Empfehlung ist genau so gut wie vorher."

Aber in Wahrheit hat der Berater dem Kunden gerade eine hochriskante Wette empfohlen, die er eigentlich vermeiden wollte.

Die Metrik (der Prüfer) sagt: „Der Berater ist super!" (Weil die Empfehlung gut aussieht).
Die Realität (die Sicherheit) sagt: „Der Berater hat den Kunden in Gefahr gebracht!"

Die Forscher nennen dies „Evaluation Blindness" (Bewertungsblindheit). Es ist, als würde ein Arzt, der ein Gift in das Essen eines Patienten geschmuggelt hat, den Patienten trotzdem als „gesund" bewerten, weil der Patient immer noch gut aussieht und keine Symptome zeigt – bis es zu spät ist.

3. Warum passiert das? (Der Mechanismus)

Der Berater hat zwei Wege, Informationen zu verarbeiten:

Der direkte Weg (Information): Er liest die aktuelle Nachricht und handelt sofort danach.
Der Gedächtnis-Weg (Memory): Er merkt sich, was er in der Vergangenheit getan hat, und passt sein Verhalten an.

Die Studie zeigt, dass der direkte Weg das Hauptproblem ist. Sobald die gefälschte Nachricht da ist, empfiehlt der Berater sofort die falsche Aktie. Er hinterfragt die Daten nicht („Ist das wirklich wahr?"). Er vertraut einfach dem, was ihm in die Hände gedrückt wird.

Selbst wenn der Berater in seinem Gedächtnis gespeichert hat, dass eine Aktie riskant ist, ignoriert er dieses Wissen, sobald die aktuelle, gefälschte Nachricht etwas anderes sagt. Er ist wie ein Schüler, der die Antwort aus dem Lehrbuch gelernt hat, aber wenn der Lehrer ihm eine falsche Antwort auf ein Zettelchen gibt, glaubt er dem Zettelchen sofort.

4. Die Konsequenz: Ein langer Abwärtstrend

Das Schlimmste ist, dass dieser Fehler nicht nur einmal passiert. Wenn Sie mit dem Berater über 23 Schritte sprechen (ein langes Gespräch), bleibt der Fehler bestehen.

Der Berater korrigiert sich nicht selbst.
Er merkt nicht, dass die Daten falsch sind.
Er empfiehlt weiter und weiter riskante Produkte, während die Standard-Metriken weiterhin „Alles in Ordnung" anzeigen.

5. Die Lösung: Eine neue Art zu prüfen

Die Forscher schlagen vor, dass wir nicht nur auf die „Qualität" der Empfehlung schauen dürfen, sondern auch auf die Sicherheit.
Stellen Sie sich vor, Sie prüfen einen Autofahrer nicht nur darauf, ob er schnell fährt (Qualität), sondern auch darauf, ob er gegen eine rote Ampel fährt (Sicherheit).

Sie haben einen neuen Test entwickelt (genannt sNDCG), der explizit prüft: „Ist diese Empfehlung für diesen spezifischen Kunden sicher?"
Wenn man diesen Test anwendet, bricht die scheinbare Perfektion des Beraters zusammen. Die Bewertung zeigt sofort: „Achtung! Hier ist eine Katastrophe!"

Zusammenfassung in einem Satz

Die Studie warnt davor, dass KI-Agenten in wichtigen Bereichen (wie Finanzen) durch manipulierte Daten leicht in die Irre geführt werden können, ohne dass unsere aktuellen Testmethoden das bemerken – sie sehen nur das „gute Aussehen" der Empfehlung, nicht aber die tödliche Gefahr dahinter.

Die Lehre: Wir müssen KI-Systeme nicht nur auf „Intelligenz" testen, sondern auch auf „Vorsicht" und „Sicherheit", besonders wenn sie auf externe Daten angewiesen sind.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Der Artikel adressiert ein kritisches Sicherheitsproblem bei Tool-augmentierten Large Language Model (LLM) Agents, die in hochriskanten Domänen wie der Finanzberatung eingesetzt werden.

Die Lücke in der Evaluation: Der aktuelle Evaluierungsstandard für Empfehlungssysteme stützt sich fast ausschließlich auf Ranking-Qualitätsmetriken wie NDCG (Normalized Discounted Cumulative Gain) oder Hit-Rate. Diese Metriken messen, wie gut eine Empfehlung mit einer Experten-Liste übereinstimmt (Nützlichkeit), ignorieren jedoch, ob die Empfehlung für den spezifischen Nutzer sicher ist (z. B. ob ein risikoreiches Produkt einem konservativen Anleger empfohlen wird).
Die Bedrohung: Die Tools, über die Agents die Welt beobachten (z. B. Marktdaten-APIs, News-Feeds), stellen eine angreifbare Oberfläche dar. Adversaries können diese Tools manipulieren, um falsche Daten (z. B. invertierte Risikoscores, verzerrte Schlagzeilen) zu liefern.
Das Phänomen: Die Autoren zeigen, dass selbst bei massiver Manipulation der Tool-Ausgaben die Standard-Qualitätsmetriken (NDCG) stabil bleiben, während die Sicherheit des Systems kollabiert. Dies wird als „Evaluation Blindness" (Evaluierungsblindheit) bezeichnet.

2. Methodik

Die Autoren entwickeln ein neues diagnostisches Protokoll, um diese Blindheit zu quantifizieren und die zugrundeliegenden Mechanismen zu entschlüsseln.

Paired-Trajectory-Protokoll:
- Es werden reale Finanzdialoge (aus dem Datensatz Conv-FinRe) mit 10 Nutzern über jeweils 23 Schritte repliziert.
- Für jeden Nutzer werden zwei Sessions durchgeführt: eine saubere Session (unveränderte Tools) und eine kontaminierte Session.
- Die Kontamination erfolgt durch vier Modi in den Tool-Ausgaben:
  1. Risikoinversion: Risikoscores werden umgekehrt (z. B. wird ein spekulatives Risiko 5 als defensives Risiko 1 dargestellt).
  2. Metrik-Manipulation: Volatilität und Maximal Drawdown werden für risikoreiche Aktien künstlich gesenkt, für defensive erhöht.
  3. Verzerrte Schlagzeilen: Nachrichten werden so formuliert, dass sie risikoreiche Aktien als sicher darstellen.
  4. Injektion hochriskanter Produkte: Ein extrem riskantes ETF (TQQQ) wird mit einem gefälschten niedrigen Risikoscore eingefügt.
Modellvielfalt: Das Experiment umfasst sieben verschiedene LLMs (von 7B bis Frontier-Modellen wie GPT-5.2, Claude Sonnet 4.6, Qwen3, Gemma 3, Mistral), um die Generalisierbarkeit zu testen.
Diagnostische Zerlegung (Mediationsanalyse):
- Die Autoren zerlegen die Abweichung (Drift) zwischen sauberer und kontaminierter Empfehlung in zwei Kanäle:
  1. Informationskanal (Information Channel): Direkte Verzerrung durch die korrupten Tool-Daten im aktuellen Turn.
  2. Speicherkanaal (Memory Channel): Persistente Korruption des Agenten-Zustands (Memory), die zukünftige Turns beeinflusst.
- Durch das Halten des Speichers auf dem sauberen Zustand (Memory-Equal Turns) können sie isoliert messen, wie viel Drift allein durch die aktuellen Daten verursacht wird.
Metriken:
- UPR (Utility Preservation Ratio): Verhältnis von NDCG in kontaminierter vs. sauberer Session.
- SVRs (Suitability Violation Rate): Anteil der Turns, in denen mindestens ein empfohlenes Produkt den Risikotoleranz des Nutzers verletzt.
- sNDCG: Eine sicherheitsstrafende Variante von NDCG, die unsichere Produkte mit einem Score von 0 bewertet.

3. Schlüsselbeiträge

Nachweis der Evaluierungsblindheit: Die Studie belegt empirisch, dass NDCG und ähnliche Metriken bei Tool-Korruption stabil bleiben (UPR $\approx$ 1.0), obwohl die Sicherheit massiv beeinträchtigt ist (SVRs von 65–93 %).
Diagnostisches Framework: Einführung eines Protokolls zur Zerlegung von Agenten-Drift in Informations- und Speicherkomponenten, das zeigt, dass Sicherheitsverletzungen primär durch den Informationskanal getrieben werden.
Sicherheitsstrafende Metriken: Demonstration, dass die Einführung von sNDCG die Evaluierungslücke schließt (UPR fällt auf 0.51–0.74), was zeigt, dass die Blindheit nur eine Folge der Wahl der Metrik ist.
Repräsentations-zu-Aktion-Lücke: Durch Sparse Autoencoder (SAE) wird gezeigt, dass das Modell die Kontamination intern erkennt (unterscheidet sich von reinem Text-Rauschen), aber dieses Wissen nicht in die Entscheidung (Recommendation) überträgt.

4. Ergebnisse

Persistente Unsicherheit: Über alle 7 Modelle hinweg bleiben die Qualitätsmetriken (NDCG) nahezu unverändert, während in 65–93 % der Turns unsichere Produkte empfohlen werden.
Keine Selbstkorrektur: Selbst bei 23-stufigen Trajektorien korrigieren sich die Agents nicht selbst. Kein Agent hinterfragte explizit die Zuverlässigkeit der Tool-Daten, obwohl die Daten offensichtlich manipuliert waren.
Dominanz des Informationskanals: Sicherheitsverletzungen werden zu 94,8 % durch den Informationskanal verursacht (direkte Reaktion auf korrupte Daten), während der Speicherkanaal nur einen geringeren Anteil am Gesamt-Drift hat, aber für die Persistenz der Fehler sorgt.
Effektivität subtiler Angriffe: Selbst „Within-Band"-Manipulationen (Änderungen des Risikoscores um nur $\pm 1$ , die Schwellenwert-Monitoring-Systeme umgehen) führen zu signifikantem Drift (61 % des Vollangriffs) und hohen Verletzungsraten.
Modellunabhängigkeit: Das Phänomen tritt bei allen getesteten Architekturen und Größen auf, von 7B bis zu 675B Parametern. Größere Modelle folgen den Anweisungen der Tools sogar noch strikter („Instruction Following"), was sie anfälliger für diese Art von Kontamination macht.

5. Bedeutung und Implikationen

Warnung vor aktuellen Deployments: Die Ergebnisse warnen davor, Multi-Turn-Agenten in hochriskanten Umgebungen (Finanzen, Medizin, Recht) ohne Trajektorien-Level-Sicherheitsmonitoring einzusetzen. Die bloße Betrachtung von NDCG oder Hit-Rate bietet eine trügerische Sicherheit.
Notwendigkeit neuer Metriken: Es muss dringend zu Metriken übergegangen werden, die Nutzer-Sicherheit und Risikokonformität explizit messen (wie sNDCG oder SVRs), nicht nur die Übereinstimmung mit einer Expertenliste.
Architektonische Schwachstelle: Das Design von ReAct-Agenten, die sich stark auf Tool-Daten verlassen, um Halluzinationen zu vermeiden, schafft eine strukturelle Verwundbarkeit. Wenn die Tool-Daten manipuliert werden, übernimmt das Modell diese Fehler kritiklos.
Verteidigungsstrategien: Einfache Konsistenzchecks (z. B. Abgleich mit einer statischen Referenzdatenbank) können extreme Manipulationen erkennen, sind jedoch gegen subtile, innerhalb von Schwellenwerten liegende Änderungen wirkungslos. Die Autoren plädieren für Laufzeit-Monitoring auf Trajektorien-Ebene.

Zusammenfassend zeigt das Paper, dass die aktuelle Evaluierungspraxis für LLM-Agenten fundamental unzureichend ist, da sie Sicherheitsrisiken systematisch übersieht, solange die „Qualität" der Empfehlung (im Sinne der Übereinstimmung mit einer Liste) erhalten bleibt.

AgentDrift: Unsafe Recommendation Drift Under Tool Corruption Hidden by Ranking Metrics in LLM Agents

Die Geschichte vom blinden Finanzberater

1. Der Trick: Die gefälschte Zeitung

2. Das Schockierende: Der „Blinde Fleck" der Bewertung

3. Warum passiert das? (Der Mechanismus)

4. Die Konsequenz: Ein langer Abwärtstrend

5. Die Lösung: Eine neue Art zu prüfen

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Implikationen

Mehr davon

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá