AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen hochintelligenten, aber manchmal etwas unvorsichtigen persönlichen Assistenten, der mit Ihrem Smartphone, Ihrem E-Mail-Programm und Ihren Bankdaten verbunden ist. Sie sagen ihm: „Bitte schick mir nur das Datum der letzten Überweisung per E-Mail an meinen Buchhalter."

Ein normaler Mensch würde genau das tun: Das Datum herausfinden und den Buchhalter anrufen. Aber was, wenn dieser Assistent aus Versehen nicht nur das Datum, sondern auch Ihre Kreditkartennummer, Ihre CVV-Code und Ihre vollständige Kontohistorie mit in die E-Mail packt?

Genau dieses Problem untersucht die Forschungsarbeit „AgentRaft". Hier ist eine einfache Erklärung, wie das funktioniert, ohne technisches Fachchinesisch:

1. Das Problem: Der „Zu-viel-gezeigte" Assistent (Data Over-Exposure)

Der Begriff aus dem Papier ist Data Over-Exposure (DOE). Das bedeutet: Der KI-Assistent gibt mehr Informationen preis, als Sie eigentlich wollten oder als für die Aufgabe nötig war.

Die Analogie: Stellen Sie sich vor, Sie schicken einen Kurier, um nur einen Brief zu überbringen. Der Kurier kommt zurück, aber er hat nicht nur den Brief, sondern auch Ihre gesamte Hausbank, Ihre Schlüssel und Ihre Fotosammlung mitgebracht, weil er dachte: „Vielleicht braucht der Empfänger das auch noch."
Warum passiert das? KI-Assistenten sind wie ein Gehirn, das viele Werkzeuge (Apps) steuert. Diese Werkzeuge geben oft alle Daten zurück, die sie haben. Die KI ist manchmal zu faul oder verwirrt, um genau zu prüfen, welche Daten wirklich nötig sind, und schickt einfach alles weiter.

2. Die Lösung: AgentRaft – Der „Privatsphäre-Inspektor"

Die Forscher haben ein neues Werkzeug namens AgentRaft entwickelt. Man kann es sich wie einen automatisierten Sicherheitsdetektiv vorstellen, der genau prüft, ob der Assistent etwas verheimlicht oder versehentlich zu viel preisgibt.

AgentRaft arbeitet in drei Schritten, die wie ein gut geölter Mechanismus funktionieren:

Schritt A: Die Landkarte zeichnen (Der Werkzeug-Atlas)

Bevor der Detektiv loslegt, muss er wissen, welche Werkzeuge der Assistent überhaupt benutzen kann und wie sie miteinander verbunden sind.

Die Analogie: Stellen Sie sich vor, Sie bauen ein riesiges Labyrinth aus vielen verschiedenen Türen (Apps). AgentRaft zeichnet eine Landkarte von diesem Labyrinth. Es weiß genau: „Wenn man die Tür 'Datei lesen' öffnet, führt das oft automatisch zur Tür 'E-Mail senden'."
Ohne diese Karte würde der Detektiv blind im Dunkeln herumlaufen und nie die gefährlichen Wege finden.

Schritt B: Die perfekten Test-Szenarien (Die „Trick-Rezepte")

Jetzt muss der Detektiv den Assistenten testen. Er kann nicht einfach raten, was der Assistent tun könnte. Er braucht spezifische Befehle.

Die Analogie: Statt dem Assistenten zu sagen „Mach mal was", gibt AgentRaft ihm einen perfekt formulierten Rezept-Zettel. Zum Beispiel: „Hier ist eine Rechnung. Lies nur das Datum heraus und schick nur das Datum."
Das Besondere: AgentRaft erstellt diese Zettel automatisch basierend auf der Landkarte aus Schritt A. Es weiß genau, welche Befehle den Assistenten dazu bringen, tief in die Werkzeuge einzutauchen, wo die Gefahr lauert.

Schritt C: Die Jury-Entscheidung (Der „Richter-Rat")

Der Assistent führt den Befehl aus. AgentRaft schaut genau hin, was dabei rauskommt. Aber wie weiß man, ob das, was rauskam, „zu viel" war?

Die Analogie: Hier kommt eine Jury aus mehreren KI-Richtern ins Spiel. Diese Richter kennen die Gesetze (wie die DSGVO in Europa oder andere Datenschutzregeln).
Sie diskutieren: „Ist die Kreditkartennummer wirklich nötig, um das Datum zu senden?"
Wenn die Jury zu 99 % einig ist: „Nein, das ist zu viel!", dann markiert AgentRaft das als Sicherheitsleck. Ein einzelner Richter könnte sich irren, aber eine Jury macht es sehr sicher.

3. Was haben sie herausgefunden?

Die Forscher haben AgentRaft an 6.675 echten Werkzeugen getestet (wie in einem riesigen App-Store). Die Ergebnisse waren erschreckend, aber wichtig:

Es ist ein massives Problem: In fast 57 % aller möglichen Wege, die ein Assistent gehen könnte, kam es zu einer Daten-Über-Exposure. Das ist wie bei einem Auto, bei dem fast die Hälfte der Türen nicht richtig abschließt.
Die KI ist nicht perfekt: Selbst wenn der Nutzer nur ein Datum will, schickte der Assistent oft die ganze Kreditkarte mit.
AgentRaft ist super effizient: Während andere Methoden tausende von Versuchen bräuchten, um ein Problem zu finden, findet AgentRaft fast alle Probleme (99 %) mit nur sehr wenigen Tests (150 Befehle). Es ist wie ein Metalldetektor, der sofort das Gold findet, während andere blind durch den Sand graben müssen.

Fazit: Warum ist das wichtig?

AgentRaft ist wie ein automatischer Sicherheits-Check für die Zukunft. Bevor wir KI-Assistenten in Banken, Krankenhäusern oder Büros einsetzen, müssen wir sicherstellen, dass sie nicht versehentlich unsere Geheimnisse verraten.

Dieses Werkzeug hilft Entwicklern, diese Lücken zu schließen, bevor sie Schaden anrichten, und stellt sicher, dass unsere digitalen Assistenten nicht nur klug, sondern auch diskret und vertrauenswürdig sind. Es ist der erste Schritt zu einem sicheren Zeitalter, in dem KI unsere Aufgaben erledigt, ohne unsere Privatsphäre zu opfern.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents" auf Deutsch:

Titel: AgentRaft: Automatisierte Erkennung von Daten-Überexponierung in LLM-Agenten

1. Problemstellung: Daten-Überexponierung (Data Over-Exposure, DOE)

Die Integration von Large Language Model (LLM) Agenten in autonome Task-Ausführungen hat neue Datenschutzrisiken in den Datenflüssen über verschiedene Tools hinweg eingeführt. Das Paper definiert ein neues Risiko, die Daten-Überexponierung (DOE).

Definition: DOE tritt auf, wenn ein Agent sensible Daten über den vom Benutzer intendierten Rahmen und die funktionale Notwendigkeit hinaus an externe Ziele (Sinks) übermittelt.
Ursachen:
1. Zu breite Datenbereitstellung durch Tools: Tools liefern oft vollständige Datensätze (z. B. eine ganze Datenbankzeile), obwohl für die Aufgabe nur ein Teil benötigt wird.
2. Fehlender kontextueller Datenschutzbewusstsein der LLMs: LLMs können zwar einzelne Datenpunkte als sensibel erkennen, versagen jedoch oft bei komplexen Aufgaben, den genauen Umfang der erforderlichen Daten zu bestimmen. Sie geben oft unbeabsichtigt mehr Daten weiter als beabsichtigt (z. B. Senden einer gesamten Transaktionsdatei inklusive Kreditkartennummer, wenn nur das Datum benötigt wurde).
Herausforderung: Herkömmliche statische Analysemethoden scheitern, da die Datenflüsse in LLM-Agenten dynamisch, nicht-deterministisch und durch die Laufzeit-Orchestrierung des LLM gesteuert werden. Manuelle Testfallerstellung ist aufgrund der probabilistischen Natur der Agenten zu aufwendig und ineffizient.

2. Methodik: Das AgentRaft-Framework

AgentRaft ist das erste automatisierte Framework zur Erkennung von DOE-Risiken. Es kombiniert Programmanalyse mit semantischer Reasoning in drei synergistischen Modulen:

A. Generierung eines Cross-Tool Function Call Graph (FCG)

Ziel: Modellierung des Interaktionslandschafts heterogener Tools, um versteckte Datenfluss-Leckagen zu identifizieren.
Prozess:
1. Statische Analyse: Extraktion kompatibler Funktionspaare basierend auf Typen (Rückgabetyp vs. Eingabetyp).
2. LLM-basierte Validierung: Ein LLM prüft die semantische Relevanz der Datenabhängigkeiten, um falsch-positive statische Ergebnisse zu filtern.
3. Graph-Konstruktion: Erstellung eines gerichteten Graphen ( $G = (N, E)$ ), der Entry-Nodes, Funktionsknoten und Call-Edges (Aufforderungen zur Tool-Ausführung) darstellt. Dies dient als strukturelle Blaupause für die Pfadfindung.

B. Synthese von Benutzer-Prompts (User Prompt Synthesis)

Ziel: Transformation der abstrakten Pfade im FCG in ausführbare, hochqualitative Benutzeranfragen, die als deterministische Trigger für spezifische Ausführungspfade dienen.
Prozess:
1. Pfad-Retrieval: Verwendung von Breadth-First Search (BFS) im FCG, um alle erreichbaren Pfade von einer Quelle (Source) zu einem Ziel (Sink) zu finden.
2. Instantiierung: Der abstrakte Pfad wird mit konkreten Benutzerdaten gefüllt. Dabei wird strikt zwischen Benutzer-intendierten Daten ( $D_{int}$ ) (z. B. nur das Datum) und Überexponierungs-Kandidaten (z. B. Kreditkartennummer) unterschieden.
3. Ergebnis: Ein Prompt, der den Agenten zwingt, nur die intendierten Daten zu verarbeiten. Wenn der Agent dennoch Kandidaten weiterleitet, ist dies ein klarer Verstoß.

C. Erkennung von Daten-Überexponierung (Runtime Detection)

Ziel: Quantitative Bewertung der Privatsphäre durch Laufzeit-Monitoring und automatisierte Urteilsfindung.
Prozess:
1. Taint Tracking: Während der Ausführung werden Daten, die über die intendierten Daten hinausgehen, mit einem „Taint"-Label markiert. Diese Markierung wird durch den gesamten Call-Chain verfolgt (Quelle -> Tool -> Sink).
2. Multi-LLM Voting-Komitee: Um zu entscheiden, ob übertragene Daten ( $D_{trans}$ ) eine Verletzung darstellen, wird ein Komitee aus mehreren LLMs eingesetzt.
3. Regelbasis: Das Komitee urteilt basierend auf globalen Datenschutzbestimmungen (GDPR, CCPA, PIPL) und dem Prinzip der Datenminimierung. Es prüft, ob die Daten strikt notwendig ( $D_{nec}$ ) oder vom Benutzer intendiert ( $D_{int}$ ) sind. Nur Daten, die weder $D_{int}$ noch $D_{nec}$ sind, werden als DOE markiert. Der Mehrheitsentscheid reduziert Halluzinationen und Bias einzelner Modelle.

3. Wichtige Beiträge

Erste systematische Untersuchung: Das Paper definiert DOE formal im Kontext von LLM-Agenten und identifiziert es als systemisches Risiko.
AgentRaft Framework: Entwicklung eines automatisierten Systems, das statische Graphenanalyse (FCG) mit dynamischer Prompt-Synthese und mehrstufiger Laufzeitüberwachung kombiniert.
Skalierbare Evaluierung: Das Framework wurde an 6.675 realen Tools (aus MCP.so) in vier Szenarien (Datenmanagement, Softwareentwicklung, Unternehmenszusammenarbeit, Soziale Kommunikation) getestet.

4. Ergebnisse

Die Evaluierung ergab alarmierende Befunde und hohe Effektivität des Frameworks:

Verbreitung des Risikos:
- 57,07 % aller potenziellen Tool-Interaktionspfade zeigen DOE-Risiken.
- 65,42 % aller übertragenen Datenfelder in den getesteten Szenarien wurden als überexponiert identifiziert.
Erkennungseffizienz:
- AgentRaft erreicht eine Entdeckungsrate von 69,15 % innerhalb von nur 50 Prompts (im Vergleich zu <20 % bei zufälliger Suche nach 300 Versuchen).
- Bei 150 Prompts wird eine Abdeckung von ~99 % erreicht.
Genauigkeit:
- Das Multi-LLM Voting-Komitee erreicht einen F1-Score von 97,92 % (im Vergleich zu ~84 % bei einzelnen Modellen).
- Die False-Positive-Rate wurde drastisch reduziert.
Kosten-Nutzen:
- AgentRaft reduziert die Verifikationskosten pro Kette um 88,6 % im Vergleich zu nicht-geführten Baselines, da weniger Testvektoren benötigt werden, um zu Konvergenz zu gelangen.

5. Bedeutung und Ausblick

Praktische Relevanz: AgentRaft bietet Entwicklern und Plattformen ein Werkzeug für systematisches Privacy-Vetting vor dem Release von Agenten. Es ermöglicht die Einhaltung von Vorschriften wie GDPR und PIPL.
Paradigmenwechsel: Die Arbeit zeigt, dass die aktuelle Architektur von LLM-Agenten (breite Datenbereitstellung + fehlende Kontextsensitivität) inhärent unsicher ist und eine neue Ebene der Sicherheitsprüfung erfordert.
Zukunftsperspektive: Das Framework legt den Grundstein für auditable, vertrauenswürdige Agenten-Ökosysteme und kann für Runtime-Anomalieerkennung und präventive Policy-Enforcement erweitert werden.

Zusammenfassend beweist das Paper, dass Daten-Überexponierung ein weit verbreitetes, kritisches Problem ist, das durch den Einsatz von AgentRaft effektiv, präzise und kosteneffizient erkannt und gemindert werden kann.