AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

Die Arbeit stellt mit AgentSCOPE ein neues Benchmark-Framework vor, das auf der Kontextuellen Integrität basiert und zeigt, dass die alleinige Bewertung von Eingabe und Ausgabe die Privatsphärenrisiken agenter Systeme erheblich unterschätzt, da die meisten Verstöße in den intermediären Datenflüssen zwischen Agenten und Tools auftreten.

Ivoline C. Ngong, Keerthiram Murugesan, Swanand Kadhe, Justin D. Weisz, Amit Dhurandhar, Karthikeyan Natesan Ramamurthy

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen super-intelligenten, aber etwas unvorsichtigen persönlichen Assistenten namens „Agent". Dieser Assistent darf auf Ihre E-Mails, Ihren Kalender, Ihre Dateien und Ihre Nachrichten zugreifen, um Ihnen den Alltag zu erleichtern. Er soll zum Beispiel eine E-Mail an Ihren Chef schreiben, weil Sie krank sind.

Das Problem ist: Der Assistent ist so eifrig, dass er auf dem Weg zum Ziel oft Dinge tut, die Ihre Privatsphäre verletzen, auch wenn das Endergebnis (die fertige E-Mail) harmlos aussieht.

Die Forscher von AgentSCOPE haben eine neue Methode entwickelt, um genau diese „versteckten" Probleme aufzudecken. Hier ist die Erklärung, wie sie das tun, mit ein paar einfachen Vergleichen:

1. Das Problem: Nur das Endergebnis zu prüfen, ist wie ein Lügen-Test am Ende des Tages

Bisher haben Experten nur geschaut: „Ist die fertige E-Mail an den Chef privat?" Wenn ja, war alles gut.
Aber das ist, als würden Sie nur prüfen, ob am Ende des Tages niemand verletzt wurde, ohne zu schauen, was auf dem Weg passiert ist. Vielleicht hat der Assistent unterwegs versehentlich Ihre privaten Arztbriefe auf den Tisch gelegt, sie wieder weggeräumt und erst am Ende die E-Mail geschrieben. Niemand hat es gesehen, aber die Privatsphäre war trotzdem verletzt.

Die Forscher sagen: Wir müssen jeden einzelnen Schritt auf dem Weg überwachen.

2. Die Lösung: Der „Privatsphären-Fluss-Graph" (Privacy Flow Graph)

Um das zu verstehen, stellen Sie sich den Arbeitsprozess des Assistenten wie einen Wasserfluss in einem komplexen Rohrsystem vor.

  • Der Benutzer (Sie) ist die Quelle.
  • Der Assistent ist das Pumpwerk.
  • Die Werkzeuge (Kalender, E-Mail-App) sind verschiedene Wasserbehälter.
  • Der Empfänger ist das Zielbecken.

Das neue Werkzeug der Forscher, der Privacy Flow Graph, zeichnet jeden Tropfen Wasser auf, der durch die Rohre fließt. Es fragt bei jedem Schritt:

  • Wer schickt das? (Sie oder der Assistent?)
  • Wer empfängt es? (Das Tool oder der Chef?)
  • Was ist das für ein Tropfen? (Ist es nur die Arbeitszeit oder auch Ihre private Fertility-Behandlung?)
  • Darf dieser Tropfen hier überhaupt fließen?

Wenn der Assistent Ihren Kalender öffnet, um die Arbeitszeit zu finden, aber dabei versehentlich auch Ihre privaten Termine für eine IVF-Behandlung (Künstliche Befruchtung) sieht und diese Daten im Gedächtnis behält, markiert der Graph das als Leck. Selbst wenn diese Daten am Ende nicht in der E-Mail stehen, war der Fluss an dieser Stelle bereits „verschmutzt".

3. Der Test: AgentSCOPE

Die Forscher haben einen großen Testlauf namens AgentSCOPE entwickelt.

  • Sie haben eine fiktive Person namens Emma erfunden.
  • Sie haben 62 verschiedene Alltagssituationen für Emma erstellt (z. B. „Schreib dem Chef, dass du krank bist" oder „Finde heraus, welche Meetings ich verpasse").
  • In Emmas digitalen Unterlagen haben sie absichtlich viele sensible Daten versteckt (Krankheitsberichte, Finanzdaten, intime Termine).
  • Dann haben sie sieben der besten aktuellen KI-Assistenten (von Firmen wie OpenAI und Anthropic) getestet, um zu sehen, wie sie mit diesen Aufgaben umgehen.

4. Was sie herausgefunden haben (Die schockierende Wahrheit)

Das Ergebnis ist beunruhigend, aber wichtig:

  • Die Illusion der Sicherheit: Wenn man nur auf die fertige E-Mail schaut, sehen die KIs ziemlich gut aus. Nur etwa 24 % der E-Mails enthielten tatsächlich private Daten.
  • Die harte Realität: Wenn man aber den ganzen Weg (den Fluss durch alle Rohre) anschaut, haben über 80 % der KIs auf dem Weg Privatsphäre verletzt!
  • Wo passiert es? Meistens passiert das nicht am Ende, sondern in der Mitte:
    1. Beim Öffnen der Werkzeuge: Die Kalender-App gibt dem Assistenten alles zurück, nicht nur das, was er braucht (wie ein Kellner, der Ihnen den ganzen Speisekarte zeigt, obwohl Sie nur nach dem Preis für eine Suppe fragen).
    2. Beim Fragen: Der Assistent fragt zu viel nach („Gib mir alle Termine" statt „Gib mir nur den Termin am Dienstag").

5. Warum das wichtig ist

Die Forscher sagen: Wir können uns nicht mehr darauf verlassen, dass die KI am Ende „sauber" ist. Wenn die KI unterwegs sensible Daten sieht und speichert, ist das Risiko schon da, auch wenn sie sie später nicht weiterleitet.

Die einfache Lehre:
Stellen Sie sich vor, Sie schicken einen Boten mit einem Brief. Früher haben wir nur geprüft, ob der Brief am Ziel ankommt. Jetzt müssen wir prüfen, ob der Boten unterwegs nicht versehentlich Ihre Geheimnisse in einem Café laut vorgelesen hat, nur weil er den Weg falsch verstanden hat.

AgentSCOPE ist wie eine neue Kamera, die den ganzen Weg des Boten aufzeichnet, damit wir sehen können, wo die Privatsphäre wirklich gefährdet ist, und nicht nur, wo sie am Ende zu sein scheint.