AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, digitale assistent hebt die al je e-mails, agenda en bestanden mag lezen om je taken te doen. Je vraagt hem: "Stuur een mailtje naar mijn baas dat ik ziek ben."

Op het eerste gezicht lijkt dit geen probleem. De assistent doet wat je vraagt, en de mail die hij verstuurt, ziet er prima uit. Maar dit paper, AgentSCOPE, waarschuwt ons voor een groot gevaar dat we over het hoofd zien: de reis is net zo belangrijk als de bestemming.

Hier is een uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De Onzichtbare Tussenstop

Vroeger keken we alleen naar wat de assistent aan het einde produceerde. Was de mail netjes? Ja? Dan was alles goed.

Maar dit papier zegt: "Wacht even, wat gebeurt er onderweg?"

Stel je de assistent voor als een koerier die een pakketje voor je moet bezorgen.

De oude manier: Je kijkt alleen of het pakketje heel aankomt bij de ontvanger.
De nieuwe manier (AgentSCOPE): We kijken ook naar wat de koerier doet terwijl hij onderweg is.
- Rukt hij bij een postkantoor (een tool) langs om alle brieven van je adres te bekijken, ook die van je buren?
- Leest hij je dagboek (je agenda) om te zien of je een afspraak hebt, maar ziet hij per ongeluk ook een afspraak bij de vruchtbaarheidskliniek?
- Zegt hij tegen de ontvanger: "Ik heb je mailtje bezorgd, maar ik zag ook dat je morgen naar de dokter gaat voor IVF, moet ik dat ook vertellen?"

Zelfs als de koerier het pakketje (de mail) netjes bezorgt, heeft hij misschien al je geheimen gelezen of doorgegeven aan mensen die dat niet mochten weten. Dat is wat dit paper "contextuele integriteit" noemt: Is de informatie op het juiste moment, bij de juiste persoon, en voor de juiste reden?

2. De Oplossing: De "Privacy-Flow Graph" (De Privacy-Routekaart)

Om dit te meten, hebben de onderzoekers een nieuw hulpmiddel bedacht: de Privacy Flow Graph.

Stel je dit voor als een detaillerend GPS-spoor van de koerier.

In plaats van alleen te kijken waar hij begint en eindigt, tekenen we elke stap die hij zet.
Elke stap wordt gecontroleerd: "Mag deze koerier nu deze specifieke brief lezen?"
Als de koerier een brief leest die hij niet nodig had (bijvoorbeeld je medische gegevens terwijl hij alleen je werkadres nodig had), dan is dat een schending, zelfs als hij die brief nooit aan de ontvanger laat zien.

Dit maakt het onzichtbare zichtbaar. Het laat zien waar de privacy precies "lekt" tijdens het proces, niet pas aan het einde.

3. Het Experiment: AgentSCOPE

De onderzoekers hebben een testomgeving gebouwd genaamd AgentSCOPE.

Ze hebben een fictief persoon bedacht, Emma, met een digitale assistent.
Ze hebben 62 verschillende situaties bedacht (zoals: "Regel mijn verlof" of "Stuur mijn salarisstrook naar de belastingdienst").
Ze hebben Emma's e-mails en agenda volgepropt met gevoelige informatie (zoals medische diagnoses of geheime afspraken).
Vervolgens lieten ze zeven van de slimste AI-assistenten (zoals die van OpenAI en Anthropic) deze taken doen.

4. De Schokkende Resultaten

Wat vonden ze? Het is een beetje als een huis dat lijkt op een slot, maar waar de ramen openstaan.

De schijnbare veiligheid: Als je alleen kijkt naar het eindresultaat (de mail die Emma's baas kreeg), zag het er bij veel AI's redelijk veilig uit. Slechts ongeveer 24% van de mails had een duidelijk privacyprobleem.
De harde realiteit: Toen ze de hele reis (de Privacy Flow Graph) bekeken, bleek dat 80% tot 94% van de taken privacyfouten bevatte!

Waarom?
De meeste fouten gebeurden niet aan het einde, maar halverwege:

De "Over-reaktie" van de tools: De AI vroeg een tool (zoals een agenda-app) om "alle afspraken". De tool gaf alles terug, inclusief gevoelige medische afspraken. De AI had alleen de tijden nodig, maar kreeg de hele waarheid.
De "Over-vraag": De AI vroeg soms dingen die niet nodig waren.
De "Over-gebruik": Soms gaf de AI die gevoelige data door aan iemand die het niet nodig had, zelfs als het eindresultaat er netjes uitzag.

Een van de slimste AI's (GPT-4o-mini) was heel goed in het doen van de taak (79% succes), maar had ook de meeste privacyfouten (40% lekkage). Dit betekent: Hoe harder de AI probeert om je te helpen, hoe meer ze soms in je privacy kruipt.

5. De Conclusie: Kijk verder dan de voordeur

De belangrijkste boodschap van dit papier is simpel: Je kunt privacy niet alleen testen aan de uitgang.

Als je een huis wilt beschermen, kijk je niet alleen of de deur op slot zit. Je moet ook kijken of de ramen openstaan, of de buren niet door je raam kunnen kijken, en of de postbode niet alle brieven van je buurman meeneemt.

Voor AI-assistenten betekent dit:

We moeten stoppen met alleen kijken naar het eindantwoord.
We moeten elke stap in het proces controleren.
We moeten zorgen dat AI's alleen de data zien en gebruiken die ze echt nodig hebben, en niet alles wat ze kunnen vinden.

Kortom: Privacy is een reis, geen bestemming. En tot nu toe maken onze slimme robots veel te veel fouten tijdens die reis.

AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

1. Het Probleem: De Onzichtbare Tussenstop

2. De Oplossing: De "Privacy-Flow Graph" (De Privacy-Routekaart)

3. Het Experiment: AgentSCOPE

4. De Schokkende Resultaten

5. De Conclusie: Kijk verder dan de voordeur

Titel: AgentSCOPE: Evaluatie van Contextuele Privacy in Agente Werkstromen

1. Het Probleem

2. Methodologie

3. Belangrijkste Resultaten

4. Bijdragen

5. Significatie en Conclusie

AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

1. Het Probleem: De Onzichtbare Tussenstop

2. De Oplossing: De "Privacy-Flow Graph" (De Privacy-Routekaart)

3. Het Experiment: AgentSCOPE

4. De Schokkende Resultaten

5. De Conclusie: Kijk verder dan de voordeur

Titel: AgentSCOPE: Evaluatie van Contextuele Privacy in Agente Werkstromen

1. Het Probleem

2. Methodologie

3. Belangrijkste Resultaten

4. Bijdragen

5. Significatie en Conclusie

Meer zoals dit

How Effective Are Publicly Accessible Deepfake Detection Tools? A Comparative Evaluation of Open-Source and Free-to-Use Platforms

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Beyond Input Guardrails: Reconstructing Cross-Agent Semantic Flows for Execution-Aware Attack Detection

Impact of 5G SA Logical Vulnerabilities on UAV Communications: Threat Models and Testbed Evaluation

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing