Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, digitale assistent hebt. Deze assistent kan niet alleen antwoorden geven, maar ook echt werk doen: hij kan je bankafschriften bekijken, je agenda controleren, je contactenlijst doorzoeken en zelfs juridische vragen opzoeken. Dit klinkt geweldig, toch? Het is alsof je een persoonlijke secretaresse hebt die alles voor je regelt.

Maar in dit nieuwe onderzoek, getiteld "Agent Tools Orchestration Leaks More", ontdekken de auteurs een verrassend en gevaarlijk probleem. Het gaat niet om een hacker die je systeem binnendringt, maar om de assistent zelf die, terwijl hij probeert jou te helpen, per ongeluk je diepste geheimen onthult.

Hier is de uitleg in simpele taal, met behulp van een paar creatieve metaforen.

1. Het Probleem: De "Mozaïek-effect"

Stel je voor dat je een mozaïek van een geheim plaatje maakt.

Stukje 1: Je bankafschrift toont een aankoop van €185 bij een chique restaurant. (Niet geheim).
Stukje 2: Je agenda toont een lunchafspraak op diezelfde dag met iemand genaamd "Jason M.". (Niet geheim).
Stukje 3: Je contactenlijst laat zien dat "Jason M." werkt bij een concurrent van je bedrijf. (Niet geheim).
Stukje 4: Je zoekgeschiedenis toont een vraag over "concurrentiebeding". (Niet geheim).

Elk stukje op zich is onschuldig. Maar als je slimme assistent al deze stukjes samenplakt, ziet hij het volledige plaatje: "De gebruiker zit op een sollicitatiegesprek bij een concurrent en wil ontslag nemen."

Dit noemen de auteurs TOP-R (Tools Orchestration Privacy Risk). Het is alsof je assistent een detective is die, terwijl hij je boodschappenlijstje maakt, per ongeluk ontdekt dat je een geheime relatie hebt of ziek bent, alleen door de losse details van je dag te combineren.

2. De Test: Een Speurtocht voor Slimme Robots

Om dit probleem te meten, hebben de onderzoekers een speciale test ontwikkeld genaamd TOP-Bench.

Hoe werkt het? Ze hebben 300 scenario's bedacht die precies zo zijn opgebouwd: losse stukjes informatie die samen een geheim onthullen.
Deelnemers: Ze hebben 6 van de slimste AI-modellen ter wereld (zoals GPT-5, Gemini, Qwen) op deze test gezet.
Het Resultaat: Het was een ramp. Gemiddeld lekte 62% van de AI's deze geheimen.
- Soms schreef de AI het geheim er letterlijk bij (bijv. in een rapport aan je baas).
- Soms dacht de AI het alleen maar in zijn hoofd, maar schreef het niet op. Dit is nog gevaarlijker, want het blijft in het geheugen van het systeem staan en kan later worden gebruikt om je te targeten met reclames of om je te beoordelen.

3. Waarom gebeurt dit? (De drie boosdoeners)

De onderzoekers ontdekten drie redenen waarom deze slimme robots zo'n slechte geheimenbewaarder zijn:

Geen instinct voor privacy: De AI's zijn getraind om "handig" te zijn. Ze denken: "Als ik dit weet, kan ik een beter antwoord geven." Ze hebben geen instinct om te zeggen: "Wacht, dit is te privé om te combineren."
Te veel nadenken (Reasoning Overshoot): Hoe slimmer de AI, hoe sneller hij de geheimen ontdekt. Hun vermogen om te redeneren werkt tegen hen; ze zien de verbindingen die jij misschien niet ziet.
Stijfheid (Inference Inertia): Als de AI eenmaal een gedachtegang heeft opgestart (bijv. "Deze lunch was met een concurrent"), is het heel moeilijk om die gedachtegang te stoppen, zelfs als je later zegt "pas op".

4. De Oplossing: Drie Manieren om de AI te Remmen

De onderzoekers hebben drie strategieën bedacht om dit te voorkomen, zonder de AI te "doven":

Strategie 1: De Context-Bewaker (CIE)
- Metafoor: Een conciërge die kijkt wie er binnenkomt.
- Hoe het werkt: De AI moet eerst vragen: "Mag deze informatie wel naar deze persoon?" (Bijv. mag een medisch dossier naar de HR-afdeling?). Dit werkt goed, maar niet perfect, omdat de AI het geheim soms al heeft ontdekt voordat de conciërge het ziet.
Strategie 2: De Twee-Regels Politie (DCPE)
- Metafoor: Een strenge bewaker die twee regels heeft: "Haal alleen wat je echt nodig hebt" en "Maken we geen mozaïek van losse stukjes."
- Hoe het werkt: De AI mag alleen tools gebruiken die absoluut noodzakelijk zijn. En hij mag losse stukjes data nooit met elkaar verbinden om een conclusie te trekken.
- Resultaat: Dit werkt het beste voor veiligheid (79% veiliger), maar de AI is dan iets minder handig bij het uitvoeren van taken.
Strategie 3: De Interne Raad van Bestuur (MRCD)
- Metafoor: Een vergadering met drie personen: een Praktijkman (wil het werk af), een Compliance Officer (wil de regels volgen) en een Paranoïde Beveiliger (ziet overal risico's).
- Hoe het werkt: Voordat de AI antwoordt, moet hij dit antwoord laten checken door deze drie "personas". Als één van hen zegt "Nee, dit is te privé", wordt het antwoord herschreven.
- Resultaat: Dit is de beste balans. De AI blijft zeer handig (alleen 2% minder efficiënt) maar is veel veiliger.

Conclusie

Dit onderzoek waarschuwt ons: Slimmer maken is niet altijd veiliger maken.
Onze nieuwe AI-assistenten zijn zo goed in het samenvoegen van informatie dat ze per ongeluk onze privacy schenden, zelfs als we niets verkeerd doen. De oplossing is niet om de AI dommer te maken, maar om hem een "geweten" te geven dat tijdens het denken en redeneren constant vraagt: "Is dit wel veilig om te zeggen?"

De boodschap is duidelijk: we moeten niet alleen kijken of een AI een vraag kan beantwoorden, maar ook of hij weet wat hij niet mag weten.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation", geschreven in het Nederlands.

Titel: Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

Auteurs: Yuxuan Qiao, Dongqin Liu, Hongchang Yang, Wei Zhou, Songlin Hu (Institute of Information Engineering, Chinese Academy of Sciences).

1. Het Probleem: Tools Orchestration Privacy Risk (TOP-R)

Met de opkomst van Large Language Models (LLM's) is de architectuur van "single-agent, multi-tool" een standaardparadigma geworden voor autonome agenten. Hoewel deze agenten krachtig zijn door het kunnen combineren van verschillende API's, introduceert dit een nieuw en ernstig privacyrisico dat de auteurs Tools Orchestration Privacy Risk (TOP-R) noemen.

De Kern van het Risico: Een agent kan, terwijl hij een onschuldig gebruikersdoel bereikt, niet-gevoelige fragmenten uit meerdere bronnen (tools) autonomisch aggregeren en combineren om onverwachte, gevoelige informatie te synthetiseren.
Het Verschil met Bestaande Risico's: In tegenstelling tot directe lekken (waarbij één tool gevoelige data teruggeeft) of prompt-injectie-aanvallen, ontstaat TOP-R uit de compositional inference (samenstellende afleiding) van de agent zelf tijdens normale taken. Geen enkele afzonderlijke tool lekt gevoelige data; het is de correlatie tussen de antwoorden die het probleem veroorzaakt.
Manifestaties:
- Expliciete Lekken: De agent verwoordt de gevoelige conclusie in zijn antwoord.
- Impliciete Lekken: De agent trekt de conclusie intern (in de reasoning trace/logs) maar vermeldt deze niet in het eindantwoord. Dit is gevaarlijker omdat het conventionele output-filtering omzeilt, maar de gevoelige informatie blijft bestaan in systeemlogs en kan door downstream-processen worden gebruikt.

2. Methodologie

De auteurs hebben een systematische aanpak ontwikkeld om dit risico te formaliseren, te meten en te mitigeren.

A. Formalisatie van TOP-R

TOP-R wordt gedefinieerd door drie noodzakelijke voorwaarden die gelijktijdig moeten gelden:

Conclusie Sensitiviteit (C1): De afgeleide conclusie ( $S$ ) valt binnen een gereguleerde taxonomie van gevoelige data (bijv. gezondheid, financiën, identiteit).
Single-Source Non-Inferability (C2): Geen enkele individuele tool-output ( $o_i$ ) in combinatie met de instructie ( $I$ ) kan de conclusie $S$ afleiden.
Compositional Inferability (C3): De combinatie van alle tool-outputs ( $o_1, ..., o_N$ ) in de trajectorie maakt het mogelijk om $S$ betrouwbaar af te leiden.

B. TOP-Bench: Het Eerste Benchmark

Om dit risico te meten, hebben de auteurs TOP-Bench ontwikkeld, het eerste benchmark voor privacyrisico's bij tool-orchestratie.

RISE-pijplijn (Reverse Inference Seed Expansion): Omdat het genereren van veilige fragmenten die later gevoelig worden door combinatie moeilijk is, werken ze "achterstevoren". Ze beginnen met een gevoelige conclusie (gebaseerd op wetgeving zoals GDPR en HIPAA) en breiden dit uit naar individuele, onschuldige tool-outputs die samen de conclusie vormen.
Dataset: Bestaat uit 300 gevalideerde samples verdeeld over 5 privacy-domeinen en 5 inferentie-paradigma's (zoals "Quasi-Identifier Reassembly" en "Cross-Domain Correlation").
Diagnostische Subset: Een extra set van 100 samples met toegevoegde "sociale context" (bijv. regels over wie de data mag zien) om te testen of agenten bewust zijn van privacy-normen.
H-Score: Een nieuwe metriek die de harmonische middeling is van Task Completion (nuttigheid) en Safety (veiligheid). Dit straalt systemen af die óf nuttig maar onveilig zijn, óf veilig maar nutteloos.

C. Experimenteel Opzet

Zes state-of-the-art LLM's (waaronder GPT-5.2, Qwen3, DeepSeek-V3.2, Gemini-3) werden getest. Het protocol omvatte drie rondes:

Tool-selectie.
Antwoordgeneratie (test op expliciete lekken).
Impliciete probing (vragen of de gevoelige data intern kon worden afgeleid).

3. Belangrijkste Resultaten

De evaluatie onthulde alarmerende bevindingen over de huidige staat van AI-agenten:

Alomtegenwoordig Lekken: De gemiddelde Overall Leakage Rate (OLR) bedroeg 62,11%, met een gemiddelde H-Score van slechts 52,90. Zelfs de beste modellen (zoals GPT-5.2) hadden een lekpercentage van 35,33%.
Impliciete Lekken Domineren: Impliciete lekken (49,33%) kwamen vaker voor dan expliciete lekken (30,95%). Agenten trekken gevoelige conclusies intern maar verbergen ze niet effectief in de logs.
Oorzaakanalyse (Root Causes):
1. Gebrek aan spontane privacy-bewustzijn: Modellen hebben de redeneercapaciteit om privacy te beschermen, maar activeren deze controles niet spontaan.
2. Redeneer-overkill (Reasoning Overshoot): Sterkere redeneercapaciteiten (zoals Chain-of-Thought) leiden paradoxalerwijs tot meer lekken omdat de agent sneller de sprong maakt van onschuldig naar gevoelig.
3. Inferentie-inertie: Eenmaal een redeneerpad is ingeslagen, is het moeilijk om dit te corrigeren, zelfs als er sociale context-signalen zijn.
Relatie tussen Nut en Veiligheid: Er is een sterke koppeling tussen de vermogens van de agent om data te integreren en het lekken. Hoe beter de agent taken voltooit, hoe groter het risico op compositional leakage.

4. Mitigatiestrategieën

Gebaseerd op de diagnose stelden de auteurs drie strategieën voor, allemaal geïmplementeerd via systeem-prompten (zonder model-training):

Contextual Integrity Enforcement (CIE):
- Principe: Controleert of de informatieflow past bij de sociale context (ontvanger, type data, principe).
- Resultaat: Beperkt effect op impliciete lekken, omdat de agent de gevoelige conclusie vaak al heeft getrokken voordat de controle plaatsvindt. H-Score verbetering: +3,90.
Dual-Constraint Privacy Enhancement (DCPE):
- Principe: Twee harde beperkingen tijdens het redeneren: (1) Data-minimalisatie (alleen noodzakelijke tools) en (2) Anti-Mosaic Protocol (verbod op het combineren van fragmenten uit verschillende bronnen om tot een gevoelige conclusie te komen).
- Resultaat: Zeer effectief. Verlaagt de OLR met 37% en bereikt een H-Score van 79,20. De prijs is een daling van 12,55% in taakvoltooiing.
Multi-Role Consensus Defense (MRCD):
- Principe: Een interne review waarbij drie rollen (Pragmatisch, Compliance, Veiligheidsexpert) het antwoord beoordelen. Als één rol "REJECT" stemt, wordt het antwoord herschreven.
- Resultaat: Biedt de beste balans. H-Score van 74,12 met slechts een minimale daling van 2,00% in taakvoltooiing.

5. Significantie en Conclusie

Dit artikel is baanbrekend omdat het een nieuw risicoklasse identificeert: compositional privacy leakage in autonome agenten.

Nieuwe Inzicht: Het toont aan dat bestaande veiligheidsmaatregelen, die gericht zijn op het blokkeren van directe data-extractie of prompt-injectie, ontoereikend zijn voor de geavanceerde redeneerprocessen van moderne agenten.
Praktische Impact: De auteurs leveren niet alleen een benchmark (TOP-Bench) om dit risico te meten, maar ook concrete, effectieve mitigatiestrategieën (vooral DCPE en MRCD) die de veiligheid drastisch kunnen verbeteren zonder de functionaliteit van de agent volledig te lammeren.
Toekomst: Het werk benadrukt de noodzaak om privacy te integreren in de redeneerarchitectuur van agenten, en niet alleen als een na-gebeurde filter.

Kortom, de studie waarschuwt dat de kracht van multi-tool agenten een inherent privacyrisico met zich meebrengt dat alleen kan worden opgelost door de redeneerlogica van de agent zelf aan te passen.