AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, digitale assistent hebt die je helpt bij al je taken. Deze assistent, een LLM-agent, kan e-mails lezen, bestanden openen en berichten sturen. Hij werkt als een superkrachtige secretaresse die alles voor je regelt.

Maar er zit een groot probleem in hoe deze assistent werkt: Hij is soms te behulpzaam.

Het Probleem: De "Over-geef" Assistent

Stel je voor dat je je assistent vraagt: "Haal de datum van mijn laatste betaling uit het bestand en stuur die naar mijn boekhouder."

Je wilt alleen de datum delen. Maar omdat de assistent niet precies weet wat je niet wilt delen, pakt hij het hele bestand mee. Hij stuurt niet alleen de datum, maar ook je creditcardnummer, je CVV-code en je geheime wachtwoorden naar de boekhouder.

Dit noemen de auteurs Data Over-Exposure (te veel data blootstellen). Het is alsof je een briefje met je adres naar iemand stuurt, maar per ongeluk je hele huis, je bankrekening en je geheime dagboeken in dezelfde envelop stopt.

De Oplossing: AgentRaft

De onderzoekers van dit paper hebben een nieuw systeem bedacht, genaamd AgentRaft. Je kunt dit zien als een digitale veiligheidsinspecteur die de assistent test voordat hij echt aan het werk gaat.

Hier is hoe AgentRaft werkt, vertaald in een verhaal:

1. Het Tekenen van de Landkaart (De FCG)

Stel je voor dat je een stad hebt met duizenden winkels (de tools van de assistent). Je wilt weten welke winkels met elkaar verbonden zijn. AgentRaft tekent een landkaart van alle mogelijke routes die de assistent kan nemen.

Vroeger: Mensen probeerden willekeurig winkels te bezoeken om te zien of er iets mis was. Dat duurde eeuwen.
Nu met AgentRaft: Ze hebben een perfecte kaart die precies laat zien: "Als je bij de bank bent, kun je direct naar de postkantoor gaan." Zo weten ze precies waar ze moeten kijken.

2. Het Sturen van Test-Boodschappen (Prompt Synthesis)

Nu de kaart er is, moet de inspecteur testen of de assistent zich wel gedraagt. AgentRaft schrijft specifieke testvragen voor de assistent.

Het is alsof je de assistent zegt: "Ga naar de bank, pak alleen het saldo op, en stuur dat naar de post."
De slimme truc is dat AgentRaft de assistent dwingt om precies die route te volgen die op de kaart staat. Zo kunnen ze zien of de assistent per ongeluk ook je creditcard meeneemt terwijl hij alleen het saldo moet pakken.

3. De Rechter-Commissie (Multi-LLM Voting)

Als de assistent iets verstuurt, moet iemand beslissen: "Is dit wel veilig?"

Soms denkt de assistent: "Ik stuur het creditcardnummer mee, want misschien heeft de boekhouder dat nodig." Maar dat is niet wat jij wilde.
AgentRaft gebruikt niet één, maar drie slimme rechters die samenwerken. Ze kijken naar de regels (zoals de AVG/GDPR) en stemmen over: "Is dit nummer echt nodig voor deze taak?"
Als twee van de drie zeggen: "Nee, dit is te veel informatie!", dan wordt het als een veiligheidsrisico gemarkeerd. Dit voorkomt dat één slimme, maar soms verwarde, computer een fout maakt.

Wat Vonden Ze?

Toen ze dit systeem testten op 6.675 echte tools (zoals die van Microsoft, Google en andere bedrijven), was het nieuws niet goed:

57% van de mogelijke routes die de assistent kan nemen, leidt tot het onbedoeld sturen van te veel informatie.
Bijna 65% van de data die wordt verstuurd, is eigenlijk niet nodig voor de taak.

Het is alsof je merkt dat in de helft van de huizen in een stad, de voordeur openstaat terwijl je denkt dat hij dicht is.

Waarom is dit belangrijk?

AgentRaft is als een veiligheidsgordel en airbag voor de toekomst van AI.

Voor ontwikkelaars: Het helpt ze om hun assistenten veiliger te maken voordat ze ze aan de wereld verkopen.
Voor jou: Het zorgt ervoor dat je niet per ongeluk je geheime gegevens deelt als je gewoon een simpele vraag stelt.

Kortom: AgentRaft zorgt ervoor dat onze slimme digitale helpers leren dat "minder is meer" als het gaat om jouw privacy. Ze leren om precies te doen wat je vraagt, en niet meer dan dat.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents", geschreven in het Nederlands.

1. Het Probleem: Data Over-Exposure (DOE) in LLM Agents

De snelle integratie van Large Language Model (LLM) agents in autonome taken heeft nieuwe privacyrisico's geïntroduceerd, specifiek binnen de datastromen tussen verschillende hulpmiddelen (tools). Het paper introduceert het concept Data Over-Exposure (DOE).

Definitie: DOE treedt op wanneer een LLM-agent per ongeluk gevoelige data doorgeeft die buiten de intentie van de gebruiker en de functionele noodzaak van de taak valt.
Oorzaken:
1. Te brede data-paradigma's: Tools worden vaak ontworpen om een breed scala aan data terug te geven zonder te filteren op wat strikt noodzakelijk is voor een specifieke taak.
2. Gebrek aan contextueel privacybewustzijn: LLMs kunnen individuele data-punten als gevoelig herkennen, maar falen vaak in complexe, multi-stap taken om te bepalen welke data niet mag worden gedeeld. Ze kunnen bijvoorbeeld een volledige database-record (inclusief creditcardnummers) doorsturen naar een e-mailtool, terwijl de gebruiker alleen de transactiedatum wilde delen.
Uitdaging: Bestaande methoden voor statische code-analyse werken niet goed omdat LLM-agenten dynamische, niet-deterministische tool-orkestratie gebruiken. Het handmatig maken van testcases is te tijdrovend en onvolledig.

2. Methodologie: Het AgentRaft Framework

AgentRaft is het eerste geautomatiseerde framework voor het detecteren van DOE-risico's. Het combineert programma-analyse met semantische redenering via drie synergetische modules:

A. Cross-Tool Function Call Graph (FCG) Generatie

Om de complexe interacties tussen verschillende tools te modelleren, bouwt AgentRaft een Function Call Graph (FCG).

Methode: Het gebruikt een hybride strategie van statische type-analyse (om compatibele functieparen te vinden op basis van in- en uitvoertypen) en validatie door een LLM (om semantische relevantie te controleren).
Doel: Het creëren van een gestructureerde blauwdruk van alle mogelijke, geldige data-flow paden van een "bron" (data ophalen, bijv. read_file) naar een "put" (data verzenden, bijv. send_email). Dit elimineert semantisch ongeldige paden en focust op potentiële lekkanalen.

B. Synthese van Gebruikersprompts

Het framework moet de agent dwingen om specifieke, risicovolle paden in de FCG te doorlopen.

Methode: AgentRaft traverseert de FCG om haalbare call-chains te vinden en vertaalt deze naar hoogwaardige gebruikersprompts.
Implementatie: Het template-prompten worden geïnstantieerd met concrete gebruikersdata. Cruciaal is hier de scheiding tussen:
- $D_{int}$ : Data die de gebruiker expliciet wil delen (intentie).
- $D_{candidates}$ : Gevoelige data die niet bedoeld is om te worden gedeeld (bijv. CVV-nummers).
Doel: De agent wordt gedwongen om een specifieke multi-stap taak uit te voeren waarbij alleen $D_{int}$ nodig zou zijn. Als de agent $D_{candidates}$ doorgeeft, is dit een bewijs van DOE.

C. Detectie van Data Over-Exposure (Runtime Tracking & Audit)

Tijdens de uitvoering van de gegenereerde prompts monitort AgentRaft de datastromen.

Taint Tracking: Gevoelige data wordt gemarkeerd ("geïntecteerd") bij de bron. Het framework volgt deze data door de hele call-chain tot aan de sink.
Multi-LLM Voting Committee: Om te bepalen of de doorgestuurde data een schending is, gebruikt AgentRaft een comité van meerdere LLM's (o.a. GPT-4.1, Qwen3-Plus, DeepSeek-V3.2).
- Deze modellen beoordelen, gebaseerd op wereldwijde privacyregels (GDPR, CCPA, PIPL), of de doorgestuurde data strikt noodzakelijk is voor de taak ( $D_{nec}$ ).
- Een data-punt wordt als DOE gemarkeerd als het niet valt onder $D_{int}$ (gebruikersintentie) én niet onder $D_{nec}$ (functionele noodzaak).
- Het meerderheidsbesluit van het comité vermindert hallucinaties en bias van individuele modellen.

3. Belangrijkste Resultaten

Het framework werd geëvalueerd op een testomgeving met 6.675 real-world tools uit vier domeinen: Data Management, Software Development, Enterprise Collaboration en Social Communication.

Prevalentie van DOE: DOE is een systemisch risico. 57,07% van alle potentiële tool-interactiepaden (call chains) vertoonde ongeautoriseerde data-expositie.
Data Leaks: Van de totale overgedragen data-velden waren 65,42% over-exposed (onnodig gevoelig).
Detectie-efficiëntie:
- AgentRaft bereikte 99% dekking van DOE-risico's met slechts 150 prompts.
- In vergelijking met niet-geleide zoekmethodes (random search) die zelfs na 300 pogingen vaak onder de 20% dekking blijven, vond AgentRaft binnen 50 prompts al 69,15% van de risico's.
Nauwkeurigheid: Het multi-LLM voting mechanisme verbeterde de identificatie van DOE met 87,24% ten opzichte van baselines die gebruikmaken van één enkel model. De F1-score voor de detectie lag op 97,86%.
Kosten: AgentRaft verlaagde de verificatiekosten per keten met 88,6% door het aantal benodigde prompts drastisch te reduceren via logische geleiding.

4. Bijdragen en Significantie

Eerste Systematische Onderzoek: Dit paper biedt de eerste formele definitie en systematische analyse van Data Over-Exposure specifiek in de context van cross-tool dataflows in LLM-agenten.
Novel Framework (AgentRaft): Het introduceert een geautomatiseerde pipeline die statische structuur (FCG) combineert met dynamische validatie (prompt synthesis en runtime tracking) en juridisch onderbouwde audit (multi-LLM voting).
Praktische Toepasbaarheid: Het framework biedt ontwikkelaars en platforms een hulpmiddel om agents te auditen voordat ze worden vrijgegeven, zodat ze voldoen aan principes zoals "Data Minimization" en wetgeving zoals de GDPR.
Schaalbaarheid: Door de hoge efficiëntie en lage kosten maakt AgentRaft grootschalige privacyverificatie voor het groeiende ecosysteem van autonome agents haalbaar.

Conclusie:
AgentRaft demonstreert dat privacyrisico's in LLM-agenten niet alleen te wijten zijn aan kwaadaardige aanvallen, maar vaak het gevolg zijn van architecturale tekortkomingen in de data-handling. Door een combinatie van graaf-analyse en semantische redenering te gebruiken, biedt het een robuuste oplossing om deze "onzichtbare" datalekken te detecteren en te mitigeren.