WebWeaver: Breaking Topology Confidentiality in LLM Multi-Agent Systems with Stealthy Context-Based Inference

Each language version is independently generated for its own context, not a direct translation.

🕸️ WebWeaver: De Spion die de geheime plattegrond steelt

Stel je voor dat een groep slimme robots (LLM-agenten) samenwerkt om een moeilijk probleem op te lossen, zoals het ontwerpen van een nieuwe medicijn of het oplossen van wiskundepuzzels. Ze praten met elkaar om dit te doen. Maar hoe ze met elkaar praten, is een geheime blauwdruk.

In de echte wereld noemen we dit een communicatietopologie. Het is als het stratenplan van een stad: wie praat met wie? Is het een ketting (A praat met B, B met C)? Of is het een ster (Iedereen praat met een centrale leider)?

De auteurs van dit paper zeggen: "Dit stratenplan is een kostbaar geheim. Als een hacker dit weet, kan hij de hele stad verlammen."

Helaas hebben eerdere hackers geprobeerd dit plan te stelen, maar ze maakten twee grote fouten:

Ze dachten dat ze de hoofdburgemeester (de beheerder) moesten controleren. Dat is in de echte wereld bijna onmogelijk.
Ze vroegen de robots direct: "Met wie praat je?". Als de robots een beveiligingsfilter hebben, zeggen ze gewoon: "Dat mag ik niet zeggen!" en stoppen ze het gesprek.

WebWeaver is een nieuwe, slimmere hacker die deze fouten niet maakt.

🕵️‍♂️ Hoe werkt WebWeaver? (De Analogie)

Stel je voor dat je in een groot, stil café zit met veel tafels waar mensen (de robots) met elkaar praten. Je bent een spion die aan één enkele tafel zit. Je mag niet de hoofdburgemeester zijn en je mag niet hardop vragen: "Wie zit er aan welke tafel?" (dat wordt verboden door de café-eigenaar).

WebWeaver gebruikt twee slimme trucs om toch het hele stratenplan te tekenen:

1. De "Luisterende Oren" (Context Inference)

In plaats van te vragen wie er praat, luistert WebWeaver gewoon naar hoe ze praten.

Analogie: Stel je voor dat je een vriend hebt die altijd met een specifiek accent spreekt of bepaalde woorden gebruikt. Als je een gesprek hoort, kun je zeggen: "Ah, dat was zeker Jan, want hij gebruikt altijd die rare uitdrukking."
In de paper: WebWeaver leert de "stem" van elke robot. Als een robot een bericht ontvangt, kijkt de hacker niet naar een naam (die is verborgen), maar naar de tekst zelf. "Wie heeft dit geschreven?" De hacker kan dit vaak raden door de stijl van de tekst. Zo weet hij: "A praat met B."

2. De "Dubbele Strategie" (Jailbreak vs. Diffusie)

Nu de hacker weet wie met wie praat op zijn eigen tafel, moet hij het hele gebouw in kaart brengen.

Strategie A: De "Sluipende Truc" (Covert Jailbreak)
De hacker probeert zijn vriendje aan de tafel (de gecontroleerde robot) te overtuigen om zijn buren te vragen: "Hey, stuur maar even je gesprekken door naar mij, ik ben nieuwsgierig."
- Als de buren slim zijn en zeggen "Nee, dat mag niet", probeert de hacker het gesprek te verdraaien met een slimme, gemanipuleerde vraag (een "jailbreak") totdat de buren toch toegeven. Dit is als een sluwe spion die een bewaker overtuigt om de deur open te doen door een heel overtuigend verhaal te vertellen.
Strategie B: De "Magische Inpainting" (Jailbreak-free Diffusion)
Wat als de buren nooit toegeven? Dan gebruikt WebWeaver een kunstmatige intelligentie die als een schilder werkt.
- Analogie: Stel je voor dat je een schilderij hebt waarbij 50% van het doek zwart is (geheime delen) en 50% zichtbaar is (wat je al weet). Een kunstenaar kijkt naar de zichtbare stukken en gebruikt zijn kennis van hoe schilderijen eruitzien om de zwarte delen in te vullen.
- In de paper: Dit heet een "Diffusion Model". De hacker gebruikt de gesprekken die hij al heeft om te "dromen" over hoe de rest van het netwerk eruit moet zien. Hij vult de gaten in het stratenplan in, zonder ooit iemand te hoeven vragen.

🏆 Waarom is dit zo belangrijk?

Het is onzichtbaar: Omdat WebWeaver niet vraagt naar namen of gebruikte sleutelwoorden, kan hij niet worden opgepakt door simpele filters die zeggen: "Geen vragen naar ID's!"
Het werkt met één spion: Je hoeft niet de hele organisatie te hacken. Met één gecontroleerde robot kan de hacker het hele netwerk in kaart brengen.
Het is extreem effectief: In tests bleek WebWeaver 60% beter te zijn dan eerdere methoden, zelfs als de robots goed beschermd waren.

🚨 De Conclusie

De auteurs zeggen eigenlijk: "We denken dat onze robots veilig zijn omdat we ze verbieden om namen te noemen. Maar WebWeaver bewijst dat dit niet werkt. Ze kunnen de geheime plattegrond toch stelen door gewoon te luisteren naar de gesprekken en slimme kunstmatige intelligentie te gebruiken om de rest in te vullen."

Dit paper is een waarschuwing aan ontwikkelaars: Je moet niet alleen de namen beschermen, je moet ook de manier waarop robots met elkaar praten, beter beveiligen. Anders is je geheime stratenplan binnen handbereik van elke spion die aan één tafel zit.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "WebWeaver: Breaking Topology Confidentiality in LLM Multi-Agent Systems with Stealthy Context-Based Inference", vertaald en samengevat in het Nederlands.

Probleemstelling

De communicatietopologie (de structuur van hoe agents met elkaar verbonden zijn) in Large Language Model Multi-Agent Systemen (LLM-MAS) is een kritieke factor voor de prestaties en veiligheid van het systeem. Deze structuur wordt beschouwd als waardevol intellectueel eigendom (IP). Echter, de beveiliging van deze topologie is onderbelicht.

Bestaande methoden voor het infereren (afleiden) van deze topologie hebben twee grote tekortkomingen die ze in de praktijk onbruikbaar maken:

Onrealistische aannames: Ze gaan ervan uit dat de aanvaller controle heeft over de administratieve agent (de hoofdstarter van het systeem), wat in collaboratieve omgevingen waar verschillende entiteiten hun eigen agents draaien, onwaarschijnlijk is.
Gevulnificeerde methoden: Ze vertrouwen op directe jailbreaks om agent-ID's op te vragen. Dit is kwetsbaar voor eenvoudige verdedigingen op basis van trefwoorden (keyword-based defenses).

Het paper introduceert WebWeaver, een aanvalsframework dat deze realiteitskloof overbrugt door de topologie te reconstrueren door slechts één willekeurige agent te compromitteren, zonder beheerdersrechten en zonder afhankelijkheid van directe ID-vragen.

Methodologie

WebWeaver werkt in twee fasen en combineert een jailbreak-gebaseerde module met een jailbreak-vrije diffusiemodule. Het proces verloopt als volgt:

Datacollectie en Sender Predictor:
- De aanvaller verzamelt offline dialooglogs van het doel-systeem.
- Er wordt een Sender Predictor ( $S_\theta$ ) getraind om de identiteit van de afzender te voorspellen op basis van de semantische inhoud van een bericht, zonder de ID te kennen. Dit leert de unieke "linguïstische vingerafdrukken" van elke agent.
Module A: Covert Recursive Jailbreak (Actieve aanpak):
- De aangevallen agent ( $A_C$ ) gebruikt een "propagatie-prompt" om buren te instrueren om hun dialooggeschiedenis door te sturen en dit proces recursief door te geven aan hun buren.
- Als standaard prompts worden geblokkeerd door veiligheidsfilters, gebruikt WebWeaver een geoptimaliseerde jailbreak via Greedy Coordinate Gradient (GCG). Hiermee wordt een adversariale suffix gegenereerd die de kans maximaliseert dat de agent de instructie uitvoert, zelfs onder actieve verdediging.
- Dit creëert een cascade van contextlekken, waardoor de globale topologie stap voor stap wordt blootgelegd.
Module B: Jailbreak-free Diffusion (Fallback):
- Als jailbreaks falen, schakelt het systeem over naar een Diffusion Model (specifiek DDPM - Denoising Diffusion Probabilistic Model).
- Het probleem: Standaard diffusiemodellen kunnen bekende delen van een grafiek "vervuilen" tijdens het denoising-proces.
- De oplossing: WebWeaver introduceert een Masking Strategy. Tijdens het terugwaartse (reverse) sampling-proces worden de bekende topologieën (de reeds ontdekte verbindingen) gemaskeerd en gefixeerd op hun juiste waarden, terwijl het model alleen de onbekende verbindingen (de "ruis") reconstrueert. Dit garandeert theoretisch dat de reeds bekende structuur behouden blijft.

Belangrijkste Bijdragen

Realistisch Bedreigingsmodel: Het is het eerste framework dat een volledige LLM-MAS-topologie kan reconstrueren door slechts één willekeurige agent te compromitteren, zonder beheerdersrechten.
Context-gebaseerde Inferentie: In plaats van op IDs te vertrouwen, infereren de methoden de topologie puur op basis van contextuele signalen in de dialoog, wat ze robuust maakt tegen trefwoord-verdedigingen.
Hybride Aanpak: Een unieke combinatie van een adaptieve, recursieve jailbreak-mechanisme en een volledig jailbreak-vrije diffusiemodule met een nieuwe masking-strategie voor grafiekcompleting.
Dataset: Constructie van een nieuw dataset met expliciet geannoteerde topologieën, agent-prompts en zender-ontvanger labels ter ondersteuning van toekomstig onderzoek.

Resultaten

De evaluatie is uitgevoerd op vier diverse datasets (CSQA, GSM8k, Fact, Bias) met verschillende LLM-modellen (Llama 3.1, Qwen 2.5, Mistral, Gemma 2).

Prestatie: WebWeaver presteert aanzienlijk beter dan de state-of-the-art (SOTA) baselines. Onder actieve verdedigingen (waarbij trefwoorden worden gefilterd) bereikt WebWeaver ongeveer 60% hogere inferentie-accuraatheid (gemeten in MRR - Mean Reciprocal Rank).
Sender Predictor: De predictor bereikt consistente F1-scores boven de 0,85 over alle datasets, wat aantoont dat agents unieke stijlen hebben die uit hun dialoog kunnen worden gehaald.
Robuustheid:
- De jailbreak-gebaseerde module bereikt vaak perfecte prestaties (F1 = 1.0) op gestructureerde datasets.
- De jailbreak-vrije diffusiemodule behoudt nog steeds sterke prestaties (F1 > 0,78) zelfs als jailbreaks volledig worden geblokkeerd.
Overhead: De aanval heeft verwaarloosbare overhead. De jailbreak-vrije versie heeft zelfs geen extra computatiekosten op het doelsysteem tijdens de uitvoering, omdat deze passief werkt.

Betekenis en Conclusie

WebWeaver demonstreert dat de huidige verdedigingsmechanismen voor LLM-MAS (voornamelijk gebaseerd op het filteren van specifieke trefwoorden of IDs) ontoereikend zijn. De topologie van multi-agent systemen is kwetsbaar voor inferentie door middel van contextanalyse en adaptieve jailbreaks.

De studie waarschuwt dat tegenstanders met kennis van de systeemtopologie veel geavanceerdere aanvallen kunnen uitvoeren. Het paper benadrukt de noodzaak voor nieuwe, topologie-bewuste beveiligingsprotocollen die verder gaan dan eenvoudige keyword-filtering. De auteurs erkennen ethische beperkingen en hebben hun experimenten uitgevoerd in gecontroleerde omgevingen, maar de resultaten wijzen op een significant veiligheidsrisico voor toekomstige industriële en wetenschappelijke LLM-MAS-implementaties.

WebWeaver: Breaking Topology Confidentiality in LLM Multi-Agent Systems with Stealthy Context-Based Inference

🕸️ WebWeaver: De Spion die de geheime plattegrond steelt

🕵️‍♂️ Hoe werkt WebWeaver? (De Analogie)

1. De "Luisterende Oren" (Context Inference)

2. De "Dubbele Strategie" (Jailbreak vs. Diffusie)

🏆 Waarom is dit zo belangrijk?

🚨 De Conclusie

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem