Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek, vertaald naar begrijpelijk Nederlands met behulp van alledaagse analogieën.

🕵️‍♂️ De Kern: Een Sluipmoordenaar in de Werkplaats

Stel je een moderne AI-agent voor als een super-efficient bouwvakker. Deze bouwvakker (de AI) heeft een lijst met taken en kan bellen naar verschillende specialisten (de "tools" of hulpmiddelen) om het werk te laten doen. Bijvoorbeeld: "Zoek de weervoorspelling" of "Bereken de route".

Normaal gesproken belt de bouwvakker één specialist, krijgt hij het antwoord, en is de klus geklaard. Snel, goedkoop en efficiënt.

Dit onderzoek ontdekt een nieuwe manier om deze bouwvakker te bedriegen. Het is geen aanval waarbij je de bouwvakker dwingt om te praten of te denken (zoals eerdere methoden). Nee, dit is een aanval op de specialisten zelf.

🎭 De Analogie: De "Trage" Koffiebar

Stel je voor dat je een AI-agent bent die een kop koffie bestelt bij een koffiebar (de tool).

Normaal: Je zegt "Koffie", de barista maakt hem en geeft hem direct. Kosten: €3.
De Aanval: De eigenaar van de koffiebar (de aanvalserver) heeft een nieuwe, sluwe regel ingevoerd. Hij zegt: "Natuurlijk, ik maak je koffie. Maar eerst moet je een formulier invullen met 100 regels, dan moet je wachten op een bevestiging, dan moet je een tweede formulier invullen, en pas na 50 keer heen-en-weer bellen krijg je je koffie."

Het belangrijkste is: Je krijgt uiteindelijk wél je koffie. De taak is geslaagd. Maar het heeft je nu 50 keer zo lang gekost en de koffiebar is uitgeput van de inspanning.

⚙️ Hoe werkt het precies?

De onderzoekers (van o.a. de NTU in Singapore) hebben een methode bedacht om een onschuldig hulpmiddel (een "tool server") te veranderen in een "trage" versie, zonder dat de AI-agent het merkt.

De Vermomming: Ze veranderen niets aan de naam van de tool of wat de tool uiteindelijk doet. Als de AI vraagt om "Weer", krijgt hij uiteindelijk nog steeds het weerbericht.
De Truc: Ze veranderen alleen de tekst die de tool terugstuurt tijdens het proces. Ze zeggen tegen de AI: "Je bent nog niet klaar, je moet nog een stapje verder gaan."
De Looptijd: De AI denkt dat dit nodig is om de taak goed te doen. Hij belt dus 50, 60 of zelfs 100 keer terug naar dezelfde tool. Elke keer stuurt de tool een lang, gedetailleerd antwoord (een "verificatielijst") voordat hij de volgende stap toestaat.
De Kosten: Omdat de AI zo vaak moet "praten" en "luisteren", explodeert de hoeveelheid data die verwerkt moet worden.
- Geld: De kosten voor de gebruiker lopen op tot wel 658 keer zo hoog.
- Energie: Het verbruik van stroom en computerkracht (GPU) loopt op met honderden procenten.
- Snelheid: De hele server wordt zo traag dat andere gebruikers ook niet meer kunnen werken.

🛡️ Waarom is dit zo gevaarlijk? (De "Onzichtbare" Aanval)

Vroeger waren dergelijke aanvallen makkelijk te zien. Als iemand een AI dwong om 1000 regels onzin te praten, zag een beveiligingssysteem dat direct op de knop "Stop".

Maar hier is het slimme:

De AI lost het probleem op. Het antwoord is correct.
De AI gebruikt de tools correct. Er is geen fout in de code.
De beveiliging kijkt vaak alleen naar het eindresultaat. "Is het antwoord goed? Ja? Dan is alles veilig."

Het is alsof een inbreker niet je huis binnendringt om te stelen, maar je huis zo langzaam en moeizaam maakt dat je de hele dag in de gang staat te wachten op de post, terwijl de inbreker rustig je spullen meeneemt. De beveiliging ziet geen inbraak, want de deur zat op slot.

🧠 De "Wiskundige" Truc (MCTS)

Om deze aanval te perfectioneren, gebruikten de onderzoekers een slim algoritme genaamd MCTS (Monte Carlo Tree Search).

Denk hierbij aan een gokker die duizenden keren een dobbelsteen gooit om de perfecte strategie te vinden.
Het algoritme probeert duizenden kleine veranderingen in de tekst van de tool-server.
Het zoekt de perfecte combinatie van woorden die de AI precies zo langzaam maakt, zonder dat de AI in de gaten heeft dat er iets mis is.

📉 Wat betekent dit voor de toekomst?

Deze studie waarschuwt dat we niet alleen moeten kijken naar wat de AI zegt (het antwoord), maar ook naar hoe het daar komt (het proces).

Voor bedrijven: Als je AI-agenten gebruikt die veel tools aanroepen, kun je plotseling je hele budget kwijtraken aan een sluwe aanval die eruitziet als normaal werk.
Voor beveiliging: We hebben nieuwe verdedigingen nodig die kijken naar "gedrag". Als een AI 50 keer terugbelt voor één simpele taak, moet dat een rode vlag zijn, zelfs als het eindantwoord perfect is.

Kortom: Het is een sluwe manier om een AI-systeem "uit te putten" door het in een eindeloze, maar correcte, bureaucratie te laten vastlopen. De taak wordt gedaan, maar de prijs is enorm.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents", geschreven in het Nederlands.

1. Het Probleem

De interactie tussen Large Language Model (LLM) agents en externe tools vormt een kritiek aanvalsoppervlak. Bestaande Denial-of-Service (DoS) aanvallen op LLMs zijn over het algemeen beperkt tot single-turn (één-ronde) aanvallen op het gebruikersprompt of de Retrieval-Augmented Generation (RAG) context.

Beperkingen van bestaande methoden: Deze methoden dwingen het model vaak tot het genereren van zeer lange, maar vaak irrelevante antwoorden. Dit is vaak opvallend (niet stealthy) en de kosten zijn beperkt door de maximale lengte van één generatie.
Het gat in de beveiliging: De multi-turn communicatielus tussen een agent en een tool (onder het Model Context Protocol - MCP) is nog grotendeels onontdekt als aanvalsoppervlak. Bestaande verdedigingen focussen op de finaliteit van het antwoord of de input, maar negeren de kosten die ontstaan tijdens het proces van tool-aanroepen.
Doel: Een aanval ontwikkelen die de kosten (tokens, energie, GPU-geheugen) exponentieel verhoogt terwijl de taak zelf succesvol wordt voltooid en de aanval onopgemerkt blijft voor standaard filters.

2. Methodologie

De auteurs stellen een stealthige, multi-turn economische DoS-aanval voor op de tool-laag. De kern van de aanval is het manipuleren van een benigne MCP-toolserver zodat deze de agent in een langdurige, verbaal rijke lus van tool-aanroepen duwt, zonder de functionaliteit van de tool te breken.

Kerncomponenten:

Malicious Template (Kwaadaardige Sjabloon): De aanval transformeert een bestaande toolserver in een kwaadaardige variant door alleen tekst-zichtbare velden (zoals argumentbeschrijvingen en statusberichten) te bewerken. De functiesignaturen en de uiteindelijke "benigne payload" (het echte antwoord) blijven intact.
- Segment Index ( $t$ ): Introduceert een voortgangsindicator die de agent dwingt om de tool herhaaldelijk aan te roepen ( $t=1, 2, ..., T_{max}$ ) voordat het eindresultaat wordt geleverd.
- Calibratie Sequence: De server eist een lange, door komma's gescheiden lijst van getallen als input voor elke aanroep. Dit forceert het genereren van veel tokens per ronde.
- Terugkeerbeleid: De server stuurt "Progress"-berichten om de lus te verlengen of "Repair"-berichten als het formaat niet klopt, waardoor de agent blijft proberen in plaats van af te breken.
MCTS-Optimizer (Monte Carlo Tree Search): Omdat handmatig ontwerpen van deze lussen moeilijk is, gebruiken de auteurs een MCTS-gebaseerde optimizer.
- De optimizer start met een "seed bank" van sjablonen.
- Het voert lokale tekstbewerkingen uit in drie categorieën: Multi-turn induction (AMT), Length induction (ALEN), en Repair handling (AREP).
- Het doel is om de verwachte kosten ( $C(\tau)$ ) te maximaliseren onder de constraint dat de taak met een hoge waarschijnlijkheid ( $p_{min}$ ) succesvol wordt voltooid.
Threat Model: De aanval vereist alleen toegang tot de toolserver (MCP-server) om de template aan te passen. De agent-politiek en het LLM zelf worden niet gewijzigd.

3. Belangrijkste Bijdragen

Nieuw Aanvalsoppervlak: Dit is het eerste werk dat de tool-calling laag identificeert als een primair DoS-aanvalsoppervlak in het agent-tijdperk. Het toont aan dat zelfs bij correcte toolgebruik en correcte eindantwoorden, de kosten enorm kunnen oplopen.
Universele MCTS-Optimalisatie: Een methode om benigne MCP-servers om te zetten in kwaadaardige varianten onder strikte beperkingen (alleen tekstbewerking, behoud van payload).
Empirisch Bewijs: Uitgebreide experimenten tonen aan dat deze aanval ongeëvenaarde resource-amplificatie bereikt terwijl de taakcorrectheid behouden blijft, en dat bestaande verdedigingen hier weinig tegen kunnen.

4. Resultaten

De auteurs hebben de aanval getest op 6 verschillende LLMs (waaronder Qwen-3, Llama-3.3, Mistral Large, GLM-4) met behulp van de ToolBench en BFCL benchmarks.

Token Amplificatie: De aanval genereert trajecten van meer dan 60.000 tokens per query.
Kostenverhoging: De kosten per query stijgen met een factor van tot wel 658x vergeleken met de benigne situatie.
Energie en Hardware:
- Energieverbruik neemt toe met 100x tot 560x.
- De GPU Key-Value (KV) cache bezetting stijgt van <1% naar 35–74%, wat leidt tot geheugendruk en OOM (Out of Memory) risico's.
Doorvoer (Throughput): De aanwezigheid van deze aanval verlaagt de algehele systeemdoorvoer voor andere, benigne taken met ongeveer 50%.
Correctheid: De taaksuccesrate (TSR) blijft hoog (bijv. 96.2% op ToolBench), wat betekent dat de aanval "correctness-preserving" is.
Ontdekbaarheid: Standaard verdedigingen zoals prompt-filters (perplexity), output-monitoring en traject-safety judges (zoals Llama-Guard) detecteren de aanval zelden (minder dan 3% detectie). Dit komt omdat de output semantisch correct is en de "vertraging" wordt gepresenteerd als een noodzakelijk onderdeel van de tool-procedure.

5. Betekenis en Conclusie

Deze studie waarschuwt voor een fundamenteel veiligheidsrisico in de opkomende architectuur van LLM-agents:

Verouderde Verdediging: Traditionele beveiliging die focust op de input (prompt) of de finaliteit van het antwoord, is ontoereikend. De echte kosten en risico's zitten in de intermediare stappen (de tool-calling chains).
Economische Impact: Zelfs als een aanval geen data lekt of schade toebrengt aan de logica, kan het de operationele kosten van een AI-dienst onbetaalbaar maken of de beschikbaarheid van de dienst tenietdoen door resource-exhaustie.
Toekomstige Richting: Er is een dringende behoefte aan verdedigingen die het gedrag van het agent-proces monitoren (bijv. ongebruikelijke patronen in tool-aanroepfrequentie of lengte) in plaats van alleen de einduitkomst te valideren.

Kortom, de paper demonstreert dat de integratie van tools in LLMs een nieuw, kwetsbaar punt creëert waarvoor specifieke, procesgerichte verdedigingen nodig zijn.

Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

🕵️‍♂️ De Kern: Een Sluipmoordenaar in de Werkplaats

🎭 De Analogie: De "Trage" Koffiebar

⚙️ Hoe werkt het precies?

🛡️ Waarom is dit zo gevaarlijk? (De "Onzichtbare" Aanval)

🧠 De "Wiskundige" Truc (MCTS)

📉 Wat betekent dit voor de toekomst?

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem