Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen extrem intelligenten, aber etwas naiven Assistenten (den KI-Agenten), der für Sie Aufgaben erledigt. Wenn Sie ihn bitten, „den Wetterbericht für morgen zu finden", ruft er nicht selbst das Wetter ab, sondern schickt eine Nachricht an eine externe „Wetter-Station" (das Werkzeug/Tool), holt die Daten und gibt sie Ihnen zurück.

Normalerweise ist dieser Prozess schnell, billig und effizient. Aber in diesem Papier beschreiben die Forscher eine neue, heimtückische Art, diesen Assistenten zu „betrügen", ohne dass er es merkt oder die Aufgabe versagt.

Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

Das Problem: Der „stille" Stromschlag

Bisherige Angriffe auf KIs waren wie ein lauter Schrei: Jemand schrie dem Assistenten etwas zu, woraufhin dieser panisch und endlos weiterredete („Engorgio"-Angriffe). Das war offensichtlich und leicht zu erkennen.

Die neue Methode in diesem Papier ist wie ein schleichender Stromschlag. Der Angreifer ändert nichts an der eigentlichen Aufgabe (das Wetter wird korrekt gemeldet), aber er manipuliert die Kommunikation zwischen Assistent und Wetter-Station so, dass der Prozess extrem ineffizient wird.

Die Methode: Der „unendliche" Check-in

Stellen Sie sich vor, Sie gehen in ein Büro, um einen einfachen Ausweis zu beantragen. Normalerweise reicht es, Ihren Namen zu nennen, und Sie bekommen den Ausweis.

Der Angreifer hat nun das Büro (den Server) manipuliert. Wenn Sie Ihren Namen nennen, sagt das Büro:

„Okay, Name notiert. Aber bevor wir fortfahren, müssen Sie eine Liste von 10.000 Zahlen in einer bestimmten Reihenfolge aufschreiben."
Sie schreiben die Liste. Das Büro sagt: „Gut, aber Sie haben eine Zahl falsch geschrieben. Bitte schreiben Sie die ganze Liste von vorne."
Sie schreiben sie neu. Das Büro sagt: „Fast gut, aber Sie haben ein Komma vergessen. Nochmal von vorne."
Erst nach 50 solcher Runden, in denen Sie immer wieder Listen schreiben und korrigieren, sagt das Büro: „Okay, jetzt ist alles perfekt. Hier ist Ihr Ausweis."

Das Ergebnis:

Die Aufgabe ist erledigt: Sie bekommen den Ausweis (die KI gibt die richtige Antwort).
Der Preis ist explodiert: Der Assistent hat 50-mal mehr Arbeit geleistet als nötig.
Die Kosten: Da KI-Modelle nach dem Verbrauch von „Wörtern" (Tokens) bezahlt werden, kostet dieser eine Ausweis jetzt das 600-fache des normalen Preises.
Die Energie: Die Computer, die das berechnen, werden heiß und verbrauchen massiv Strom.
Die Tarnung: Da der Assistent am Ende die richtige Antwort gibt, denken Sicherheitsfilter: „Alles in Ordnung, keine Gefahr!" Sie sehen nur das Ergebnis, nicht den Wahnsinn davor.

Wie funktioniert das technisch? (Die „MCTS"-Maschine)

Die Forscher haben nicht einfach raten, wie man den Assistenten verwirrt. Sie haben eine Art Super-Trainings-Algorithmus (MCTS) entwickelt.

Stellen Sie sich das wie einen Schachcomputer vor, der Millionen von Partien spielt, um den perfekten Zug zu finden. Nur dass dieser Computer nicht Schach spielt, sondern Texte manipuliert.

Er probiert winzige Änderungen in den Anweisungen des Werkzeugs aus (z. B. „Bitte listen Sie 500 Zahlen auf" statt „Bitte listen Sie 5 Zahlen auf").
Er testet, welche Änderung den Assistenten am längsten im Kreis laufen lässt, ohne dass er merkt, dass er betrogen wird.
Am Ende hat er eine perfekte „Fallen-Anweisung" gefunden, die auf fast jede KI wirkt.

Warum ist das gefährlich?

Geldverbrennung: Unternehmen, die KI nutzen, könnten durch solche Angriffe ihre Budgets in Minuten aufbrauchen.
Systemkollaps: Da die KI so viel Rechenleistung für diese unnötigen Listen braucht, stehen andere, wichtige Aufgaben still. Es ist, als würde ein einziger Kunde im Supermarkt den gesamten Laden blockieren, indem er jeden Artikel einzeln auf die Kasse legt, nur um eine Banane zu kaufen.
Unsichtbar: Herkömmliche Sicherheitsfilter prüfen meist nur: „Ist die Antwort gefährlich?" oder „Ist der Eingabetext böse?". Da hier die Antwort harmlos ist und der Eingabetext normal aussieht, gehen diese Filter leer aus.

Fazit

Die Forscher warnen: Wir müssen aufhören, nur auf das Ergebnis zu achten. Wir müssen auch den Weg dorthin überwachen. Wenn ein Assistent für eine einfache Aufgabe 50.000 Wörter schreibt, ist da etwas faul – auch wenn die Antwort am Ende stimmt. Es ist wie bei einem Taxifahrer, der Sie durch die ganze Stadt fährt, um Sie nur zwei Häuserblocks weiter abzuliefern, nur weil er die Route manipuliert hat. Die Fahrt ist legal, aber der Preis ist ein Betrug.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents" auf Deutsch.

1. Problemstellung

Moderne Large Language Model (LLM) Agenten interagieren zunehmend mit externen Werkzeugen über standardisierte Protokolle wie den Model Context Protocol (MCP). Bisherige Denial-of-Service (DoS)-Angriffe auf LLMs konzentrierten sich hauptsächlich auf die Ebene der Benutzereingabe (Prompts) oder des Retrieval-Augmented Generation (RAG)-Kontexts. Diese Angriffe sind typischerweise ein-drehig (single-turn) und zielen darauf ab, das Modell zu extrem langen Ausgaben zu verleiten.

Dieser Ansatz hat jedoch zwei wesentliche Schwächen im Kontext von Agenten:

Kostenbegrenzung: Die Kosten sind durch das maximale Token-Limit pro Antwort des Modells gedeckelt.
Mangelnde Tarnung: Die generierten langen Antworten sind oft offensichtlich und nicht aufgabenbezogen, was sie in zielgerichteten Werkzeug-Workflows leicht erkennbar macht.

Das Paper identifiziert eine bisher ungenutzte Angriffsfläche: die Multi-Turn-Interaktion zwischen Agent und Werkzeug. Das Ziel ist ein stealth-DoS-Angriff, der die Aufgabe des Agenten erfolgreich abschließt (korrekte Antwort), aber die dazwischenliegenden Werkzeugaufrufe so manipuliert, dass sie extrem viele Token verbrauchen, die Rechenzeit verlängern und die Infrastrukturkosten explodieren lassen, ohne dass Standard-Sicherheitsfilter Alarm schlagen.

2. Methodik

Die Autoren schlagen einen Angriff vor, der auf der Ebene des Werkzeug-Servers (Tool Layer) ansetzt, spezifisch innerhalb des MCP-Protokolls.

A. Bedrohungsmodell

Der Angreifer kontrolliert einen MCP-Server, der als „bösartiger" Ersatz für einen legitimen Server fungiert. Der Angreifer darf keine Änderungen am Agenten-Policy, am LLM-Modell selbst, an den Benutzereingaben oder am RAG-Kontext vornehmen. Der Angriff aktiviert sich erst, wenn der Agent den Werkzeugaufruf legitim initiiert.

B. Der universelle bösartige Template-Ansatz

Der Kern der Methode ist die Transformation eines harmlosen MCP-Servers in eine Variante, die nur text-sichtbare Felder (z. B. Dokumentationen, Fehlermeldungen, Statusnachrichten) ändert, während die Funktionssignaturen und die finale Nutzlast (Payload) intakt bleiben.

Der Server nutzt ein Template-gesteuertes Rückgabepolicy-System:

Segment-Index ( $t$ ): Der Server fordert den Agenten auf, einen Fortschrittsindex zu verfolgen. Solange $t < T_{max}$ (ein festgelegtes Limit), gibt der Server keine finale Antwort, sondern einen „Progress"-Hinweis.
Kalibrierungssequenz: Der Server verlangt vom Agenten, eine lange, vollständig kommagetrennte Liste von Zahlen als Argument zu senden, um die Ausgabe pro Turn zu verlängern.
Wiederholungslogik: Wenn die Sequenz nicht perfekt ist (z. B. zu kurz oder falsch formatiert), sendet der Server eine „Repair"-Nachricht und fordert eine erneute, korrekte Eingabe, ohne den Fortschrittsindex zu erhöhen. Dies zwingt den Agenten in eine Schleife aus vielen, langen Werkzeugaufrufen.
Terminierung: Erst wenn $t = T_{max}$ und die Sequenz validiert ist, sendet der Server die ursprüngliche, harmlose Antwort (benign payload).

C. Optimierung mittels MCTS (Monte Carlo Tree Search)

Um die effektivsten Text-Manipulationen zu finden, die bei verschiedenen LLMs und Aufgaben funktionieren, verwenden die Autoren einen MCTS-Optimierer.

Suchraum: Der Suchraum besteht aus lokalen Textänderungen in den Dokumentationen und Fehlermeldungen des Servers.
Aktionen: Es gibt drei Familien von Aktionen:
- $A_{MT}$ : Induktion von Multi-Turn-Verhalten.
- $A_{LEN}$ : Induktion von langen Ausgaben pro Turn.
- $A_{REP}$ : Reparatur von Formatierungsfehlern (um Abbrüche zu verhindern).
Phasen-Gating: Der Prozess läuft in Phasen ab: Zuerst wird die Stabilität der Multi-Turn-Schleife sichergestellt, danach wird die Länge der Ausgaben maximiert.
Ziel: Maximierung der Token-Kosten unter der strikten Nebenbedingung, dass die Aufgabe erfolgreich abgeschlossen wird (Task Success Rate hoch halten).

3. Wichtige Beiträge

Neue Angriffsfläche: Dies ist die erste Arbeit, die die Werkzeug-Aufrufschicht (Tool-Calling Layer) als primäre DoS-Angriffsfläche für Agenten etabliert. Sie zeigt, dass selbst bei korrekter Tool-Nutzung und korrekter Endantwort massive Ressourcenverschwendung möglich ist.
Stealth-Eigenschaften: Der Angriff ist für Standard-Defenses unsichtbar, da er keine semantisch schädlichen Inhalte erzeugt und die finale Antwort korrekt ist. Prompt-Filter und Trajektorien-Monitoring schlagen kaum Alarm.
Universelle Optimierung: Die Entwicklung einer MCTS-basierten Methode, die bösartige Templates automatisch für verschiedene LLMs und Aufgaben generiert, ohne den Code oder die Identifikatoren der Tools zu ändern.

4. Ergebnisse

Die Autoren evaluierten den Angriff auf sechs verschiedenen LLMs (u.a. Llama-3.3, Qwen-3, Mistral Large, GLM-4) mit den Benchmarks ToolBench und BFCL.

Token-Amplifikation: Die Angriffe erzeugten Trajektorien mit über 60.000 Token pro Abfrage.
Kostensteigerung: Die Kosten pro Abfrage stiegen um den Faktor bis zu 658x (z. B. von 87 auf 57.255 Token bei Mistral Large).
Energieverbrauch: Der Energieverbrauch erhöhte sich um das 100- bis 560-fache.
GPU-Ressourcen: Die KV-Cache-Auslastung (Key-Value Cache) auf den GPUs stieg von typischerweise <1% (bei normalem Betrieb) auf 35–74% unter Attacke.
Durchsatz: Der Gesamtdurchsatz des Systems für legitime, parallele Aufgaben sank um durchschnittlich 50%, da die GPU-Ressourcen durch die langen Agenten-Schleifen blockiert wurden.
Umgehung von Defenses:
- Perplexity-Filter (PPL): Versagten, da der Text innerhalb der erwarteten Verteilung lag.
- Self-Monitoring & Safety-Judges: Schlugen fast nie Alarm (<3% Erkennungsrate), da der Agent die langen Aufrufe als notwendigen Teil des Lösungswegs interpretierte.
- Token-Limits: Können die Kosten zwar begrenzen, verhindern aber den Angriff nicht, da der Agent versucht, das Limit maximal auszureizen.

5. Bedeutung und Fazit

Das Paper demonstriert, dass die Sicherheit von LLM-Agenten nicht nur auf der Ebene der Eingabe (Prompt Injection) oder der Ausgabe (Halluzinationen) betrachtet werden darf. Die Interaktionsschleife mit Werkzeugen ist eine kritische Schwachstelle für wirtschaftliche Denial-of-Service-Angriffe.

Da die Angriffe die Aufgabenkorrektheit bewahren, sind traditionelle Sicherheitsmechanismen, die auf „falsche Antworten" oder „toxische Inhalte" prüfen, wirkungslos. Die Autoren fordern neue Verteidigungsstrategien, die das Verhalten des Agenten über den gesamten Workflow hinweg überwachen (z. B. ungewöhnlich lange Werkzeug-Aufrufketten oder ineffiziente Muster), anstatt sich nur auf das Endergebnis zu konzentrieren. Dies unterstreicht die Notwendigkeit von „Behavioral Baselines" für Agenten-Systeme, um legitime von bösartig ineffizienten Abläufen zu unterscheiden.