ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem klugen, aber etwas langsamen Assistenten (den KI-Modell-„Gehirn"), der komplexe Aufgaben löst. Um diese Aufgaben zu erledigen, muss der Assistent nicht nur nachdenken, sondern auch Werkzeuge benutzen: Er muss Code schreiben, im Internet suchen, Dateien öffnen oder Programme starten.

Das Problem bei den aktuellen Systemen ist wie in einer überfüllten Werkstatt, in der jeder Handwerker (jeder KI-Auftrag) für sich allein arbeitet, ohne dass ein Chef die Übersicht hat.

Hier ist die einfache Erklärung von ThunderAgent, dem neuen System aus dem Papier, das dieses Chaos ordnet:

1. Das Problem: Der vergessliche Handwerker

In herkömmlichen Systemen (wie vLLM oder Kubernetes) behandelt der Computer jeden einzelnen Schritt des Assistenten als eine völlig neue, isolierte Anfrage.

Das Gedächtnis-Problem (KV-Cache-Thrashing): Stell dir vor, dein Assistent liest gerade ein 50-seitiges Buch, um eine Frage zu beantworten. Dann muss er kurz eine Werkzeugmaschine starten (z. B. einen Code-Compiler). In alten Systemen wird das Buch während dieser kurzen Wartezeit weggeräumt, um Platz für einen neuen Handwerker zu machen. Wenn der Assistent zurückkommt, muss er das Buch von vorne lesen (alles neu berechnen). Das kostet enorm viel Zeit und Energie. Das nennt man „Thrashing" – ein ständiges Hin- und Herwerfen von Informationen.
Das Speicher-Problem: Wenn viele Handwerker gleichzeitig arbeiten, werden manche Werkbänke (Server-Knoten) überfüllt, während andere leer stehen. Das System weiß nicht, dass Handwerker A und Handwerker B zur selben „Familie" (demselben Arbeitsauftrag) gehören und eigentlich zusammenarbeiten sollten.
Das Werkzeug-Problem: Wenn ein Handwerker fertig ist, werden seine Werkzeuge (Docker-Container, Netzwerkverbindungen) oft nicht sofort weggeräumt. Sie bleiben herumliegen und blockieren den Platz, bis das System irgendwann abstürzt.

2. Die Lösung: ThunderAgent als „Chef der Werkstatt"

ThunderAgent ändert die Perspektive. Statt jeden kleinen Schritt als isolierte Anfrage zu sehen, betrachtet es den gesamten Arbeitsauftrag als ein einziges Programm.

Stell dir ThunderAgent als einen super-organisierten Werkstattleiter vor, der folgende Tricks anwendet:

A. Der „Programm-Abstraktions"-Trick

ThunderAgent sagt: „Ich sehe nicht nur einzelne Schritte, ich sehe den ganzen Auftrag."

Es weiß: „Handwerker A ist gerade beim Nachdenken (Reasoning), aber Handwerker B wartet nur auf eine Werkzeugmaschine (Acting)."
Das System behandelt den gesamten Auftrag wie ein einziges Objekt, das von Anfang bis Ende verfolgt wird.

B. Der „Intelligente Stopp"-Trick (State-aware Pausing)

Wenn die Werkstatt voll wird (der Arbeitsspeicher der Grafikkarte ist knapp), muss etwas Platz gemacht werden.

Alte Systeme: Werfen zufällig jemanden raus, oft den, der gerade am wichtigsten ist.
ThunderAgent: Schaut genau hin. „Handwerker B wartet nur auf eine Maschine. Der braucht gerade kein Gedächtnis. Wir machen ihn kurz in den Wartebereich (Pause) und räumen seinen Platz auf. Handwerker A, der gerade denkt, darf weiterarbeiten."
Analogie: Es ist wie in einer Bibliothek. Wenn es voll ist, werden die Leute, die nur auf den Ausgang warten, kurz hinausgebeten, damit die Leute, die gerade ein Buch lesen, Platz haben. Das verhindert, dass das Buch (der Kontext) weggeräumt und neu gelesen werden muss.

C. Der „Globale Wartezimmer"-Trick (Global Waiting Queue)

In alten Systemen muss ein Handwerker immer an denselben Tisch zurückkehren, auch wenn dieser Tisch voll ist, während der Tisch nebenan leer steht.

ThunderAgent: Hat ein globales Wartezimmer. Wenn ein Tisch voll ist, wird der Auftrag nicht blockiert, sondern sofort an einen freien Tisch auf einem anderen Server geschickt. Das sorgt dafür, dass alle Maschinen gleichmäßig ausgelastet sind und niemand warten muss, nur weil ein anderer Tisch überfüllt ist.

D. Der „Aufräum-Trick" (Lifecycle-Aware Garbage Collection)

Wenn ein Auftrag fertig ist, weiß ThunderAgent sofort: „Alles abgebaut!"

Es schließt sofort die Werkzeuge, schaltet die virtuellen Maschinen aus und räumt den Speicher auf.
Analogie: Wie ein Hotel, das sofort das Zimmer reinigt, sobald der Gast geht, anstatt zu warten, bis das Hausmeister-Team zufällig vorbeikommt. Das verhindert, dass das Hotel (der Server) mit Müll vollgestopft wird.

3. Das Ergebnis: Warum ist das so schnell?

Dank dieser intelligenten Steuerung passiert Folgendes:

Weniger Wartezeit: Der Assistent muss sein Gedächtnis (das Buch) nicht ständig neu lesen.
Bessere Auslastung: Alle Computerchips werden gleichmäßig genutzt.
Kein Müll: Der Speicher bleibt sauber.

Die Zahlen sprechen für sich:
ThunderAgent ist laut dem Papier 1,5- bis 3,6-mal schneller bei der Bearbeitung von Aufgaben und spart bis zu 4,2-mal mehr Speicherplatz für Werkzeuge im Vergleich zu den besten bisherigen Systemen.

Zusammenfassung in einem Satz

ThunderAgent ist wie ein kluger Dirigent, der nicht nur auf die einzelnen Musiker (die KI-Schritte) hört, sondern das ganze Orchester (den Arbeitsauftrag) im Blick hat, damit niemand vergeblich auf sein Instrument warten muss und das Konzert (die KI-Antwort) viel schneller und flüssiger läuft.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System" auf Deutsch:

1. Problemstellung

Große Sprachmodelle (LLMs) werden zunehmend für komplexe, mehrstufige Agenten-Workflows eingesetzt, die reasoning (Schlussfolgern) und acting (Handeln via Tool-Aufrufe) abwechseln. Bestehende Systeme (z. B. Kombinationen aus vLLM und Kubernetes) behandeln diese Workflows jedoch als lose Ansammlung isolierter Komponenten. Sie verwalten Ressourcen (KV-Cache, Tool-Umgebungen) auf Anfrage-Ebene (Request-Level) statt auf Workflow-Ebene.

Dies führt zu drei Hauptineffizienzen:

KV-Cache-Thrashing: Da bestehende Systeme den Zustand eines Agenten nicht über Tool-Aufrufe hinweg verfolgen, wird der KV-Cache während der Tool-Ausführungszeit oft vorzeitig verworfen, um Platz für neue Anfragen zu schaffen. Wenn die Tool-Ausführung abgeschlossen ist, muss der gesamte vorherige Kontext neu präfillen (re-prefill) werden. Dies erhöht die Latenz um das bis zu 7,14-fache und senkt den Durchsatz drastisch.
Ungleichgewicht im Speicherverbrauch (Cross-Node Imbalance): Herkömmliche Router weisen Anfragen desselben Workflows oft einem festen GPU-Knoten zu, um Cache-Lokalität zu maximieren. Da Agenten-Workflows jedoch unvorhersehbare Längen und Ressourcenbedarfe haben, führt dies zu einer starken Überlastung einzelner Knoten bei gleichzeitig unterausgelasteten anderen Knoten.
Fehlende Lebenszyklus-Verwaltung von Tools: Ressourcen wie Docker-Sandboxen oder Netzwerkports für Tool-Ausführungen werden oft nicht korrekt freigegeben, wenn ein Workflow endet. Dies führt zu Ressourcenlecks und langen Vorbereitungszeiten für neue Workflows.

2. Methodik: ThunderAgent

ThunderAgent löst diese Probleme durch eine program-bewusste (program-aware) Architektur, die den gesamten Agenten-Workflow als eine einzige Einheit betrachtet.

A. Abstraktion: Agentic Programs

Statt einzelner Anfragen wird der Workflow als Agentic Program abstrahiert. Dies ist eine First-Class-Scheduling-Einheit, die über mehrere LLM-Aufrufe und Tool-Ausführungen hinweg persistiert. Ein Programm enthält Metadaten wie:

Eindeutige ID, Kontextlänge (Token-Anzahl), benötigte Tool-Umgebungen.
Aktueller Ausführungsstatus: Reasoning (auf der GPU) oder Acting (Tool-Ausführung).
Scheduling-Status: Active, Paused, Terminated.

B. Program-bewusster Scheduler

Der Scheduler behandelt das Scheduling als ein Optimierungsproblem, um nicht-produktive Overheads (Neuberechnung, Leerlauf-Caching) zu minimieren. Er nutzt zwei Kernmechanismen:

State-aware Pausing (Zustandsbewusstes Anhalten):
- Der Scheduler überwacht den Speicherverbrauch periodisch.
- Bei Speicherdruck werden vorrangig Programme im Acting-Status (die gerade Tools ausführen und keine GPU-Rechenleistung benötigen) angehalten, um den KV-Cache freizugeben.
- Programme im Reasoning-Status werden bevorzugt, um den Durchsatz zu maximieren.
- Dies verhindert das Thrashing des KV-Caches, da der Cache für Reasoning-Phasen erhalten bleibt.
Shortest-First Eviction:
- Wenn Programme angehalten werden müssen, werden diejenigen mit der kürzesten Kontextlänge (kleinster KV-Cache) ausgewählt.
- Da die Kosten für die Neuberechnung (Re-prefill) quadratisch mit der Kontextlänge steigen ( $Cost \propto c^2$ ), minimiert dieser Ansatz die Gesamtkosten der Neuberechnung.
Globale Warteschlange (Global Waiting Queue):
- Statt Anfragen fest an einen Knoten zu binden, teilen sich alle GPU-Knoten eine globale Warteschlange.
- Angehaltene Programme können auf jeden verfügbaren Knoten migriert werden, was das Speichergleichgewicht über das Cluster hinweg verbessert.

C. Program-bewusstes Tool-Ressourcen-Management

Asynchrone Vorbereitung: Die Umgebung für Tools (z. B. Docker-Container) wird asynchron vorbereitet, während das LLM noch reasoning macht. Dies überlappt I/O-intensive Aufgaben mit der Inferenz.
Lebenszyklus-basierte Bereinigung: Ein Garbage Collector nutzt explizite Beendigungssignale von Programmen, um Ressourcen (Sandboxen, Ports) sofort freizugeben, was Ressourcenlecks verhindert.

3. Schlüsselbeiträge

Program-Abstraktion: Einführung einer einheitlichen Sicht auf heterogene Ressourcen (KV-Cache, Systemzustände, externe Tools) durch die Abstraktion des Workflows als „Programm".
Optimierter Scheduler: Ein Scheduler, der den Trade-off zwischen Caching-Kosten und Neuberechnungskosten dynamisch steuert, indem er den Status (Reasoning vs. Acting) und die Kontextlänge berücksichtigt.
Ressourcen-Management: Ein Mechanismus zur Vermeidung von Ressourcenlecks und zur Reduzierung der Vorbereitungszeit durch asynchrone Initialisierung.
Open Source: Das gesamte System ist als Open-Source-Projekt verfügbar.

4. Ergebnisse

Die Evaluation erfolgte auf Coding-Agenten (SWE-Agent, OpenHands), Routing-Agenten (ToolOrchestra) und wissenschaftlichen Entdeckungs-Agenten auf verschiedenen Hardware-Setups (bis zu 8× H100 GPUs).

Durchsatzsteigerung: ThunderAgent erreicht im Vergleich zu State-of-the-Art-Systemen (vLLM, Continuum) eine 1,5- bis 3,6-fache Steigerung des Durchsatzes beim Serving.
RL Rollouts: Bei Reinforcement-Learning-Rollouts wurden Verbesserungen von 1,8- bis 3,9-fach erzielt.
Speichereffizienz: Bis zu 4,2-fache Einsparungen bei der Festplattennutzung durch effizientes Management von Tool-Umgebungen.
Robustheit: ThunderAgent hält den Durchsatz auch bei hoher Parallelität stabil, während Baseline-Systeme bei Überschreitung des Speichers limitieren und stark einbrechen.
KV-Cache Hit-Rate: Durch die Vermeidung von Thrashing erreicht ThunderAgent nahezu 100% Hit-Rates bei vorhersehbaren Tool-Zeiten und optimiert dynamisch bei unvorhersehbaren Zeiten.

5. Bedeutung

ThunderAgent stellt einen Paradigmenwechsel dar: Weg von der reinen Anfrage-Verwaltung hin zu einer Workflow-zentrierten Sichtweise. Es zeigt, dass die Koordination von GPU-Ressourcen (KV-Cache) und externen Ressourcen (Tools) auf Programmebene entscheidend für die Skalierbarkeit von Agenten-Systemen ist.

Dies ist besonders relevant für:

Kostenreduktion: Höherer Durchsatz amortisiert Hardwarekosten schneller.
RL-Training: Schnellere Rollouts reduzieren das „Policy Lag" (Verzögerung zwischen Datensammlung und Modell-Update), was die Konvergenzgeschwindigkeit und die Qualität der finalen Policy verbessert.
Produktionseinsatz: Die Fähigkeit, mit unvorhersehbaren Tool-Latenzen umzugehen und Ressourcenlecks zu vermeiden, macht das System für langfristige, autonome Agenten-Workflows in der Praxis geeignet.

Zusammenfassend bietet ThunderAgent eine einfache, aber leistungsfähige Lösung, um die Engpässe in der aktuellen Generation von Agenten-Inferenzsystemen zu überwinden.