ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous dirigez une grosse agence de détectives privés (les agents IA) qui doivent résoudre des énigmes complexes. Pour ce faire, ils ont besoin de deux choses :

Un cerveau ultra-rapide (le modèle de langage) pour réfléchir.
Des outils externes (comme un ordinateur, un accès internet, ou un logiciel de code) pour agir sur le monde réel.

Le problème, c'est que les systèmes actuels pour gérer ces détectives sont un peu comme une bureaucratie mal organisée.

🚧 Le Problème : La "Bureaucratie" Actuelle

Dans les systèmes actuels (comme vLLM + Kubernetes), chaque fois qu'un détective a besoin d'un outil (par exemple, compiler du code), le système le met en pause.

Le cerveau oublie tout : Pendant que le détective attend que l'outil réponde, le système efface sa "mémoire à court terme" (le cache KV) pour faire de la place à d'autres détectives.
Le résultat : Quand l'outil répond, le détective doit tout recommencer depuis le début pour se souvenir de ce qu'il a dit il y a 5 minutes. C'est comme si vous deviez relire tout un livre pour vous souvenir du chapitre précédent parce que vous avez oublié de le noter.
Le chaos : D'un côté, certains détectives attendent des heures pour avoir un bureau (un environnement d'exécution), et de l'autre, des bureaux restent vides alors que d'autres sont surchargés.

C'est lent, inefficace et ça coûte cher en énergie.

⚡ La Solution : ThunderAgent (Le "Chef d'Orchestre Intuitif")

Les auteurs de ce papier ont créé ThunderAgent. Imaginez-le non pas comme un simple gestionnaire de files d'attente, mais comme un chef d'orchestre qui connaît la partition complète de chaque détective, pas juste la note qu'il joue en ce moment.

Voici comment ThunderAgent fonctionne, avec des analogies simples :

1. Le "Programme" comme une Histoire Continue

Au lieu de voir chaque demande comme un événement isolé, ThunderAgent voit chaque agent comme une histoire en cours (un "Programme").

L'analogie : Imaginez un roman. Les systèmes actuels lisent une phrase, ferment le livre, et ouvrent un autre livre. ThunderAgent garde le livre ouvert, marque la page exacte, et sait que l'histoire continue même si le détective va faire une pause pour aller chercher un café (utiliser un outil).

2. La Mémoire Intelligente (Éviter les "Oublis")

ThunderAgent sait que si un détective est en train d'utiliser un outil, il va revenir bientôt.

L'analogie : Au lieu de jeter les notes de musique d'un musicien pendant son solo, ThunderAgent les garde sur un coussin spécial (le cache KV). Il ne les efface que s'il est sûr que le musicien ne reviendra pas de sitôt.
Le résultat : Quand le détective revient, il n'a pas besoin de relire tout le livre. Il reprend exactement là où il s'est arrêté. C'est pour ça que c'est 1,5 à 3,6 fois plus rapide.

3. L'Équilibre Parfait (Pas de Bureaux Vides, Pas de Surcharge)

Les systèmes actuels envoient tous les détectives d'une même équipe sur le même ordinateur, ce qui crée des embouteillages.

L'analogie : ThunderAgent agit comme un hôte de soirée génial. Il regarde la pièce : "Tiens, la table 1 est pleine, mais la table 3 a de la place. Je vais déplacer ce détective qui réfléchit vers la table 3."
Il déplace les "histoires" (les programmes) d'un ordinateur à l'autre pour que personne n'attende et que tout le monde travaille.

4. Le Nettoyage Automatique (Fin des "Chambres Hantées")

Souvent, les outils (comme des boîtes de sable numériques ou Docker) restent ouverts même après que l'agent a fini, gaspillant de l'espace disque.

L'analogie : ThunderAgent est un concierge très attentif. Dès qu'une histoire est terminée, il ferme la porte, éteint la lumière et nettoie la pièce immédiatement. Il ne laisse jamais de "chambres hantées" (ressources inutilisées) encombrer le bâtiment.

🏆 Pourquoi c'est génial ?

Grâce à cette approche "consciente du programme" :

C'est plus rapide : Les détectives finissent leurs enquêtes beaucoup plus vite (jusqu'à 4 fois plus rapide dans certains cas).
C'est moins cher : On utilise moins de matériel pour faire le même travail.
C'est plus robuste : Même si les outils mettent du temps à répondre (ce qui est imprévisible), le système ne panique pas et continue de fonctionner sans s'effondrer.

En résumé : ThunderAgent transforme une gestion chaotique et aveugle en une danse coordonnée. Il sait qui fait quoi, garde les souvenirs en sécurité, et s'assure que chaque ressource est utilisée au bon moment, rendant les agents IA beaucoup plus intelligents et efficaces.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage (LLM) sont de plus en plus utilisés pour piloter des flux de travail d'agents complexes et multi-tours (codage, découverte scientifique, etc.). Ces agents alternent entre des phases de raisonnement (génération de texte par le LLM) et d'action (appel d'outils externes comme des compilateurs, des bases de données ou des API).

Les systèmes d'inférence actuels (ex: vLLM couplé à Kubernetes) traitent ces flux de manière décentralisée et sans vision d'ensemble :

Ils considèrent chaque étape (pensée ou action) comme une requête indépendante et sans état.
Ils gèrent le cache KV (Key-Value) et les ressources des outils séparément, sans connaissance du flux de travail global.

Cette architecture entraîne trois problèmes majeurs :

Thrashing du Cache KV (Éviction prématurée) : Pendant l'exécution d'un outil (qui peut être longue et imprévisible), le cache KV de l'agent est souvent évacué pour libérer de la mémoire GPU. Lorsque l'outil revient, le système doit recalculer tout l'historique (re-prefill), augmentant la latence jusqu'à 7,14 fois et réduisant le débit.
Déséquilibre mémoire inter-nœuds : Les stratégies d'ordonnancement actuelles (comme le routage "KV-aware") fixent souvent un flux de travail sur un nœud GPU spécifique pour maximiser la localité du cache. Cependant, la charge mémoire varie énormément d'un flux à l'autre, créant des goulots d'étranglement sur certains nœuds tandis que d'autres restent inactifs.
Inconscience du cycle de vie des outils : Les orchestrateurs ne synchronisent pas la libération des ressources (conteneurs Docker, ports réseau) avec la fin des tâches. Cela entraîne une fuite de ressources (disk usage) et des temps de préparation d'environnement coûteux qui bloquent l'inférence.

2. Méthodologie : ThunderAgent

ThunderAgent propose une approche consciente du programme (Program-Aware) qui abstrait le flux de travail entier comme une entité unique, plutôt que de traiter des requêtes isolées.

A. Abstraction du "Programme Agent" (Agentic Program)

Le système définit un programme comme une unité de premier ordre persistante à travers plusieurs invocations de modèles et d'outils. Chaque programme $P$ est un tuple :
$P = \langle ID, c, T, L, \tau, s \rangle$
Où :

$ID$ : Identifiant global unique.
$c$ : Taille du contexte (nombre de tokens, footprint mémoire KV).
$T$ : Ensemble des environnements d'outils requis.
$L$ : Placement sur le nœud GPU (localité spatiale).
$\tau$ : Phase d'exécution (Raisonnement ou Action).
$s$ : Statut d'ordonnancement (Actif, Pause, Terminé).

Cette abstraction permet au système de distinguer une attente temporaire (outil en cours) d'une terminaison réelle.

B. Ordonnanceur Conscient du Programme (Program-Aware Scheduler)

Basé sur un modèle de coût minimisant les surcoûts non productifs (re-calcul, mémoire inutilisée, mise en cache inactive), ThunderAgent utilise deux mécanismes clés :

File d'attente globale et gestion de la mémoire (State-aware pausing) :
- Au lieu de gérer des files d'attente par nœud, tous les nœuds partagent une file d'attente globale.
- Le système détecte périodiquement le "thrashing" (pression mémoire). Si la mémoire est saturée, il met en pause sélectivement les programmes en phase d'Action (qui n'utilisent pas le GPU pour l'instant) pour libérer de l'espace aux programmes en phase de Raisonnement.
- Stratégie d'éviction "Shortest-First" : Pour minimiser le coût de re-calcul (qui est quadratique par rapport à la longueur du contexte), le système évacue d'abord les programmes ayant le contexte le plus court.
Migration Dynamique :
- Les programmes mis en pause peuvent être réaffectés à n'importe quel nœud GPU disponible, résolvant ainsi les déséquilibres de charge mémoire sans sacrifier la localité du cache (car le cache est évacué lors de la pause).
Fonction de décélération temporelle (Time-Decay) :
- Pour gérer l'imprévisibilité des temps d'exécution des outils, le système applique une fonction de décélération $f(t)$ sur la priorité des programmes en attente d'outils. Plus un outil est en attente longtemps, moins son cache KV est prioritaire, permettant son éviction pour éviter la mise en cache inactive excessive.

C. Gestion des Ressources d'Outils

Collecte de déchets basée sur les hooks : Les ressources (Docker, ports) sont libérées immédiatement lorsque le statut du programme passe à "Terminé".
Préparation asynchrone : Les environnements d'outils sont préparés en arrière-plan pendant que le LLM raisonne, masquant ainsi la latence de démarrage.

3. Contributions Clés

Abstraction Unifiée : Introduction d'une vue unifiée des ressources hétérogènes (cache KV, états système, outils externes) via le concept de "Programme Agent".
Ordonnancement Optimal : Résolution d'un problème d'optimisation contraint pour minimiser le re-calcul et maximiser le débit, grâce à une file d'attente globale et une éviction intelligente basée sur la longueur du contexte.
Gestion de Cycle de Vie : Synchronisation stricte entre l'inférence LLM et les outils, éliminant les fuites de ressources et réduisant les temps de préparation.
Système Open Source : Implémentation complète disponible publiquement, compatible avec les moteurs d'inférence existants (vLLM, SGLang) via une interface simple.

4. Résultats Expérimentaux

Les évaluations ont été menées sur divers agents (codage, routage, découverte scientifique) et modèles (GLM-4.6, Qwen-3) sur des clusters GPU (H100, RTX 5090).

Débit de Service (Serving) : ThunderAgent améliore le débit de 1,5x à 3,6x par rapport aux systèmes de l'état de l'art (vLLM, Continuum) sous forte concurrence.
- Exemple : Jusqu'à 3,58x de gain pour OpenHands sur SWE-Bench.
Débit RL (Rollout) : Pour l'apprentissage par renforcement, les gains vont de 1,8x à 3,9x, crucial pour réduire le délai entre la collecte de données et la mise à jour des politiques.
Efficacité Mémoire : Réduction de l'utilisation du disque de 4,2x grâce à une gestion stricte des environnements d'outils.
Taux de Hit du Cache KV : ThunderAgent maintient un taux de hit proche de 100% pour les flux prévisibles, contrairement à Continuum qui chute à ~60% sous forte charge. Pour les flux stochastiques, il sacrifie intelligemment le taux de hit pour éviter la mise en cache inactive, optimisant ainsi le débit global.

5. Signification et Impact

ThunderAgent représente un changement de paradigme dans l'inférence des agents IA. Au lieu d'optimiser uniquement le moteur d'inférence (LLM) ou l'orchestrateur d'outils séparément, il introduit une couche de planification unifiée qui comprend la sémantique du flux de travail.

Pour l'industrie : Cela permet de réduire considérablement les coûts d'infrastructure en augmentant le nombre de flux de travail traités par GPU.
Pour la recherche : Cela rend viable l'exécution à grande échelle d'agents autonomes complexes et de l'apprentissage par renforcement (RL) qui nécessitent une faible latence et un haut débit.
Simplicité : Le système est conçu pour être facilement intégré aux infrastructures existantes sans nécessiter de modifications majeures des moteurs d'inférence sous-jacents.

En résumé, ThunderAgent résout les goulots d'étranglement fondamentaux de l'inférence d'agents (thrashing du cache, déséquilibre mémoire, gestion des ressources) en passant d'une logique "orientée requête" à une logique "orientée programme".