WVA: A Global Optimization Control Plane for llmd

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple du papier de recherche sur WVA, imagée comme si nous parlions d'un restaurant très populaire et complexe.

🍽️ Le Problème : Le Restaurant "IA" en Pleine Tempête

Imaginez un restaurant de luxe qui sert des plats complexes (les Modèles de Langage, ou LLM, comme ceux qui génèrent du texte). Ce restaurant a deux types de clients :

Les clients pressés (requêtes en ligne) : Ils veulent leur plat immédiatement.
Les clients qui commandent en gros (tâches hors ligne) : Ils attendent plus longtemps, mais en grande quantité.

Le problème, c'est que la cuisine de ce restaurant est unique :

Elle utilise des chefs cuisiniers très chers (les puces GPU H100) et des chefs plus abordables (les puces GPU A100).
La cuisine a une règle bizarre : pour préparer un plat, il faut garder tous les ingrédients sur le comptoir (la mémoire KV Cache). Si le comptoir est plein, on ne peut plus cuisiner, même si les chefs sont libres !

L'ancien système (HPA) est comme un manager qui regarde seulement le nombre de clients dans la salle.

Son raisonnement : "Il y a 80% de tables occupées ? On ouvre une nouvelle cuisine !"
Le problème : Il ne sait pas que le comptoir des ingrédients est déjà saturé. Il ouvre une cuisine, mais les nouveaux clients arrivent trop vite, les ingrédients manquent, et les commandes sont rejetées ou retardées. C'est comme essayer de faire entrer plus de monde dans une pièce déjà bondée : ça crée la panique.

🚀 La Solution : WVA, le "Super-Gestionnaire"

Les auteurs ont créé WVA (Workload Variant Autoscaler). C'est un nouveau manager qui ne regarde pas seulement le nombre de clients, mais qui regarde directement dans la cuisine.

1. Il connaît les "Variantes" (Les différents types de cuisines)

WVA comprend qu'il y a deux types de cuisines :

La cuisine économique (A100) : Moins chère, parfaite pour les commandes normales.
La cuisine de luxe (H100) : Très chère, ultra-rapide, à utiliser seulement en cas d'urgence ou de grosse vague.

L'analogie : Imaginez que WVA est un chef d'orchestre qui dit : "On utilise d'abord les cuisines économiques. Si elles sont pleines, on ouvre les cuisines de luxe. On ne gaspille pas l'argent en ouvrant une cuisine de luxe pour une seule commande !". Cela économise énormément d'argent et d'énergie.

2. Il a des "yeux dans la cuisine" (Saturation et Mémoire)

Contrairement à l'ancien manager, WVA regarde le comptoir des ingrédients (la mémoire KV Cache).

L'ancien manager : Attend que le comptoir soit à 80% plein pour réagir. À ce moment-là, c'est déjà trop tard, les plats commencent à brûler.
WVA : Il dit : "Attends, il reste juste assez de place pour 3 commandes de plus. Si j'ouvre une nouvelle cuisine maintenant, je peux absorber la prochaine vague sans que personne n'attende."
Le résultat : Il anticipe le problème. C'est comme avoir un garde du corps qui voit l'orage arriver et ouvre un parapluie avant qu'il ne pleuve.

3. Il ne ferme pas la cuisine trop vite (Éviter les coupures)

Quand le restaurant se calme, l'ancien manager ferme les cuisines trop vite, parfois en plein milieu de la préparation d'un plat complexe.

WVA est plus prudent. Il vérifie : "Est-ce que cette cuisine est vraiment vide, ou est-ce qu'elle est juste en train de finir un gros plat ?". S'il y a encore des plats en cours, il garde la cuisine ouverte. Cela évite de jeter des commandes en cours.

📊 Les Résultats : Pourquoi c'est génial ?

Grâce à cette approche intelligente, les tests ont montré que :

Plus de plats servis (Débit +37%) : Le restaurant gère beaucoup plus de clients en même temps sans s'effondrer.
Moins de clients mécontents (Échecs divisés par 10) : Beaucoup moins de commandes sont rejetées ou annulées.
Moins de gaspillage d'argent : On n'utilise pas les chefs ultra-chers pour des tâches simples. On économise l'énergie et le budget.

🌟 En Résumé

Imaginez que WVA est le GPS intelligent de votre restaurant.

L'ancien système (HPA) était comme un conducteur qui regarde seulement le compteur de vitesse et accélère quand il voit du trafic, créant des embouteillages.
WVA, lui, regarde la carte, connaît la capacité de chaque route (mémoire), choisit le meilleur chemin (le matériel le moins cher possible), et anticipe les bouchons avant qu'ils ne se forment.

C'est une façon de rendre l'intelligence artificielle plus rapide, moins chère et plus fiable, en apprenant à écouter ce que la machine dit vraiment, plutôt que de deviner.

Each language version is independently generated for its own context, not a direct translation.

Titre : WVA : Un Plan de Contrôle d'Optimisation Globale pour llmd

1. Problématique

L'inférence des Grands Modèles de Langage (LLM) présente des défis uniques par rapport aux microservices stateless traditionnels :

Nature Stateful et Contraintes Mémoire : L'inférence LLM dépend fortement de la capacité de la mémoire haute bande passante (HBM) pour stocker les caches de clés-valeurs (KV Cache). La performance est souvent limitée par la bande passante mémoire plutôt que par la puissance de calcul.
Hétérogénéité Matérielle : Les clusters de production mélangent souvent des GPU de différentes générations (ex: A100 économiques vs H100 performants) pour optimiser les coûts, créant un environnement hétérogène complexe.
Échec des Autoscaleurs Traditionnels : Les solutions existantes, comme le Horizontal Pod Autoscaler (HPA) de Kubernetes, sont conçues pour des charges de travail homogènes et stateless. Elles se basent sur des métriques génériques (utilisation CPU/RAM) et traitent l'application comme une "boîte noire".
- Cela entraîne un sur-provisionnement (gaspillage d'énergie) ou un sous-provisionnement (violation des SLO de latence).
- L'HPA ne comprend pas l'état interne du moteur d'inférence (fragmentation du KV Cache, profondeur de file d'attente), ce qui provoque des arrêts prématurés de pods ou des réticulations (thrashing) lors de pics de charge.

2. Méthodologie et Architecture

Les auteurs proposent WVA (Workload Variant Autoscaler), un plan de contrôle spécialisé conçu en synergie avec llmd, un framework d'inférence LLM distribué natif de Kubernetes.

A. Abstraction "Variant" (Variant Abstraction)
WVA introduit le concept de "Variant" comme abstraction de premier ordre. Un Variant est défini par un tuple unique :
Variant = ⟨Hardware, Parallelism, Quantization⟩
Cela permet de traiter le service non pas comme un pool homogène de pods, mais comme un ensemble de configurations matérielles distinctes (ex: Variant A = H100 avec 2 GPU, Variant B = A100 avec 4 GPU).

B. Modèle de Saturation et Boucle de Contrôle
Contrairement à l'HPA qui vise une utilisation cible moyenne (ex: 80% CPU), WVA utilise une approche basée sur la saturation :

Métriques Internes : WVA consomme des métriques fines (utilisation du KV Cache, profondeur de file d'attente) directement depuis le moteur d'inférence.
Seuils de Saturation ( $\tau$ ) : Des seuils critiques sont définis au-delà desquels la latence se dégrade de manière non linéaire.
Gestion de la Marge de Sécurité (Headroom-Based Scaling) : WVA calcule une capacité cible ( $Capacity_{target}$ $C a p a c i t y_{t a r g e t}$ ) qui inclut la charge actuelle plus une marge de sécurité ( $\delta_{safety}$ $δ_{s a f e t y}$ ) déterministe.
- Scaling Up : Déclenché proactivement lorsque la marge de sécurité disponible tombe en dessous d'un seuil, avant que la saturation ne soit atteinte.
- Scaling Down : Autorisé uniquement si la suppression d'un pod ne compromet pas la stabilité globale et si le pod est bien "drainé" (vidé de ses requêtes), évitant ainsi la perte d'état.

C. Optimisation Globale et Hétérogénéité
Le plan de contrôle WVA opère une optimisation globale à l'échelle du cluster :

Tiering Sensible aux Coûts : Le système priorise l'expansion des variants à faible coût (ex: A100) pour le trafic de base. Les variants coûteux et performants (ex: H100) ne sont activés que lorsque les variants économiques sont saturés ou pour absorber des pics soudains.
Sécurité Anti-Fragmentation : Le "Global Optimizer" agrège les signaux de saturation par pod. Il empêche la mise à l'échelle descendante (scale-down) si cela entraînerait une saturation résiduelle sur les nœuds restants, protégeant ainsi les requêtes en cours.

D. Architecture Modulaire
WVA est conçu comme une couche de contrôle extensible avec des interfaces pluggables :

Collecteurs de Métriques : Abstraction pour récupérer les données depuis diverses sources (Prometheus, endpoints locaux).
Optimiseurs : Stratégies de décision interchangeables (ex: optimisation basée sur la saturation, optimisation énergétique).
Réconciliateur : Un contrôleur léger qui synchronise l'état désiré avec Kubernetes sans surcharger l'API server.

3. Contributions Clés

Intégration Verticale Profonde : WVA brise l'abstraction de la "boîte noire" en intégrant directement l'état interne de l'inférence (KV Cache, files d'attente) dans la boucle de décision d'auto-échelle.
Abstraction de Variant : Première approche permettant de gérer nativement des clusters hétérogènes (A100/H100) avec des stratégies de coût et de performance distinctes au sein d'un même service.
Stratégie Proactive de Marge de Sécurité : Remplacement des réactions réactives (basées sur la dérive de l'utilisation) par un calcul prédictif de capacité nécessaire pour maintenir une marge de sécurité ( $\delta$ ), éliminant ainsi les pics de latence.
Architecture Extensible : Conception modulaire (interfaces Go) permettant d'adapter WVA à l'évolution rapide des moteurs d'inférence (vLLM, SGLang) sans modifier le cœur du système.

4. Résultats Expérimentaux

Les évaluations ont été menées via simulation (avec llm-d-inference-sim) et validation sur un cluster physique OpenShift de 200 GPU H100.

Débit Effectif : WVA a démontré une amélioration de 37 % du débit effectif par rapport à l'HPA, en évitant la dégradation due à la mise en file d'attente excessive.
Réduction des Échecs de Requêtes : Une réduction de 10x du taux d'échec des requêtes (request failures) a été observée. WVA évite le rejet des requêtes (HTTP 429/503) grâce à sa marge de sécurité proactive et à sa gestion prudente du scale-down.
Optimisation des Coûts et de l'Énergie : Grâce au tiering sensible aux coûts, WVA utilise préférentiellement les GPU moins chers (A100) pour le trafic de base, réduisant la consommation énergétique globale par rapport à un scaling homogène sur des GPU haut de gamme.
Stabilité de Latence : WVA maintient des latences moyennes (TTFT et ITL) stables et dans les limites des SLO jusqu'à des charges élevées, là où l'HPA commence à saturer et à rejeter le trafic.

5. Signification et Impact

Ce travail marque un changement de paradigme dans l'orchestration de l'IA générative :

Passage de la Gestion des Ressources à la Gestion des SLO : WVA démontre que pour les LLM, l'optimisation ne doit plus se faire sur l'utilisation brute des ressources, mais sur l'état de saturation de l'application et les garanties de service.
Évolutivité Durable : En permettant une utilisation efficace de l'hétérogénéité matérielle et en réduisant le gaspillage énergétique, WVA pose les bases d'une infrastructure IA plus durable et économiquement viable.
Modèle Réutilisable : L'approche de "Deep Vertical Integration" (intégration verticale profonde) proposée ici sert de modèle pour les futurs systèmes de serving d'IA, montrant que les contrôleurs d'orchestration doivent évoluer pour comprendre la sémantique de l'application qu'ils gèrent.

En conclusion, WVA résout le problème fondamental de l'auto-échelle des LLM en combinant une visibilité fine sur l'état du moteur d'inférence avec une optimisation globale des coûts et des performances, surpassant significativement les solutions génériques existantes.