WVA: A Global Optimization Control Plane for llmd

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorm drukke telefooncentrale runt voor een superpopulair AI-systeem (een "Large Language Model" of LLM). Mensen bellen continu om vragen te stellen, van simpele "hallo" tot complexe verhalen.

Deze telefooncentrale heeft een groot probleem: de huidige manier van werken is als een domme automaat die alleen telt hoeveel telefoontjes er binnenkomen, zonder te kijken of de lijnen echt vol zitten of of de operators moe zijn.

Hier is wat dit paper (WVA) voorstelt, vertaald naar een simpel verhaal:

1. Het Probleem: De Domme Automaat (HPA)

Vroeger (en nu nog vaak) gebruikten bedrijven een standaard systeem (genoemd HPA) om te beslissen of ze meer telefoonoperators nodig hebben.

Hoe het werkt: Deze automaat kijkt alleen naar het gemiddelde aantal telefoontjes. Als het gemiddelde te hoog wordt, schakelt hij snel nieuwe operators in. Als het rustig is, zet hij ze uit.
Het nadeel: Deze automaat ziet niet wat er echt gebeurt.
- Soms zijn de operators al aan het werk met een heel lang gesprek (een "KV-cache" vol), maar de automaat denkt: "Oh, het gemiddelde is nog oké," en schakelt niemand bij. Resultaat? Mensen wachten lang in de wachtrij.
- Soms schakelt hij operators uit terwijl ze nog een gesprek aan het afronden zijn. Resultaat? Gesprekken worden plotseling afgebroken.
- Hij maakt ook geen onderscheid tussen dure en goedkope operators. Hij schakelt altijd de duurste, snelste operators in, zelfs als een goedkopere dat ook prima zou doen.

2. De Oplossing: De Slimme Manager (WVA)

De auteurs van dit paper hebben WVA bedacht. Dit is geen domme automaat, maar een slimme manager die precies weet wat er in de telefooncentrale gebeurt.

WVA werkt met drie slimme trucs:

A. De "Ruimte in de Wachtkamer" (Headroom)

Stel je voor dat je wachtkamer 10 stoelen heeft.

De oude manier: Wacht tot er 9 mensen zitten, en pas dan een nieuwe wachtkamer openen. Dan is de 10e persoon al aan het wachten.
De WVA-methode: WVA kijkt naar de stoelen en zegt: "We hebben ruimte voor 10 mensen, maar we willen altijd 3 lege stoelen overhouden voor onverwachte gasten." Zodra er 7 mensen zitten, schakelt hij direct een nieuwe wachtkamer in.
Het resultaat: Niemand hoeft te wachten. De service blijft soepel, zelfs als er plotseling een drukte ontstaat.

B. De Slimme Mix van Operators (Heterogeneity)

Stel je hebt twee soorten operators:

De "Gouden" operators: Super snel, maar heel duur en verbruiken veel stroom (zoals de nieuwe H100-chips).
De "Zilveren" operators: Iets langzamer, maar veel goedkoper en zuiniger (zoals de oudere A100-chips).

De oude automaat schakelt altijd de "Gouden" operators in, omdat die het snelst lijken.
WVA doet het slim:

Bij normaal verkeer gebruikt hij eerst de goedkope "Zilveren" operators.
Pas als die echt vol zitten en de "Gouden" operators nodig zijn voor de piekmomenten, schakelt hij die bij.
Het resultaat: Je bespaart enorm veel geld en stroom, omdat je niet altijd je duurste apparatuur gebruikt.

C. Geen "Halverwege" Afbreken (Fragmentation-Aware)

Soms is de telefooncentrale niet overal even druk. De ene operator heeft 5 gesprekken, de andere 0.

De oude manier: Kijkt naar het gemiddelde (2,5 gesprekken) en zegt: "We hebben te veel operators, zet er eentje uit." Maar hij kiest willekeurig en zet misschien juist die operator uit die nog 5 gesprekken aan het afronden heeft. Dat is rampzalig.
De WVA-methode: WVA kijkt naar elke operator individueel. Hij zegt: "Die ene operator is helemaal leeg en klaar om weg te gaan. Die andere zit vol. We schakelen alleen de lege uit."
Het resultaat: Geen onderbroken gesprekken en geen data-verlies.

3. Wat leverde dit op?

In hun tests (met echte computers en simulaties) zagen ze dat WVA veel beter werkt dan de oude systemen:

37% meer gesprekken per uur konden worden afgehandeld zonder dat mensen moesten wachten.
10 keer minder gesprekken werden afgebroken of mislukt.
Minder kosten en stroom, omdat ze slimme keuzes maakten tussen dure en goedkope hardware.

Samenvattend

WVA is als het verschil tussen een stuurman die blindelings op de snelheidsmeter kijkt (de oude manier) en een stuurman die ook uitkijkt over de horizon, de wind voelt en slim schakelt tussen een dure en een goedkope motor (WVA).

Het zorgt ervoor dat de AI-diensten die we dagelijks gebruiken (zoals chatbots) sneller reageren, minder vaak vastlopen en goedkoper te draaien zijn voor de bedrijven die ze aanbieden.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "WVA: A Global Optimization Control Plane for llmd" in het Nederlands.

Titel: WVA: Een Global Optimization Control Plane voor llmd

Auteurs: Abhishek Malvankar et al. (IBM Research)

1. Het Probleem

De kosten voor het infereren van Large Language Models (LLMs) vormen een kritieke bottleneck voor de AI-industrie. In tegenstelling tot traditionele stateless microservices, is LLM-inferentie een stateful en geheugen-gebonden proces. De prestaties worden beperkt door de capaciteit van het High-Bandwidth Memory (HBM) voor Key-Value (KV) caches, wat sterk varieert afhankelijk van de invoercontext en decodeerparameters.

Bestaande oplossingen, zoals de Kubernetes Horizontal Pod Autoscaler (HPA), zijn ontoereikend voor deze nieuwe realiteit vanwege drie hoofdproblemen:

Black-box benadering: HPA optimaliseert op generieke resource-metrics (zoals CPU-gebruik op 80%) en ziet de inferentie-engine als een black box. Het mist applicatie-specifieke signalen zoals KV-cache-fragmentatie of wachtrijdiepte.
Gebrek aan heterogeniteitsbewustzijn: HPA behandelt alle pods als identieke, uitwisselbare eenheden. Het maakt geen onderscheid tussen dure, krachtige hardware (bijv. NVIDIA H100) en goedkopere, energiezuinigere opties (bijv. NVIDIA A100), wat leidt tot inefficiëntie en hoge kosten.
Stateful inferentie verstoring: HPA's schaal-down logica is "agnostisch" en kan replicas verwijderen die nog steeds actief zijn met verzadigde KV-caches. Dit leidt tot request failures en onderbrekingen van stateful inferentie.

Dit resulteert in onnodig schalen, ernstige resource-onderrbenutting, en verstoorde inferentieprocessen.

2. Methodologie: De Workload Variant Autoscaler (WVA)

WVA is een gespecialiseerde control plane die is ontworpen in nauwe samenwerking met llmd (een Kubernetes-native framework voor gedistribueerde LLM-inferentie). Het lost de bovengenoemde problemen op door schaalbeslissingen te koppelen aan de interne verzadigingsstatus van de server.

Kernconcepten:

Variant Abstraktie: WVA introduceert het concept van een "Variant" als een eerste-class entiteit. Een variant is een tuple van (Hardware, Parallelism, Quantization). Dit stelt het systeem in staat om verschillende hardware-configuraties (bijv. A100 vs. H100) en parallelismen onafhankelijk te evalueren op kosten en prestaties, in plaats van ze als een homogene pool te behandelen.
Verzadigingsmodel (Saturation Model): In plaats van te vertrouwen op gemiddelde resource-gebruik, gebruikt WVA granulaire metrics zoals kv_cache_usage en queue_length.
- Er worden harde drempelwaarden ( $\tau$ ) gedefinieerd voor deze metrics.
- Het systeem identificeert "verzadigde" replicas en berekent de gemiddelde spare capacity ( $\delta_{avg}$ ) over de niet-verzadigde set.
Global Optimization Framework:
- Headroom-based Scaling: WVA berekent proactief de benodigde capaciteit om een veiligheidsmarge ( $\delta_{safety}$ ) te behouden. De doelcapaciteit wordt berekend als: $Capacity_{target} = Load_{current} + \delta_{safety}$ . Dit voorkomt dat het systeem reageert nadat de wachtrijen al zijn verzadigd.
- Fragmentation-aware Scale-down: Schaal-down wordt alleen toegestaan als er voldoende niet-verzadigde replicas overblijven om de cluster-stabiliteit te garanderen. Dit voorkomt dat replicas worden verwijderd terwijl lokale KV-caches nog vol zitten, wat request failures zou veroorzaken.
- Kostenbewuste Tiering: De optimizer prioriteert goedkopere hardware (A100) voor basisverkeer en schakelt pas over naar duurdere hardware (H100) wanneer de goedkopere opties verzadigd zijn of bij pieken.

Architectuur:

WVA is ontworpen als een modulaire, plugbare control plane met de volgende componenten:

Collectors: Haalt metrics op van de inferentie-engine (bijv. vLLM) en de scheduler.
Model Analyzer: Detecteert lokale verzadiging en berekent het ideale aantal GPUs.
Global Optimizer: Lost een optimalisatieprobleem op om de verdeling van replicas over verschillende varianten te bepalen, rekening houdend met cluster-beperkingen en kosten.
Reconciler: Past de gewenste staat toe op Kubernetes (via HPA) zonder de API-server te overbelasten met frequente statusupdates.

3. Belangrijkste Bijdragen

Deep Vertical Integration: WVA koppelt de autoscaler direct aan de interne staat van de inferentie-engine (KV-cache, wachtrijen), wat een "white-box" aanpak mogelijk maakt in plaats van de gebruikelijke "black-box".
Variant Abstraktie: Het introduceert een Kubernetes-native manier om heterogene hardware en configuraties als "Variants" te beheren, wat kostenbewuste schaling mogelijk maakt.
Proactieve Headroom-beheer: Door te schalen op basis van een berekende veiligheidsmarge in plaats van reactief op pieken, worden latency-degradaties voorkomen.
Fragmentation-aware Schaal-down: Een veiligheidsmechanisme dat request failures door premature schaal-down voorkomt in stateful omgevingen.

4. Resultaten

De auteurs hebben WVA geëvalueerd in zowel een gesimuleerde omgeving (met llm-d-inference-sim) als op een fysiek cluster met 200 NVIDIA H100 GPU's. De resultaten worden vergeleken met de standaard Kubernetes HPA.

Doorvoer (Throughput): WVA bereikte een 37% verbetering in effectieve doorvoer vergeleken met HPA. Dit komt doordat WVA proactief capaciteit toevoegt voordat de buffers verzadigen, terwijl HPA reageert nadat de wachtrijen al zijn opgebouwd.
Request Failures: Er was een 10-voudige reductie in request failures (drops) bij WVA. HPA leidde tot frequente afwijzingen (HTTP 429/503) door verzadiging en instabiele schaal-down acties.
Kosten en Energie: Door prioriteit te geven aan goedkopere hardware (A100) voor basisverkeer, reduceert WVA de totale stroomconsumptie en vermijdt het het activeren van dure accelerators wanneer ze niet nodig zijn.
Latentie: WVA behield stabiele Time To First Token (TTFT) en Inter-Token Latency (ITL) tot aan de verzadigingsgrens, terwijl HPA bij pieken te maken kreeg met significante latency-schommelingen door wachtrijvertraging.

5. Betekenis en Toekomstperspectief

Dit werk markeert een verschuiving van resource-gedreven schaling naar SLO-gedreven en heterogeniteitsbewuste schaling voor AI-werkbelastingen.

Significantie: Het bewijst dat traditionele cloud-native tools (zoals HPA) niet voldoende zijn voor stateful, geheugen-gebonden AI-werkbelastingen. WVA biedt een bewezen architectuur die kosten, energie en prestaties optimaliseert door diepe integratie met de applicatie.
Toekomst: De auteurs plannen om de proactiviteit te verbeteren door voorspellende modellen (zoals LSTM of Transformers) te integreren om verkeer te anticiperen. Daarnaast wordt er gewerkt aan energiebewuste optimalisatie (carbon-intensity signals) en verdere scheiding van schaalstrategieën voor de prefill- en decode-fasen van LLM-inferentie.

Kortom, WVA legt de basis voor een duurzame en efficiënte AI-infrastructuur die in staat is om de complexe eisen van moderne LLM-diensten te hanteren.