WVA: A Global Optimization Control Plane for llmd

Dit paper introduceert WVA, een gespecialiseerd besturingsvlak dat nauw samenwerkt met \texttt{llmd} om schaalingsbeslissingen te koppelen aan de interne verzadigingsstatus van de inferentieserver, wat resulteert in een 37% hogere effectieve doorvoer, een 10-voudige reductie in request-falen en lagere energiekosten door gebruik te maken van heterogene hardware.

Abhishek Malvankar, Lionel Villard, Mohammed Abdi, Evgeny Shindin, Braulio Dumba, Vishakha Ramani, Asser Tantawi, Tamar Eilam

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorm drukke telefooncentrale runt voor een superpopulair AI-systeem (een "Large Language Model" of LLM). Mensen bellen continu om vragen te stellen, van simpele "hallo" tot complexe verhalen.

Deze telefooncentrale heeft een groot probleem: de huidige manier van werken is als een domme automaat die alleen telt hoeveel telefoontjes er binnenkomen, zonder te kijken of de lijnen echt vol zitten of of de operators moe zijn.

Hier is wat dit paper (WVA) voorstelt, vertaald naar een simpel verhaal:

1. Het Probleem: De Domme Automaat (HPA)

Vroeger (en nu nog vaak) gebruikten bedrijven een standaard systeem (genoemd HPA) om te beslissen of ze meer telefoonoperators nodig hebben.

  • Hoe het werkt: Deze automaat kijkt alleen naar het gemiddelde aantal telefoontjes. Als het gemiddelde te hoog wordt, schakelt hij snel nieuwe operators in. Als het rustig is, zet hij ze uit.
  • Het nadeel: Deze automaat ziet niet wat er echt gebeurt.
    • Soms zijn de operators al aan het werk met een heel lang gesprek (een "KV-cache" vol), maar de automaat denkt: "Oh, het gemiddelde is nog oké," en schakelt niemand bij. Resultaat? Mensen wachten lang in de wachtrij.
    • Soms schakelt hij operators uit terwijl ze nog een gesprek aan het afronden zijn. Resultaat? Gesprekken worden plotseling afgebroken.
    • Hij maakt ook geen onderscheid tussen dure en goedkope operators. Hij schakelt altijd de duurste, snelste operators in, zelfs als een goedkopere dat ook prima zou doen.

2. De Oplossing: De Slimme Manager (WVA)

De auteurs van dit paper hebben WVA bedacht. Dit is geen domme automaat, maar een slimme manager die precies weet wat er in de telefooncentrale gebeurt.

WVA werkt met drie slimme trucs:

A. De "Ruimte in de Wachtkamer" (Headroom)

Stel je voor dat je wachtkamer 10 stoelen heeft.

  • De oude manier: Wacht tot er 9 mensen zitten, en pas dan een nieuwe wachtkamer openen. Dan is de 10e persoon al aan het wachten.
  • De WVA-methode: WVA kijkt naar de stoelen en zegt: "We hebben ruimte voor 10 mensen, maar we willen altijd 3 lege stoelen overhouden voor onverwachte gasten." Zodra er 7 mensen zitten, schakelt hij direct een nieuwe wachtkamer in.
  • Het resultaat: Niemand hoeft te wachten. De service blijft soepel, zelfs als er plotseling een drukte ontstaat.

B. De Slimme Mix van Operators (Heterogeneity)

Stel je hebt twee soorten operators:

  1. De "Gouden" operators: Super snel, maar heel duur en verbruiken veel stroom (zoals de nieuwe H100-chips).
  2. De "Zilveren" operators: Iets langzamer, maar veel goedkoper en zuiniger (zoals de oudere A100-chips).

De oude automaat schakelt altijd de "Gouden" operators in, omdat die het snelst lijken.
WVA doet het slim:

  • Bij normaal verkeer gebruikt hij eerst de goedkope "Zilveren" operators.
  • Pas als die echt vol zitten en de "Gouden" operators nodig zijn voor de piekmomenten, schakelt hij die bij.
  • Het resultaat: Je bespaart enorm veel geld en stroom, omdat je niet altijd je duurste apparatuur gebruikt.

C. Geen "Halverwege" Afbreken (Fragmentation-Aware)

Soms is de telefooncentrale niet overal even druk. De ene operator heeft 5 gesprekken, de andere 0.

  • De oude manier: Kijkt naar het gemiddelde (2,5 gesprekken) en zegt: "We hebben te veel operators, zet er eentje uit." Maar hij kiest willekeurig en zet misschien juist die operator uit die nog 5 gesprekken aan het afronden heeft. Dat is rampzalig.
  • De WVA-methode: WVA kijkt naar elke operator individueel. Hij zegt: "Die ene operator is helemaal leeg en klaar om weg te gaan. Die andere zit vol. We schakelen alleen de lege uit."
  • Het resultaat: Geen onderbroken gesprekken en geen data-verlies.

3. Wat leverde dit op?

In hun tests (met echte computers en simulaties) zagen ze dat WVA veel beter werkt dan de oude systemen:

  • 37% meer gesprekken per uur konden worden afgehandeld zonder dat mensen moesten wachten.
  • 10 keer minder gesprekken werden afgebroken of mislukt.
  • Minder kosten en stroom, omdat ze slimme keuzes maakten tussen dure en goedkope hardware.

Samenvattend

WVA is als het verschil tussen een stuurman die blindelings op de snelheidsmeter kijkt (de oude manier) en een stuurman die ook uitkijkt over de horizon, de wind voelt en slim schakelt tussen een dure en een goedkope motor (WVA).

Het zorgt ervoor dat de AI-diensten die we dagelijks gebruiken (zoals chatbots) sneller reageren, minder vaak vastlopen en goedkoper te draaien zijn voor de bedrijven die ze aanbieden.