SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

Each language version is independently generated for its own context, not a direct translation.

Hoe je een slimme AI-baas inricht: Een gids voor het verdelen van werk

Stel je voor dat je een enorm drukke postkantoor runt waar je miljoenen brieven moet verwerken. In de wereld van kunstmatige intelligentie (LLM's) is dit wat er gebeurt wanneer mensen vragen stellen aan een slimme chatbot. De "brieven" zijn de vragen (input) en de "antwoorden" zijn de tekst die de AI genereert (output).

Vroeger deed één grote, zware vrachtwagen (de GPU) alles: hij las de vraag, dacht na, en schreef het antwoord. Het probleem? Dit was traag en inefficiënt. Het lezen van de vraag (het prefill-stadium) en het schrijven van het antwoord (het decode-stadium) stonden elkaar in de weg, net als twee vrachtwagens die proberen tegelijk door één smalle tunnel te rijden.

De Oplossing: Twee gespecialiseerde teams
De auteurs van dit paper hebben een slim idee bedacht: splits het werk op.
Stel je nu voor dat je twee aparte teams hebt:

Het "Lees-team" (Prefill): Dit team is supersnel in het snel doorlezen van lange vragen. Ze hebben geen haast met schrijven, maar moeten wel razendsnel zijn.
Het "Schrijf-team" (Decode): Dit team is gespecialiseerd in het langzaam, maar nauwkeurig, typen van het antwoord, woord voor woord.

Dit noemen ze Prefill-Decode Disaggregation. Het is alsof je een fabriek hebt waar de ene machine de grondstoffen verwerkt en de andere de eindproducten in elkaar zet.

Het Grote Probleem: Hoeveel vrachtwagens heb je nodig?
Nu je twee teams hebt, is de vraag: Hoeveel vrachtwagens (computers) moet ik voor elk team huren?

Te weinig lees-team? De klanten wachten te lang op het eerste woord (te trage TTFT).
Te weinig schrijf-team? Het antwoord komt te traag binnen (te trage TPOT).
Te veel vrachtwagens? Je betaalt voor machines die niets doen (verspilling van geld).

De industrie had tot nu toe geen goede manier om dit exact uit te rekenen. Mensen gokten vaak, of keken naar geschatte aantallen.

De Oplossing van de Auteurs: Een recept met theorie en praktijk
De auteurs zeggen: "Wacht even, we kunnen dit precies berekenen!" Ze hebben een nieuwe methode bedacht die twee dingen combineert: wiskunde en proefjes.

De Wiskunde (Het Recept):
Ze kijken naar wat de klant wil:
- Hoeveel vragen per minuut? (De drukte)
- Hoe lang zijn de vragen en antwoorden gemiddeld?
- Hoe snel moet het eerste woord eruit komen? (TTFT)
- Hoe snel moeten de volgende woorden komen? (TPOT)
Het Proefje (De Werkelijkheid):
- Voor het Lees-team: Ze gebruiken een wiskundig model (een soort "wachtrij-theorie", net als in een supermarkt of bij een bank). Ze meten eerst hoe snel het team kan lezen als er geen wachtrij is. Vervolgens berekenen ze: "Als we willen dat de klant binnen 2 seconden het eerste woord krijgt, hoe hard mogen we dan werken zonder dat de wachtrij te lang wordt?" Dit geeft hen het perfecte tempo.
- Voor het Schrijf-team: Hier doen ze simpelweg een test. Ze proberen met verschillende groepsgroottes te typen. Ze kijken: "Hoeveel woorden kunnen we per seconde typen zonder dat het antwoord te traag wordt?" Ze vinden zo het perfecte evenwicht.

Het Resultaat: De perfecte balans
Met deze berekeningen kunnen ze precies zeggen: "Voor jouw specifieke situatie heb je 3 lees-machines en 4 schrijf-machines nodig."

In hun proefje met een echte AI (DeepSeek) bleek dit werkt.

Met hun berekening (3 lees + 4 schrijf) haalden ze precies het gewenste tempo en waren de kosten optimaal.
Als ze een verkeerde verhouding hadden gekozen (bijvoorbeeld 3 lees + 3 schrijf), zouden ze veel minder vragen per minuut kunnen afhandelen, terwijl ze toch evenveel geld hadden uitgegeven.

Kortom:
Dit paper is als een slimme bouwkundige die voor een drukke fabriek precies uitrekent hoeveel arbeiders er in elke afdeling nodig zijn. Het zorgt ervoor dat de fabriek niet vastloopt door wachtrijen, maar ook niet stil staat door te veel mensen die niets te doen hebben. Het is de sleutel tot het maken van snelle, goedkope en betrouwbare AI-chatbots.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference" in het Nederlands.

Probleemstelling

De opkomst van Large Language Models (LLM's) heeft geleid tot een enorme vraag naar inferentie-diensten. Traditionele implementaties verwerken de prefill-fase (input-verwerking) en de decode-fase (output-generatie) op dezelfde GPU-resources. Dit leidt tot interferentie tussen de twee fasen, wat het moeilijk maakt om tegelijkertijd optimale prestaties te behalen voor zowel Time-To-First-Token (TTFT) als Time-Per-Output-Token (TPOT).

Om dit op te lossen, wordt Prefill-Decode (P/D) disaggregatie steeds vaker toegepast, waarbij deze fasen worden ontkoppeld en op gescheiden hardware worden uitgevoerd. Hoewel frameworks zoals vLLM en SGLang dit mogelijk maken, ontbreekt er een gevestigde methodologie om de optimale verhouding en het aantal hardware-resources (GPU's) voor prefill en decode te bepalen.

Een verkeerde verdeling leidt tot onderbenutting van resources of het niet halen van Service Level Objectives (SLO's).
Bestaande tools (zoals NVIDIA's AIConfigurator) gebruiken zoekalgoritmen voor specifieke instellingen, maar bieden geen algemene, nauwkeurige methode om het totale aantal resources te berekenen op basis van doorvoer (throughput) en SLO-eisen.

Methodologie

De auteurs stellen een hybride aanpak voor die theoretische modellering combineert met empirische benchmarks om de optimale P/D-resource-allocation te bepalen. De methode bestaat uit drie hoofdstappen:

1. Theoretisch Model voor Resource-berekening

De auteurs leiden formules af om het aantal prefill- ( $N_{prefill}$ ) en decode- ( $N_{decode}$ ) instanties te berekenen op basis van:

De totale vereiste doorvoer ( $TP_{total}$ ).
De gemiddelde invoer- ( $L_{in}$ ) en uitvoerlengte ( $L_{out}$ ) per verzoek.
De haalbare doorvoer van individuele prefill- en decode-instanties ( $TP_{prefill}$ en $TP_{decode}$ ).

De kernformule voor de verhouding tussen prefill en decode is:
$R_{P/D} = \frac{L_{in} \times TP_{decode}}{L_{out} \times TP_{prefill}}$
Om deze formules te gebruiken, moet eerst de daadwerkelijke doorvoer onder SLO-beperkingen worden bepaald.

2. Bepalen van Prefill-doorvoer onder TTFT-beperkingen

Voor de prefill-fase gebruiken de auteurs M/M/1 wachtrijtheorie om de relatie tussen de vereiste TTFT en de werkelijke doorvoer te modelleren.

Maximale doorvoer: Eerst wordt de maximale prefill-doorvoer ( $\tilde{TP}_{prefill}$ ) gemeten zonder idle-tijd.
Wachtrijmodel: Het verzoekproces wordt gemodelleerd als een M/M/1-wachtrij. De service-rate ( $\mu$ ) wordt afgeleid van de maximale doorvoer en de invoerlengte.
Formule: De werkelijke doorvoer ( $TP_{prefill}$ ) die voldoet aan een specifieke TTFT-doelstelling wordt berekend als:
$TP_{prefill} = \tilde{TP}_{prefill} - \frac{L_{in}}{TTFT - T_{overhead}}$
Waarbij $T_{overhead}$ de transmissietijd van KV-cache en netwerkvertraging omvat. Dit model toont aan dat strengere TTFT-eisen leiden tot lagere effectieve doorvoer.

3. Bepalen van Decode-doorvoer onder TPOT-beperkingen

Voor de decode-fase wordt een empirische benadering gebruikt.

Er wordt een curve gemeten van TPOT en doorvoer in relatie tot de batchgrootte.
Omdat een grotere batchgrootte de doorvoer verhoogt maar ook de TPOT (latency) verhoogt, wordt de maximale batchgrootte bepaald die nog voldoet aan de TPOT-SLO.
De bijbehorende doorvoer wordt vervolgens berekend als: $\text{Batchgrootte} / \text{TPOT}$ .

Belangrijkste Bijdragen

Theoretisch Model: Een formule om het aantal P/D-instanties te berekenen op basis van totale doorvoer, SLO's, request-lengtes en haalbare doorvoer.
M/M/1 Modellering voor Prefill: Een innovatieve toepassing van wachtrijtheorie om de effectieve prefill-doorvoer af te leiden vanuit TTFT-eisen en maximale benchmarks.
Empirische Decode-analyse: Een methode om de optimale decode-batchgrootte en bijbehorende doorvoer te bepalen op basis van TPOT-constraints zonder complexe runtime-loganalyse.
Validatie: Bewijs dat deze methode nauwkeurige voorspellingen doet voor resource-allocation in real-world scenario's, wat leidt tot kostenbesparing en SLO-compliance.

Resultaten en Evaluatie

De methode werd getest in een realistisch scenario met het DeepSeek-V3.1-Terminus model op NVIDIA H200 GPU's:

Vereisten: 5 miljoen tokens per minuut (M TPM), TTFT $\le$ 2s, TPOT $\le$ 20ms, gemiddelde invoer 6144 tokens, uitvoer 512 tokens.
Berekening:
- De berekende verhouding P:D was 0.82:1.
- Het model adviseerde een deploy van 3 Prefill-instanties en 4 Decode-instanties (3P4D).
Validatie:
- De 3P4D-configuratie haalde de SLO's (2s TTFT en 20ms TPOT) bij een doorvoer van ongeveer 4,8 M TPM, wat zeer dicht bij het doel van 5 M TPM ligt.
- Ter vergelijking: Een 3P3D-configuratie haalde de SLO's slechts bij 3,6 M TPM (beperkt door TPOT).
- De efficiëntie per node was bij 3P4D 0,69 M TPM versus 0,6 M TPM bij 3P3D.

De resultaten tonen aan dat de voorgestelde methode een uitgebalanceerde verdeling biedt die de totale doorvoer maximaliseert zonder SLO's te schenden.

Betekenis en Toekomstperspectief

Dit artikel vult een kritieke lacune in de operationalisering van LLM-inferentie. Het biedt systembeheerders een wiskundig onderbouwde, maar praktisch toepasbare tool om hardware-capaciteit precies af te stemmen op de verwachte werklast en SLO-eisen.

Efficiëntie: Voorkomt overprovisioning (kostenbesparing) en underprovisioning (SLO-schending).
Toekomst: De auteurs suggereren dat deze methode kan worden geïntegreerd met bestaande configuratietools (zoals AIConfigurator) en kan worden uitgebreid naar multimodale systemen met drie gescheiden componenten (bijv. EPD-disaggregatie).

Kortom, de paper levert een essentiële blauwdruk voor het schalen van disaggregeerde LLM-systemen in productieomgevingen.

SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

Probleemstelling

Methodologie

1. Theoretisch Model voor Resource-berekening

2. Bepalen van Prefill-doorvoer onder TTFT-beperkingen

3. Bepalen van Decode-doorvoer onder TPOT-beperkingen

Belangrijkste Bijdragen

Resultaten en Evaluatie

Betekenis en Toekomstperspectief

Meer zoals dit

Hybrid Approximate Message Passing

Zero-Noise Limit for High-Dimensional ODE with Measurable Drift

The spanning method and the Lehmer totient problem

P-adic L-functions for GL(3)

On quotients of bounded homogeneous domains by unipotent discrete groups