DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Ein ungleisches Paar im Restaurant

Stellen Sie sich vor, Sie betreiben ein sehr beliebtes Restaurant, in dem Gäste (die KI-Anfragen) kommen, um komplexe Gerichte (die Antworten einer KI) zu bestellen.

In der Welt der modernen KI gibt es zwei Hauptaufgaben:

Das Verstehen (Prefill): Der Kellner liest die Bestellung genau durch, versteht den Kontext und bereitet die Zutaten vor. Das ist reine Denkarbeit (viel Rechenleistung nötig).
Das Servieren (Decoding): Der Kellner bringt das Essen Stück für Stück an den Tisch. Das ist speicherintensiv (man muss viele Teller und Gläser bereitstellen).

Früher machten einzelne Kellner beides: Sie lasen die Bestellung und servierten gleichzeitig. Das führte zu Chaos: Wenn ein Kellner mit einer riesigen, komplizierten Bestellung beschäftigt war, mussten alle anderen Gäste warten, auch wenn sie nur ein Glas Wasser wollten.

Die Lösung "PD-Disaggregation" (wie bei DistServe oder vLLM):
Man trennte die Küche in zwei Bereiche:

Kellner A (Prefill): Nur für das Verstehen der Bestellung zuständig.
Kellner B (Decoding): Nur für das Servieren zuständig.

Das klingt toll, aber hier liegt das Problem: Die Arbeitslast ist ungleich.
Manchmal kommen 100 Gäste, die nur ein kurzes "Hallo" wollen (kurze Anfragen). Dann sind die "Versteh-Kellner" im Überfluss vorhanden, aber die "Servier-Kellner" sind überlastet.
Andere Male kommen Gäste mit einem 50-seitigen Roman als Bestellung (lange Anfragen). Dann sind die "Versteh-Kellner" überlastet, während die "Servier-Kellner" nur auf ihre Teller warten.

Wenn man die Anzahl der Kellner statisch festlegt (z. B. immer 5 Versteh-Kellner und 5 Servier-Kellner), entsteht entweder Leerlauf (Geldverschwendung) oder Staus (langsame Antworten für die Kunden).

Die Lösung: DOPD – Der intelligente Restaurant-Manager

Die Forscher haben DOPD entwickelt. Man kann sich DOPD wie einen super-intelligenten Restaurantmanager vorstellen, der zwei Dinge perfekt macht:

1. Der Wettervorhersager (Dynamische Anpassung)

Statt die Anzahl der Kellner starr festzulegen, schaut sich DOPD die Verlaufshistorie an.

Die Analogie: Stellen Sie sich vor, der Manager hat eine Wettervorhersage. Er weiß: "In 10 Minuten kommen viele Leute mit kurzen Bestellungen." Also stellt er sofort mehr "Servier-Kellner" ein und weniger "Versteh-Kellner".
In der Technik: DOPD nutzt mathematische Modelle (ARIMA), um vorherzusagen, wie viele Anfragen kommen und wie lang sie sein werden. Es passt die Anzahl der GPU-Server (die Kellner) in Echtzeit an, genau wie man im Restaurant mehr Personal einsetzt, wenn es voll wird.

2. Der clevere Teller-Verteiler (Intelligentes Scheduling)

Manchmal kommen gemischte Bestellungen: Ein Gast will einen ganzen Roman, der nächste nur ein Wort.

Das Problem: Wenn man den "Wort-Gast" zwingt, auf den "Roman-Gast" zu warten, damit sie zusammen bedient werden, dauert es ewig.
Die DOPD-Lösung: Der Manager ist aufmerksam auf die Länge.
- Kurze Bestellungen: Er lässt sie sofort durch, ohne sie in eine lange Warteschlange zu stecken.
- Lange Bestellungen: Er packt sie geschickt zusammen, damit die "Versteh-Kellner" effizient arbeiten.
- Die Magie: Er verhindert, dass kurze Anfragen durch lange blockiert werden. Er sorgt dafür, dass jeder Kellner genau das tut, wofür er am besten geeignet ist, und keine Zeit mit Warten verliert.

Warum ist das so wichtig? (Die Ergebnisse)

Durch diesen Ansatz erreicht DOPD Wunder im Vergleich zu den alten Methoden:

Mehr Leistung für weniger Geld: Das Restaurant schafft es, mit 1,5-mal mehr Gästen gleichzeitig zu bedienen, ohne neue Kellner einzustellen. Das bedeutet: Weniger teure Grafikkarten (GPUs) werden verschwendet.
Schnellere Antworten: Die Zeit, bis der erste Bissen serviert wird (TTFT), ist um bis zu 67 % kürzer. Für den Nutzer fühlt sich die KI viel schneller an.
Zuverlässigkeit: Fast 99 % der Kunden bekommen ihre Bestellung pünktlich (SLO-Einhaltung). Bei alten Systemen waren es oft nur 80 %, was bedeutet, dass viele Kunden frustriert warteten.

Zusammenfassung in einem Satz

DOPD ist wie ein unsichtbarer Dirigent für ein KI-Orchester, der genau weiß, wann mehr Geiger (Versteh-Kellner) und wann mehr Cellisten (Servier-Kellner) benötigt werden, damit die Musik (die KI-Antworten) immer flüssig, schnell und ohne Störungen spielt – egal, ob das Publikum leise flüstert oder laut schreit.

Dieses System macht KI-Dienste nicht nur schneller und günstiger, sondern auch stabiler, was entscheidend ist, wenn KI bald in jedem Smartphone und jeder App zu finden sein wird.

DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

Das Problem: Ein ungleisches Paar im Restaurant

Die Lösung: DOPD – Der intelligente Restaurant-Manager

1. Der Wettervorhersager (Dynamische Anpassung)

2. Der clevere Teller-Verteiler (Intelligentes Scheduling)

Warum ist das so wichtig? (Die Ergebnisse)

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: DOPD (Dynamic Optimal Prefill/Decoding)

A. Systemmodell und Optimalitätsberechnung

B. Intelligente Request-Scheduling-Strategie

C. Dynamische Skalierung (Elastic Scaling)

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

Das Problem: Ein ungleisches Paar im Restaurant

Die Lösung: DOPD – Der intelligente Restaurant-Manager

1. Der Wettervorhersager (Dynamische Anpassung)

2. Der clevere Teller-Verteiler (Intelligentes Scheduling)

Warum ist das so wichtig? (Die Ergebnisse)

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: DOPD (Dynamic Optimal Prefill/Decoding)

A. Systemmodell und Optimalitätsberechnung

B. Intelligente Request-Scheduling-Strategie

C. Dynamische Skalierung (Elastic Scaling)

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers