ProServe: Unified Multi-Priority Request Scheduling for LLM Serving

ProServe ist ein vereinheitlichtes zweistufiges Scheduling-Framework, das den Gesamtnutzen des Service durch die gemeinsame Optimierung der SLO-Einhaltung und klientenspezifischer Prioritäten mittels dynamischer Batch-Bildung, effizienter Blockverwaltung und gewinnorientierter Request-Verteilung maximiert.

Ursprüngliche Autoren: Weizhe Huang, Tao Peng, Tongxuan Liu, Donghe Jin, Kang Meng, Xianzhe Dong, Ke Zhang

Veröffentlicht 2026-06-15
📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Weizhe Huang, Tao Peng, Tongxuan Liu, Donghe Jin, Kang Meng, Xianzhe Dong, Ke Zhang

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich eine geschäftige Restaurantküche vor, die von einem Large Language Model (LLM) betrieben wird. In dieser Küche bereiten Köche (die Computerprozessoren) ständig Antworten für Tausende von Kunden gleichzeitig zu.

Das Problem, das die Arbeit adressiert, ist, dass nicht alle Kunden gleich sind. Es gibt VIPs (geschäftskritische Kunden), die extra bezahlen, damit ihr Essen sofort eintrifft. Und es gibt reguläre Kunden. Zudem sind manche Bestellungen einfach (ein schnelles Toastbrot), während andere komplex sind (ein Fünf-Gänge-Menü).

Bestehende Küchenmanager (Scheduling-Systeme) waren schlecht darin, diesen Mix zu handhaben. Sie behandeln entweder alle exakt gleich (was dazu führt, dass VIPs zu lange warten müssen) oder sie schauen nur darauf, wer zuerst bestellt hat (was die Küche ineffizient macht).

ProServe ist ein neuer, superintelligenter Küchenmanager, der genau dies lösen soll. So funktioniert er, unterteilt in einfache Teile:

1. Das Ziel: Maximierung der „Glückspunkte“

Anstatt nur zu versuchen, Bestellungen so schnell wie möglich fertigzustellen, versucht ProServe, den „Service Gain“ zu maximieren.

  • Die Analogie: Stellen Sie sich vor, jeder Kunde hat einen „Glücksmesser“.
    • Wenn ein VIP sein Essen rechtzeitig bekommt, schenkt er dem Restaurant 10 Glückspunkte.
    • Wenn ein regulärer Kunde sein Essen rechtzeitig bekommt, schenkt er 5 Punkte.
    • Wenn das Essen eines VIPs zu spät kommt, gibt er 0 Punkte (und hinterlässt vielleicht eine schlechte Bewertung).
  • Die Behauptung der Arbeit: Das Ziel des Systems ist nicht nur Schnelligkeit; es geht darum, die Reihenfolge des Kochens so zu arrangieren, dass die höchste Gesamtzahl an Glückspunkten von allen Beteiligten kombiniert wird. Es wertet die Zeit des VIPs mehr als die des Regulären, versucht aber dennoch, die Regulären zufrieden genug zu halten, um im Spiel zu bleiben.

2. Der lokale Manager: „SlideBatching“ (Die smarte Aufstellung)

Innerhalb der Küche befindet sich eine Schlange von Bestellungen, die darauf warten, gekocht zu werden. Ein normaler Manager würde vielleicht einfach sagen: „Wer zuerst kommt, mahlt zuerst.“ ProServices lokaler Manager nutzt eine Sliding Window-Strategie (Gleitendes Fenster).

  • Die Analogie: Stellen Sie sich vor, die Warteschlange der Kunden befindet sich auf einem Laufband.
    • Wenn die Küche langsam ist (Niedrige Auslastung): Lässt der Manager alle in der Schlange in einer entspannten Reihenfolge kochen. Jeder bekommt sein Essen.
    • Wenn die Küche überrannt ist (Hohe Auslastung): Schaut der Manager auf das Laufband und sieht, dass einige Kunden kurz davor sind, ihre „Hunger-Deadline“ zu verpassen.
    • Das Gleiten: Der Manager verschiebt eine Grenze. Jeder vor der Linie wird als „dringend“ markiert. Der Manager priorisiert diese dringenden Kunden. Aber hier ist der Trick: Unter den Dringenden wählt er nicht einfach blind die VIPs aus. Er wählt diejenigen, die „dicht“ sind (kurz und schnell zu kochen), um die Schlange schnell abzuarbeiten, während er gleichzeitig sicherstellt, dass die VIPs bedient werden, bevor ihre Zeit abläuft.
  • Die Behauptung der Arbeit: Dieses dynamische Verschieben ermöglicht es dem System, plötzliche Verkehrsspitzen zu bewältigen, ohne dass jemand hungern muss oder seine Fristen versäumt, wodurch die gesamte „Glückspunkte“-Summe maximiert wird.

3. Der Speicher-Manager: „Async Offloading“ (Das Förderband)

Manchmal geht in der Küche der Platz auf der Arbeitsplatte aus (GPU-Speicher). Wenn dies passiert, muss die Küche einige Zutaten in ein Lagerhaus (Host-Speicher) auslagern, um Platz für neue Bestellungen zu schaffen.

  • Die Analogie: Normalerweise muss man, wenn man Zutaten in das Lagerhaus bewegt, den Kochvorgang stoppen und warten, bis ein Läufer sie zurückbringt. Das stoppt die gesamte Küche.
  • Die Lösung von ProServe: Es nutzt ein pipelined Förderband.
    • Während die Köche die aktuelle Schicht eines Gerichts kochen, holt ein Läufer gleichzeitig die Zutaten für die nächste Schicht aus dem Lagerhaus.
    • Es verfügt außerdem über ein „Copy-Budget“. Es bewegt nur so viel, wie es bewältigen kann, ohne die Köche auszubremsen. Wenn die Küche super beschäftigt ist, bewegt es weniger; wenn es ruhig ist, bewegt es mehr.
  • Die Behauptung der Arbeit: Dies stellt sicher, dass das Bewegen von Zutaten (Memory Swapping) den Kochprozess niemals unterbricht und die Küche auch bei hoher Auslastung reibungslos weiterläuft.

4. Der globale Manager: „GoRouting“ (Der smarte Gastgeber)

Wenn das Restaurant über mehrere Küchen verfügt (mehrere Server), muss ein Gastgeber entscheiden, welche Küche die neue Bestellung erhält.

  • Die Analogie: Ein dummer Gastgeber schickt die Bestellung einfach an die Küche mit den wenigsten Menschen in der Schlange (Least Load).
    • Das Problem: Wenn der Gastgeber eine kleine Bestellung an eine Küche schickt, die gerade frei ist, könnte diese Küche später mit einer riesigen, langen Bestellung feststecken, die sie nicht bewältigen kann, was zu einer Verzögerung führt.
  • Die Lösung von ProServe: Der Gastgeber ist kapazitätsbewusst (Capability-Aware).
    • Er schaut sich die Küchen an und fragt: „Wenn ich diese VIP-Bestellung hierher schicke, wird diese Küche dann noch genug Platz und Zeit für eine potenzielle zukünftige große Bestellung haben?“
    • Er schickt eine kleine Bestellung vielleicht an eine Küche, die bereits etwas belebter ist, nur um den „leeren Raum“ in der anderen Küche für eine zukünftige VIP- oder eine lange, komplexe Bestellung aufzusparen.
  • Die Behauptung der Arbeit: Dies verhindert, dass das System durch schlechte Entscheidungen „verstopft“ wird, und stellt sicher, dass hochpriorisierte Anfragen immer untergebracht werden können.

Die Ergebnisse

Die Autoren haben ProServe mit realen Daten getestet (einschließlich eines massiven industriellen Datensatzes aus ihrem eigenen Unternehmen). Sie fanden heraus:

  • Es steigerte die gesamte „Glückseligkeit“ (Systemgewinn) um bis zu 35 %.
  • Es stellte sicher, dass Kunden ihre Fristen (SLO-Einhaltung) bis zu 52 % häufiger einhielten als die besten bestehenden Systeme.

Kurz gesagt: ProServe ist ein Scheduling-System, das verschiedene Kunden basierend auf ihrem Wert unterschiedlich behandelt, smarte Aufstellungs-Tricks nutzt, um Menschenmassen zu bewältigen, Zutaten während des Kochens bewegt, um Zeit zu sparen, und kluge Entscheidungen darüber trifft, welche Küche genutzt wird, um sicherzustellen, dass das gesamte Restaurant effizient arbeitet.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →