Prism: Cost-Efficient Multi-LLM Serving via GPU Memory Ballooning

Prism ist ein speicherzentriertes LLM-Co-Serving-Framework, das eine neuartige Memory-Ballooning-Technik namens kvcached nutzt, um GPU-Speicher dynamisch über mehrere Modelle hinweg zurückzugewinnen und neu zuzuweisen, wodurch räumliches und zeitliches Sharing vereinigt wird, um die Kosteneffizienz und die Einhaltung von SLOs in Produktionsumgebungen zu verbessern.

Ursprüngliche Autoren: Shan Yu, Yifan Qiao, Mingyuan Ma, Yangmin Li, Shuo Yang, Xinyuan Tong, Yang Wang, Zhiqiang Xie, Yuwei An, Shiyi Cao, Ke Bao, Deepak Vij, Xiaoning Ding, Yichen Wang, Qingda Lu, Zhong Wang, Gao Gao, Har
Veröffentlicht 2026-06-12
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ursprüngliche Autoren: Shan Yu, Yifan Qiao, Mingyuan Ma, Yangmin Li, Shuo Yang, Xinyuan Tong, Yang Wang, Zhiqiang Xie, Yuwei An, Shiyi Cao, Ke Bao, Deepak Vij, Xiaoning Ding, Yichen Wang, Qingda Lu, Zhong Wang, Gao Gao, Harry Xu, Junyi Shu, Jiarong Xing, Ying Sheng

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie führen ein riesiges Hotel mit Tausenden von Zimmern (GPUs) und Tausenden von verschiedenen Gästen (KI-Modellen). Einige Gäste sind Prominente, die rund um die Uhr ein Zimmer wollen, während andere Touristen sind, die nur einmal am Tag für einen 10-minütigen Check-in auftauchen.

Das Problem ist, dass Ihr Hotel teuer im Betrieb ist. Wenn Sie jedem Touristen ein privates Zimmer reservieren, nur für den Fall, dass er auftaucht, bleibt 90 % Ihres Hotels leer und ungenutzt. Aber wenn Sie versuchen, alle in ein einziges Zimmer zu quetschen, entsteht Chaos, und die Prominenten werden wütend, weil sie warten müssen.

Prism ist ein neuer, smarter Hotelmanager, der dies durch einen Trick namens „Memory Ballooning“ löst.

So funktioniert es, unterteilt in einfache Konzepte:

1. Das Problem: Die „Statische Zimmer“-Falle

Auf die alte Art des KI-Betriebs: Wenn einem Modell (einem Gast) ein Zimmer zugewiesen wurde, war dieses Zimmer für immer sein, selbst wenn es schlief (idle).

  • Platzteilung (Die alte Art): Sie versuchen, mehrere Gäste in ein Zimmer zu stecken. Das funktioniert großartig, wenn sie alle wach sind und plaudern. Aber wenn ein Gast für eine Woche verreist, liegt seine Hälfte des Zimmers leer, und der andere Gast kann sie nicht nutzen.
  • Zeitteilung (Die andere alte Art): Sie werfen einen Gast raus, um Platz für einen anderen zu machen. Das funktioniert gut, wenn Gäste nur zu unterschiedlichen Zeiten kommen. Aber wenn zwei Gäste im exakt gleichen Moment eintreffen, müssen Sie ständig Leute rein- und rausschmeißen. Dieses „Rauswerfen“ ist langsam und lässt alle warten (Lag), wodurch sie ihre Fristen verpassen.

Der reale KI-Verkehr ist chaotisch. Manchmal werden Gruppen von Modellen gleichzeitig aktiv, und manchmal werden sie alle gleichzeitig ruhig. Keine einzelne alte Strategie konnte dieses Umschalten bewältigen.

2. Die Lösung: Der „Ballooning“-Trick

Prism führt einen neuen Manager namens kvcached (den Ballon-Treiber) ein. Stellen Sie sich den GPU-Speicher nicht als eine Reihe fester Zimmer vor, sondern als aufblasbare Ballons.

  • Der elastische Ballon: Wenn ein Modell beschäftigt ist und mehr Platz zum Nachdenken braucht, bläst der Manager seinen Ballon auf und stiehlt die leere Luft von anderen Modellen, die gerade schlafen.
  • Deflation für andere: Wenn ein Modell schläft, schrumpft sein Ballon und gibt den Platz frei, damit ein neues, gerade aufwachendes Modell seinen eigenen Ballon sofort aufblasen kann.
  • Keine Möbelbewegung: Das Beste daran? Die Modelle merken nicht einmal, dass das passiert. Sie sehen nur ein Zimmer, das magisch expandiert und schrumpft. Der Manager erledigt die schwere Arbeit im Hintergrund.

3. Die Zwei-Schritte-Strategie

Prism nutzt zwei kluge Regeln, um zu entscheiden, wer die Luft bekommt:

  • Regel 1: Der Globale Scheduler (Der Hotelmanager): Er betrachtet das gesamte Hotel. Er fragt: „Welche Gruppe von Gästen ist gerade aktiv?“ Dann platziert er diese aktiven Gäste auf demselben Stockwerk (GPU), damit sie den Platz leicht teilen können. Wenn ein Gast schläft, bewegt er ihn in einen Abstellraum (CPU), um Platz zu schaffen. Er arrangiert das Hotel ständig neu, um sicherzustellen, dass kein Stockwerk überfüllt ist, während ein anderes leer steht.
  • Regel 2: Der Lokale Scheduler (Der Concierge): Er betrachtet die spezifischen Anfragen, die gerade jetzt eingehen. Wenn zwei Gäste um das letzte Stück Platz kämpfen, prüft der Concierge, wer die dringendste Frist hat. Er lässt den dringenderen Gast zuerst herein und sagt dem weniger dringenden, er solle einen Moment warten. Dies stellt sicher, dass die wichtigsten Aufgaben rechtzeitig erledigt werden.

4. Die Ergebnisse

Das Paper testete Prism mit realen Daten von großen KI-Anbietern und fand heraus:

  • Schnellerer Service: Es erfüllte seine Geschwindigkeitsversprechen (SLOs) bis zu 3,3-mal besser als bisherige Methoden.
  • Geringere Kosten: Um das gleiche Leistungsniveau zu erreichen, benötigte Prism die Hälfte der Anzahl an GPUs (oder konnte doppelt so viele Anfragen mit derselben Hardware bewältigen).
  • Praxisbeweis: Es wurde bereits in Produktionsumgebungen mit über 10.000 GPUs eingesetzt und hilft Unternehmen dabei, signifikant mehr Umsatz pro GPU zu generieren, indem die verschwendete „Idle“-Zeit in abrechenbare Arbeit umgewandelt wird.

Zusammenfassung

Prism ist wie ein smarter, elastischer Hotelmanager. Anstatt Gäste in feste Zimmer einzusperren oder sie ständig rauszuwerfen, nutzt es aufblasbare Ballons, um den Platz dynamisch zu teilen. Es erweitert den Platz für beschäftigte Modelle und schrumpft ihn für schlafende Modelle, sodass das Hotel immer voll, effizient und schnell ist, ohne dass jemand in der Schlange warten muss.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →