Prism: Cost-Efficient Multi-LLM Serving via GPU Memory… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Shan Yu, Yifan Qiao, Mingyuan Ma, Yangmin Li, Shuo Yang, Xinyuan Tong, Yang Wang, Zhiqiang Xie, Yuwei An, Shiyi Cao, Ke Bao, Deepak Vij, Xiaoning Ding, Yichen Wang, Qingda Lu, Zhong Wang, Gao Gao, Har

Gepubliceerd 2026-06-12

📖 4 min leestijd☕ Koffiepauze-leesvoer

Bekijk op arXiv ↗PDF ↗

CC BY 4.0

Oorspronkelijke auteurs: Shan Yu, Yifan Qiao, Mingyuan Ma, Yangmin Li, Shuo Yang, Xinyuan Tong, Yang Wang, Zhiqiang Xie, Yuwei An, Shiyi Cao, Ke Bao, Deepak Vij, Xiaoning Ding, Yichen Wang, Qingda Lu, Zhong Wang, Gao Gao, Harry Xu, Junyi Shu, Jiarong Xing, Ying Sheng

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een enorm hotel runt met duizenden kamers (GPU's) en duizenden verschillende gasten (AI-modellen). Sommige gasten zijn beroemdheden die 24/7 een kamer willen, terwijl anderen toeristen zijn die slechts één keer per dag voor een check-in van 10 minuten verschijnen.

Het probleem is dat het runnen van jouw hotel duur is. Als je elke toerist een eigen privékamer geeft voor het geval ze verschijnen, eindig je met 90% van je hotel dat leeg en verspild is. Maar als je probeert iedereen in één kamer te proppen, ontstaat er chaos, en worden de beroemdheden boos omdat ze moeten wachten.

Prism is een nieuwe, slimme hotelmanager die dit oplost door een truc te gebruiken genaamd "Memory Ballooning".

Hier is hoe het werkt, onderverdeeld in eenvoudige concepten:

1. Het Probleem: De "Statische Kamer"-valstrik

Op de oude manier van het runnen van AI, als een model (een gast) een kamer werd toegewezen, was die kamer voor altijd van hen, zelfs als ze sliepen (idle).

Ruimte delen (De oude manier): Je probeert meerdere gasten in één kamer te plaatsen. Dit werkt geweldig als ze allemaal wakker zijn en aan het praten zijn. Maar als één gast een week weg is, blijft hun helft van de kamer leeg, en kan de andere gast die ruimte niet gebruiken.
Tijd delen (De andere oude manier): Je zet een gast eruit om een ander binnen te laten. Dit werkt goed als gasten op verschillende tijden komen. Maar als twee gasten op exact hetzelfde moment arriveren, moet je hen constant in en uit de kamer jagen. Dit "eruit jagen" is traag en zorgt ervoor dat iedereen moet wachten (lag), waardoor ze hun deadlines missen.

De AI-verkeer in de echte wereld is rommelig. Soms wordt een groep modellen tegelijk druk, en soms worden ze allemaal tegelijk stil. Geen enkele oude strategie kon deze wisselingen aan.

2. De Oplossing: De "Ballooning"-truc

Prism introduceert een nieuwe manager genaamd kvcached (de ballonchauffeur). Denk aan het GPU-geheugen niet als een reeks vaste kamers, maar als opblaasbare ballonnen.

De Elastische Ballon: Wanneer een model druk is en meer ruimte nodig heeft om na te denken, blaast de manager zijn ballon op, waarbij hij lucht steelt van andere modellen die momenteel slapen.
Leeglopen voor Anderen: Wanneer een model gaat slapen, krimpt de ballon, waardoor de ruimte vrijkom komt zodat een nieuwe, ontwakende model direct zijn eigen ballon kan opblazen.
Geen Meubels Verplaatsen: Het beste deel? De modellen weten niet eens dat dit gebeurt. Ze zien alleen een kamer die magisch groter en kleiner wordt. De manager doet het zware werk achter de schermen.

3. De Twee-Stappen-Strategie

Prism gebruikt twee slimme regels om te beslissen wie de lucht krijgt:

Regel 1: De Globale Scheduler (De Hotelmanager): Deze kijkt naar het hele hotel. Hij vraagt: "Welke groep gasten is momenteel actief?" Vervolgens plaatst hij die actieve gasten op dezelfde verdieping (GPU) zodat ze gemakkelijk ruimte kunnen delen. Als een gast slaapt, verplaatst hij hem naar een opslagkast (CPU) om ruimte vrij te maken. Hij herschikt constant het hotel om ervoor te zorgen dat geen enkele verdieping overvol is terwijl een andere leeg is.
Regel 2: De Lokale Scheduler (De Conciërge): Deze kijkt naar de specifieke verzoeken die nu binnenkomen. Als twee gasten vechten om het laatste beetje ruimte, controleert de conciërge wie de meest dringende deadline heeft. Hij laat de urgente gast eerst binnen en vertelt de minder urgente gast om even te wachten. Dit zorgt ervoor dat de belangrijkste taken op tijd worden uitgevoerd.

4. De Resultaten

Het paper testte Prism op echte gegevens van grote AI-aanbieders en vond het volgende:

Snellere Service: Het kwam zijn snelheidspromessen (SLO's) tot 3,3 keer beter na dan eerdere methoden.
Lagere Kosten: Om hetzelfde niveau van prestaties te behalen, had Prism de helft van het aantal GPU's nodig (of kon het twee keer zoveel verzoeken afhandelen met dezelfde hardware).
Bewijs uit de Praktijk: Het is al ingezet in productieomgevingen met meer dan 10.000 GPU's, waarbij bedrijven aanzienlijk meer omzet per GPU genereren door de verspilde "idle" tijd om te zetten in factureerbaar werk.

Samenvatting

Prism is als een slimme, elastische hotelmanager. In plaats van gasten vast te leggen in vaste kamers of hen constant eruit te gooien, gebruikt het opblaasbare ballonnen om ruimte dynamisch te delen. Het vergroot de ruimte voor drukke modellen en krimpt de ruimte voor slapende modellen, waardoor het hotel altijd vol, efficiënt en snel is, zonder dat iemand in de rij hoeft te wachten.

Prism: Cost-Efficient Multi-LLM Serving via GPU Memory Ballooning

1. Het Probleem: De "Statische Kamer"-valstrik

2. De Oplossing: De "Ballooning"-truc

3. De Twee-Stappen-Strategie

4. De Resultaten

Samenvatting

Technische Samenvatting: Prism

Probleemstelling

Methodologie

1. GPU-geheugenballonering (De `kvcached` Driver)

2. Geheugencentrische Control Plane

3. Systeemintegratie

Belangrijkste Bijdragen

Resultaten

Betekenis

Prism: Cost-Efficient Multi-LLM Serving via GPU Memory Ballooning

1. Het Probleem: De "Statische Kamer"-valstrik

2. De Oplossing: De "Ballooning"-truc

3. De Twee-Stappen-Strategie

4. De Resultaten

Samenvatting

Technische Samenvatting: Prism

Probleemstelling

Methodologie

1. GPU-geheugenballonering (De kvcached Driver)

2. Geheugencentrische Control Plane

3. Systeemintegratie

Belangrijkste Bijdragen

Resultaten

Betekenis

Meer zoals dit

1. GPU-geheugenballonering (De `kvcached` Driver)