Prism: Cost-Efficient Multi-LLM Serving via GPU Memory Ballooning

Prism è un framework di co-serving per LLM centrato sulla memoria che utilizza una nuova tecnica di memory ballooning chiamata kvcached per reclamare e riallocare dinamicamente la memoria GPU tra più modelli, unificando così la condivisione spaziale e temporale per migliorare l'efficienza dei costi e l'aderenza agli SLO in ambienti di produzione.

Autori originali: Shan Yu, Yifan Qiao, Mingyuan Ma, Yangmin Li, Shuo Yang, Xinyuan Tong, Yang Wang, Zhiqiang Xie, Yuwei An, Shiyi Cao, Ke Bao, Deepak Vij, Xiaoning Ding, Yichen Wang, Qingda Lu, Zhong Wang, Gao Gao, Har
Pubblicato 2026-06-12
📖 4 min di lettura☕ Lettura da pausa caffè

Autori originali: Shan Yu, Yifan Qiao, Mingyuan Ma, Yangmin Li, Shuo Yang, Xinyuan Tong, Yang Wang, Zhiqiang Xie, Yuwei An, Shiyi Cao, Ke Bao, Deepak Vij, Xiaoning Ding, Yichen Wang, Qingda Lu, Zhong Wang, Gao Gao, Harry Xu, Junyi Shu, Jiarong Xing, Ying Sheng

Articolo originale sotto licenza CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Questa è una spiegazione generata dall'IA dell'articolo qui sotto. Non è stata scritta né approvata dagli autori. Per precisione tecnica, consulta l'articolo originale. Leggi il disclaimer completo

Immagina di gestire un enorme hotel con migliaia di stanze (GPU) e migliaia di ospiti diversi (modelli AI). Alcuni ospiti sono celebrità che vogliono una stanza 24 ore su 24, 7 giorni su 7, mentre altri sono turisti che si presentano solo per un check-in di 10 minuti una volta al giorno.

Il problema è che gestire questo hotel è costoso. Se dai a ogni turista la propria stanza privata per precauzione, finisci con il 90% del tuo hotel vuoto e sprecato. Ma se provi a stipare tutti in una sola stanza, si crea il caos e le celebrità si arrabbiano perché devono aspettare.

Prism è un nuovo, intelligente gestore dell'hotel che risolve questo problema usando un trucco chiamato "Memory Ballooning" (Gonfiaggio della Memoria).

Ecco come funziona, suddiviso in concetti semplici:

1. Il Problema: La trappola della "Stanza Statica"

Nel vecchio modo di gestire l'IA, se un modello (un ospite) veniva assegnato a una stanza, quella stanza era sua per sempre, anche quando dormiva (inattivo).

  • Condivisione dello Spazio (Il Vecchio Modo): Cerchi di mettere più ospiti in una stanza. Funziona benissimo se sono tutti svegli e chiacchierano. Ma se un ospite se ne va per una settimana, la sua metà di stanza rimane vuota e l'altro ospite non può usarla.
  • Condivisione del Tempo (L'Altro Vecchio Modo): Cacci un ospite per far entrare un altro. Funziona se gli ospiti arrivano solo in momenti diversi. Ma se due ospiti arrivano esattamente nello stesso secondo, devi continuamente cacciarli e farli rientrare nella stanza. Questo "cacciarli" è lento e fa aspettare tutti (lag), causando la mancata rispettabilità delle loro scadenze.

Il traffico reale dell'IA è disordinato. A volte un gruppo di modelli diventa impegnato tutto insieme, e a volte tutti diventano silenziosi. Nessuna vecchia strategia da sola poteva gestire questo passaggio.

2. La Soluzione: Il Trucco del "Gonfiaggio"

Prism introduce un nuovo gestore chiamato kvcached (il pilota del palloncino). Immagina la memoria della GPU non come un insieme di stanze fisse, ma come palloncini gonfiabili.

  • Il Palloncino Elastico: Quando un modello è impegnato e ha bisogno di più spazio per pensare, il gestore gonfia il suo palloncino, rubando l'aria vuota da altri modelli che al momento stanno dormendo.
  • Sgonfiare per gli Altri: Quando un modello va a dormire, il suo palloncino si rimpicciolisce, rilasciando quello spazio in modo che un nuovo modello, che si sta svegliando, possa gonfiare istantaneamente il proprio palloncino.
  • Nessun Trasloco di Mobili: La cosa migliore? I modelli non sanno nemmeno che sta succedendo. Vedono solo una stanza che magicamente si espande e si contrae. Il gestore si occupa di tutto il lavoro pesante dietro le quinte.

3. La Strategia in Due Fasi

Prism usa due regole intelligenti per decidere chi riceve l'aria:

  • Regola 1: Lo Scheduler Globale (Il Direttore dell'Hotel): Guarda l'intero hotel. Chiede: "Quale gruppo di ospiti è attualmente attivo?". Poi posiziona gli ospiti attivi sullo stesso piano (GPU) in modo che possano condividere lo spazio facilmente. Se un ospite sta dormendo, lo sposta in un armadio di stoccaggio (CPU) per liberare spazio. Riorganizza costantemente l'hotel per assicurarsi che nessun piano sia sovraffollato mentre un altro è vuoto.
  • Regola 2: Lo Scheduler Locale (Il Concierge): Guarda le richieste specifiche che arrivano proprio in questo momento. Se due ospiti stanno combattendo per l'ultimo briciolo di spazio, il concierge controlla chi ha la scadenza più urgente. Fa entrare prima l'ospite urgente e dice a quello meno urgente di aspettare un momento. Questo assicura che i compiti più importanti vengano completati in tempo.

4. I Risultati

Il documento ha testato Prism su dati reali provenienti da importanti fornitori di IA e ha scoperto che:

  • Servizio Più Veloce: Ha rispettato le sue promesse di velocità (SLO) fino a 3,3 volte meglio rispetto ai metodi precedenti.
  • Costi Inferiori: Per ottenere lo stesso livello di prestazioni, Prism ha avuto bisogno di metà delle GPU (o ha potuto gestire il doppio delle richieste con lo stesso hardware).
  • Prova nel Mondo Reale: È già stato implementato in ambienti di produzione con oltre 10.000 GPU, aiutando le aziende a generare significativamente più entrate per GPU trasformando il tempo "inattivo" sprecato in lavoro fatturabile.

Riassunto

Prism è come un intelligente ed elastico direttore d'hotel. Inveve di bloccare gli ospiti in stanze fisse o di cacciarli costantemente, usa palloncini gonfiabili per condividere lo spazio in modo dinamico. Espande lo spazio per i modelli impegnati e lo restringe per quelli che dormono, assicurando che l'hotel sia sempre pieno, efficiente e veloce, senza che nessuno debba fare la fila.

Sommerso dagli articoli nel tuo campo?

Ricevi digest giornalieri degli articoli più recenti corrispondenti alle tue parole chiave di ricerca — con riassunti tecnici, nella tua lingua.

Prova Digest →