Prism: Cost-Efficient Multi-LLM Serving via GPU… — Explicação em linguagem simples

Autores originais: Shan Yu, Yifan Qiao, Mingyuan Ma, Yangmin Li, Shuo Yang, Xinyuan Tong, Yang Wang, Zhiqiang Xie, Yuwei An, Shiyi Cao, Ke Bao, Deepak Vij, Xiaoning Ding, Yichen Wang, Qingda Lu, Zhong Wang, Gao Gao, Har

Publicado 2026-06-12

📖 4 min de leitura☕ Leitura rápida

Ver no arXiv ↗PDF ↗

CC BY 4.0

Autores originais: Shan Yu, Yifan Qiao, Mingyuan Ma, Yangmin Li, Shuo Yang, Xinyuan Tong, Yang Wang, Zhiqiang Xie, Yuwei An, Shiyi Cao, Ke Bao, Deepak Vij, Xiaoning Ding, Yichen Wang, Qingda Lu, Zhong Wang, Gao Gao, Harry Xu, Junyi Shu, Jiarong Xing, Ying Sheng

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você administra um hotel enorme com milhares de quartos (GPUs) e milhares de hóspedes diferentes (modelos de IA). Alguns hóspedes são celebridades que querem um quarto 24 horas por dia, 7 dias por semana, enquanto outros são turistas que só aparecem para um check-in de 10 minutos uma vez por dia.

O problema é que manter o seu hotel é caro. Se você der a cada turista seu próprio quarto privado para o caso de eles aparecerem, você acabará com 90% do seu hotel vazio e desperdiçado. Mas se você tentar espremer todo mundo em um único quarto, haverá o caos, e as celebridades ficarão irritadas porque terão que esperar.

Prism é um novo e inteligente gerente de hotel que resolve isso usando um truque chamado "Memory Ballooning" (Inflamento de Memória).

Veja como funciona, dividido em conceitos simples:

1. O Problema: A Armadilha do "Quarto Estático"

Na forma antiga de gerenciar IA, se um modelo (um hóspede) fosse designado para um quarto, esse quarto seria dele para sempre, mesmo que ele estivesse dormindo (ocioso).

Compartilhamento de Espaço (A Forma Antiga): Você tenta colocar vários hóspedes em um quarto. Funciona muito bem se todos estiverem acordados e conversando. Mas se um hóspede sair por uma semana, metade do quarto dele ficará vazia, e o outro hóspede não poderá usá-la.
Compartilhamento de Tempo (A Outra Forma Antiga): Você expulsa um hóspede para deixar outro entrar. Isso funciona se os hóspedes chegarem em momentos diferentes. Mas se dois hóspedes chegarem exatamente no mesmo segundo, você terá que constantemente expulsá-los e colocá-los de volta no quarto. Esse processo de "expulsar" é lento e faz todos esperarem (atraso/lag), fazendo com que percam seus prazos.

O tráfego de IA no mundo real é bagunçado. Às vezes, um grupo de modelos fica ocupado ao mesmo tempo, e às vezes todos ficam quietos. Nenhuma estratégia antiga sozinha conseguia lidar com essa alternância.

2. A Solução: O Truque do "Ballooning" (Inflamento)

O Prism introduz um novo gerente chamado kvcached (o motorista do balão). Pense na memória da GPU não como um conjunto de quartos fixos, mas como balões infláveis.

O Balão Elástico: Quando um modelo está ocupado e precisa de mais espaço para pensar, o gerente infla seu balão, roubando o ar vazio de outros modelos que estão dormindo no momento.
Desinflar para Outros: Quando um modelo vai dormir, seu balão encolhe, liberando esse espaço para que um novo modelo, que está acordando, possa inflar seu próprio balão instantaneamente.
Sem Mudar os Móveis: O melhor de tudo? Os modelos nem sabem que isso está acontecendo. Eles apenas veem um quarto que expande e contrai magicamente. O gerente cuida de todo o trabalho pesado nos bastidores.

3. A Estratégia de Dois Passos

O Prism usa duas regras inteligentes para decidir quem recebe o ar:

Regra 1: O Agendador Global (O Gerente do Hotel): Ele olha para o hotel inteiro. Ele pergunta: "Qual grupo de hóspedes está ativo no momento?". Ele então coloca esses hóspedes ativos no mesmo andar (GPU) para que possam compartilhar o espaço facilmente. Se um hóspede estiver dormindo, ele o move para um armário de armazenamento (CPU) para liberar espaço. Ele rearranja constantemente o hotel para garantir que nenhum andar esteja superlotado enquanto outro está vazio.
Regra 2: O Agendador Local (O Concierge): Ele olha para as solicitações específicas que estão chegando agora. Se dois hóspedes estiverem lutando pelo último pedaço de espaço, o concierge verifica quem tem o prazo mais urgente. Ele deixa o hóspede urgente entrar primeiro e diz ao menos urgente para esperar um momento. Isso garante que as tarefas mais importantes sejam concluídas no prazo.

4. Os Resultados

O artigo testou o Prism com dados reais de grandes provedores de IA e descobriu que:

Serviço Mais Rápido: Ele cumpriu suas promessas de velocidade (SLOs) até 3,3 vezes melhor do que os métodos anteriores.
Custos Menores: Para obter o mesmo nível de desempenho, o Prism precisou de metade do número de GPUs (ou pode lidar com o dobro de solicitações com o mesmo hardware).
Prova do Mundo Real: Ele já foi implantado em ambientes de produção com mais de 10.000 GPUs, ajudando empresas a gerar significativamente mais receita por GPU ao transformar o tempo "ocioso" desperdiçado em trabalho faturável.

Resumo

O Prism é como um gerente de hotel inteligente e elástico. Em vez de prender os hóspedes em quartos fixos ou expulsá-los constantemente, ele usa balões infláveis para compartilhar o espaço dinamicamente. Ele expande o espaço para modelos ocupados e encolhe para os que estão dormindo, garantindo que o hotel esteja sempre cheio, eficiente e rápido, sem que ninguém precise esperar na fila.

Prism: Cost-Efficient Multi-LLM Serving via GPU Memory Ballooning

1. O Problema: A Armadilha do "Quarto Estático"

2. A Solução: O Truque do "Ballooning" (Inflamento)

3. A Estratégia de Dois Passos

4. Os Resultados

Resumo

Resumo Técnico: Prism

Declaração do Problema

Metodologia

1. Balonamento de Memória da GPU (O Driver `kvcached`)

2. Plano de Controle Centrado em Memória

3. Integração de Sistema

Principais Contribuições

Resultados

Significância

Prism: Cost-Efficient Multi-LLM Serving via GPU Memory Ballooning

1. O Problema: A Armadilha do "Quarto Estático"

2. A Solução: O Truque do "Ballooning" (Inflamento)

3. A Estratégia de Dois Passos

4. Os Resultados

Resumo

Resumo Técnico: Prism

Declaração do Problema

Metodologia

1. Balonamento de Memória da GPU (O Driver kvcached)

2. Plano de Controle Centrado em Memória

3. Integração de Sistema

Principais Contribuições

Resultados

Significância

Mais como este

1. Balonamento de Memória da GPU (O Driver `kvcached`)