Prism: Cost-Efficient Multi-LLM Serving via GPU Memory Ballooning

Prism es un marco de co-servicio de LLM centrado en la memoria que utiliza una novedosa técnica de expansión de memoria llamada kvcached para reclamar y reasignar dinámicamente la memoria GPU a través de múltiples modelos, unificando así el intercambio espacial y temporal para mejorar la rentabilidad y el cumplimiento de los SLO en entornos de producción.

Autores originales: Shan Yu, Yifan Qiao, Mingyuan Ma, Yangmin Li, Shuo Yang, Xinyuan Tong, Yang Wang, Zhiqiang Xie, Yuwei An, Shiyi Cao, Ke Bao, Deepak Vij, Xiaoning Ding, Yichen Wang, Qingda Lu, Zhong Wang, Gao Gao, Har
Publicado 2026-06-12
📖 4 min de lectura☕ Lectura para el café

Autores originales: Shan Yu, Yifan Qiao, Mingyuan Ma, Yangmin Li, Shuo Yang, Xinyuan Tong, Yang Wang, Zhiqiang Xie, Yuwei An, Shiyi Cao, Ke Bao, Deepak Vij, Xiaoning Ding, Yichen Wang, Qingda Lu, Zhong Wang, Gao Gao, Harry Xu, Junyi Shu, Jiarong Xing, Ying Sheng

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que diriges un hotel masivo con miles de habitaciones (GPUs) y miles de huéspedes diferentes (modelos de IA). Entre ellos hay celebridades que quieren una habitación las 24 horas del día, los 7 días de la semana, y otros que son turistas que solo aparecen para un registro de 10 minutos una vez al día.

El problema es que tu hotel es costoso de operar. Si le das a cada turista su propia habitación privada por si acaso aparece, terminas con el 90% de tu hotel vacío y desperdiciado. Pero si intentas apretujar a todos en una sola habitación, se genera el caos, y las celebridades se enojan porque tienen que esperar.

Prism es un nuevo y astuto gerente de hotel que resuelve esto utilizando un truco llamado "Memory Ballooning" (Inflado de Memoria).

Así es como funciona, desglosado en conceptos simples:

1. El Problema: La trampa de la "Habitación Estática"

En la forma antigua de gestionar la IA, si se le asignaba una habitación a un modelo (un huésped), esa habitación era suya para siempre, incluso si estaba durmiendo (inactivo).

  • Compartición de Espacio (La forma antigua): Intentas poner a varios huéspedes en una misma habitación. Funciona de maravilla si todos están despiertos y charlando. Pero si un huésped se va por una semana, su mitad de la habitación se queda vacía, y el otro huésped no puede usarla.
  • Compartición de Tiempo (La otra forma antigua): Sacas a un huésped para dejar entrar a otro. Esto funciona si los huéspedes vienen en momentos diferentes. Pero si dos huéspedes llegan exactamente en el mismo segundo, tienes que estar sacándolos y metiéndolos constantemente. Este proceso de "sacar y meter" es lento y hace que todos esperen (lag), provocando que pierdan sus plazos de entrega.

El tráfico de IA en el mundo real es desordenado. A veces, un grupo de modelos se activa al mismo tiempo, y otras veces todos se quedan quietos. Ninguna estrategia antigua podía manejar este cambio.

2. La Solución: El truco del "Inflado"

Prism introduce un nuevo gestor llamado kvcached (el conductor del globo). Piensa en la memoria de la GPU no como un conjunto de habitaciones fijas, sino como globos inflables.

  • El Globo Elástico: Cuando un modelo está ocupado y necesita más espacio para pensar, el gestor infla su globo, robando el aire vacío de otros modelos que actualmente están durmiendo.
  • Desinflar para Otros: Cuando un modelo se va a dormir, su globo se encoge, liberando ese espacio para que un nuevo modelo que acaba de despertar pueda inflar su propio globo instantáneamente.
  • Sin Mover los Muebles: Lo mejor de todo es que los modelos ni siquiera saben que esto está sucediendo. Ellos solo ven una habitación que mágicamente se expande y se contrae. El gestor se encarga del trabajo pesado tras bambalinas.

3. La Estrategia de Dos Pasos

Prism utiliza dos reglas inteligentes para decidir quién recibe el aire:

  • Regla 1: El Programador Global (El Gerente del Hotel): Observa todo el hotel. Pregunta: "¿Qué grupo de huéspedes está activo actualmente?". Luego, coloca a esos huéspedes activos en el mismo piso (GPU) para que puedan compartir el espacio fácilmente. Si un huésped está durmiendo, lo mueve a un armario de almacenamiento (CPU) para liberar espacio. Rearregla constantemente el hotel para asegurar que ningún piso esté sobrepoblado mientras otro está vacío.
  • Regla 2: El Programador Local (El Conserje): Observa las solicitudes específicas que llegan en este preciso momento. Si dos huéspedes están peleando por el último trozo de espacio, el conserje verifica quién tiene el plazo más urgente. Deja entrar primero al huésped urgente y le dice al menos urgente que espere un momento. Esto garantiza que las tareas más importantes se completen a tiempo.

4. Los Resultados

El artículo probó Prism con datos reales de los principales proveedores de IA y descubrió que:

  • Servicio más Rápido: Cumplió con sus promesas de velocidad (SLO) hasta 3.3 veces mejor que los métodos anteriores.
  • Costos más Bajos: Para obtener el mismo nivel de rendimiento, Prism necesitó la mitad del número de GPUs (o pudo manejar el doble de solicitudes con el mismo hardware).
  • Prueba del Mundo Real: Ya se ha implementado en entornos de producción con más de 10,000 GPUs, ayudando a las empresas a generar significativamente más ingresos por GPU al convertir el tiempo "ocioso" desperdiciado en trabajo facturable.

Resumen

Prism es como un inteligente y elástico gerente de hotel. En lugar de bloquear a los huéspedes en habitaciones fijas o sacarlos constantemente, utiliza globos inflables para compartir el espacio de forma dinámica. Expande el espacio para los modelos ocupados y lo reduce para los que duermen, asegurando que el hotel esté siempre lleno, sea eficiente y rápido, sin que nadie tenga que hacer fila.

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →