SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

Este artículo propone un enfoque híbrido que combina modelado teórico con pruebas empíricas para determinar la asignación óptima de recursos de hardware en la inferencia de LLMs con desagregación de prellenado y decodificación, garantizando el cumplimiento de los objetivos de nivel de servicio (SLO) y las características de las solicitudes.

Luchang Li, Dongfang Li, Bozhao Gong, Yu Zhang

Publicado 2026-03-06
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este artículo es como un manual de ingeniería para una cocina de restaurante de lujo que acaba de descubrir una forma revolucionaria de cocinar.

Aquí tienes la explicación, traducida al lenguaje cotidiano y con analogías divertidas:

🍽️ El Problema: La Cocina "Todo en Uno" vs. La Cocina Especializada

Imagina que tienes un restaurante de comida rápida (el modelo de Inteligencia Artificial, o LLM) que debe preparar dos tipos de platos:

  1. El "Prefill" (Preparación): Es como leer la orden del cliente y preparar todos los ingredientes crudos. Requiere mucha fuerza bruta (cerebro) pero no mucho tiempo de espera.
  2. El "Decode" (Entrega): Es como cocinar y servir plato por plato. Requiere mucha paciencia y memoria (para no olvidar qué ingredientes pusiste antes), pero es más lento.

Antiguamente, tenías una sola cocina donde el mismo chef hacía ambas cosas: primero leía la orden y preparaba los ingredientes, y luego cocinaba el plato. El problema es que cuando el chef estaba "pensando" (prefill), la cocina se llenaba de ruido y no podía cocinar rápido. Y cuando estaba "cocinando" (decode), no podía leer nuevas órdenes. ¡Era un caos!

La Solución (Disagregación P/D): Ahora, separaron la cocina en dos áreas:

  • Área A (Prefill): Chefs súper rápidos que solo leen órdenes y preparan ingredientes.
  • Área B (Decode): Chefs pacientes que solo cocinan y sirven plato por plato.
  • El Mensajero: Lleva los ingredientes preparados de A a B.

Esto es genial, pero surge un nuevo problema: ¿Cuántos chefs de cada tipo necesito contratar?

  • Si contratas demasiados de "Preparación" y pocos de "Cocina", tendrás ingredientes acumulados y clientes esperando su plato (demasiado lento al final).
  • Si contratas demasiados de "Cocina" y pocos de "Preparación", los chefs de cocina estarán parados esperando ingredientes (dinero tirado).

🧮 La Magia del Artículo: ¿Cómo saber cuántos contratar?

Los autores dicen: "No adivinemos. Hagamos matemáticas y pruebas".

1. La Fórmula de Equilibrio (La Balanza)

Imagina que tienes una balanza.

  • En un lado pones cuánto tardan los clientes en recibir su primer bocado (TTFT: Tiempo hasta el primer token).
  • En el otro lado pones cuánto tardan en recibir el resto del plato (TPOT: Tiempo por cada token).

El artículo te da una fórmula mágica que dice: "Si tus clientes quieren su primer bocado en 2 segundos y el resto del plato en 20 milisegundos, y sabes cuánto comen de promedio, entonces necesitas exactamente X chefs de preparación y Y chefs de cocina".

2. El Truco del "Colchón de Espera" (Teoría de Colas)

Para la parte de "Preparación" (Prefill), los autores usan una teoría de colas (como esperar en el banco).

  • La analogía: Imagina que el chef de preparación es un cajero. Si llega mucha gente a la vez, el cajero se estresa y se vuelve más lento (porque tiene que esperar a que la gente se calme).
  • Ellos crearon una fórmula para calcular: "Si quiero que el cliente no espere más de 2 segundos, no puedo llenar el cajero al 100%. Tengo que dejarlo trabajar al 80% para que sea rápido".
  • Esto les permite calcular cuántos chefs de preparación son necesarios para que nadie se enfade esperando.

3. El Truco del "Tamaño del Plato" (Pruebas Reales)

Para la parte de "Cocina" (Decode), es más simple pero requiere pruebas.

  • La analogía: Imagina que un chef puede cocinar 1 plato a la vez, o 10 platos a la vez (en una olla gigante).
  • Si cocina 10 platos a la vez, es muy eficiente (mucho rendimiento), pero el primer plato tarda más en salir.
  • Los autores hicieron pruebas reales: "¿Cuántos platos puedo cocinar a la vez sin que el cliente se queje de que su plato tarda demasiado?".
  • Encontraron el "punto dulce": el número máximo de platos que pueden cocinar juntos sin violar las reglas de calidad.

🚀 El Resultado Final: La Receta Perfecta

En su prueba real, usaron un modelo de IA muy famoso (DeepSeek) y hardware potente (chips NVIDIA H200).

  • El objetivo: Servir 5 millones de "bocados" por minuto.
  • La predicción: Sus fórmulas dijeron: "Necesitas 3 chefs de preparación y 4 de cocina (3P4D)".
  • La realidad: Cuando lo probaron, ¡funcionó perfecto! Cumplieron las reglas de velocidad y no desperdiciaron ni un solo chef.
  • La comparación: Si hubieran puesto 3 y 3 (3P3D), se habrían quedado cortos de cocina y los clientes habrían esperado más. Si hubieran puesto 3 y 5, habrían gastado dinero en un chef de cocina que no hacía nada.

💡 En Resumen

Este artículo es como un consultor de negocios para la Inteligencia Artificial. Te dice:

"No compres servidores al azar. Usa nuestras fórmulas para saber exactamente cuántos necesitas para la parte de 'pensar' y cuántos para la parte de 'hablar', basándote en lo rápido que tus clientes quieren sus respuestas. Así ahorrarás dinero y tus clientes estarán felices".

Es una mezcla de matemáticas teóricas (para predecir el comportamiento) y pruebas de fuego (para ver qué funciona en la vida real), todo para que la IA no se quede atascada en el tráfico.