DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un restaurante muy famoso que sirve platos elaborados por una Inteligencia Artificial (como un chef robot). Este "restaurante" es el sistema que hace funcionar a los grandes modelos de lenguaje (como los que usan para escribir correos, crear código o chatear).

El problema es que este chef tiene dos etapas muy diferentes para cocinar cada plato, y a veces se desequilibra la cocina:

La Etapa de "Lectura" (Prefill): Es como cuando el chef lee la receta completa y los ingredientes. Requiere mucha fuerza mental (computación) pero poca memoria.
La Etapa de "Cocina" (Decoding): Es cuando el chef empieza a servir el plato, palabra por palabra. Aquí no necesita tanta fuerza mental, pero sí necesita tener muchos ingredientes a mano (memoria) y no puede dejar de servir.

El Problema: La Cocina Desconectada

Antes, los restaurantes intentaban hacer todo en una sola cocina. Pero como la "lectura" y la "servida" son tan diferentes, se estorbaban entre sí.

Para arreglarlo, crearon un sistema de dos cocinas separadas:

Una cocina de Lectura (donde solo se leen las recetas).
Una cocina de Servida (donde se entregan los platos).

Esto es genial, pero tiene un truco: ¿Cuántos cocineros necesitas en cada cocina?

Si pones demasiados cocineros en la de lectura y pocos en la de servida, los platos se acumulan en la salida y la gente se impacienta.
Si pones demasiados en la servida y pocos en la lectura, los cocineros de servida se quedan parados esperando los platos, desperdiciando dinero y energía.

Además, los clientes son impredecibles: a veces piden recetas cortas (un café) y a veces recetas gigantescas (un banquete de 100 platos). Si el restaurante no se adapta, se cae el sistema.

La Solución: DOPD (El Gerente Inteligente)

Los autores de este paper crearon DOPD, que es como un Gerente de Restaurante Super Inteligente que nunca duerme y tiene un cristal de bola (pero basado en matemáticas y datos reales).

Aquí te explico cómo funciona DOPD con analogías sencillas:

1. El Cristal de Bola (Predicción de Carga)

En lugar de esperar a que la cocina se llene para reaccionar, DOPD mira lo que pasó hace un momento y adivina lo que pasará en los próximos minutos.

Analogía: Es como un gerente que ve que la gente empieza a entrar en grupo y dice: "¡Atención! En 5 minutos tendremos una oleada de pedidos de 1000 palabras, ¡necesitamos más cocineros de lectura YA!".
Usa una herramienta matemática llamada ARIMA (que es como un algoritmo que aprende de los patrones de tráfico) para predecir si vendrán muchos pedidos cortos o pocos pedidos largos.

2. El Equilibrio Perfecto (Cálculo de la Proporción Óptima)

DOPD calcula constantemente la proporción perfecta entre cocineros de lectura y de servida.

Analogía: Imagina una banda de música. Si tienes 10 guitarristas (lectura) pero solo 1 baterista (servida), el ritmo se rompe. DOPD ajusta el número de músicos en tiempo real para que la banda suene perfecta, sin que nadie se quede esperando su turno.
Si el sistema detecta que hay muchos pedidos largos, añade más "lectores". Si hay muchos pedidos cortos, ajusta la "servida".

3. El Organizador de Pedidos (Programación Inteligente)

A veces llegan pedidos muy cortos (como "hola") y pedidos muy largos. Si los mezclas sin cuidado, el sistema se atasca.

Analogía: DOPD actúa como un camarero experto.
- Si llega un pedido "ultra corto" (como pedir solo un café), el camarero lo sirve inmediatamente en la mesa de servicio (en la cocina de servida) para no perder tiempo enviándolo a la cocina de lectura.
- Si llegan varios pedidos cortos juntos, los agrupa en una sola bandeja para que la cocina de lectura los procese todos de una vez, como si fueran un solo pedido grande. Esto ahorra tiempo y energía.

¿Qué logra DOPD? (Los Resultados)

Gracias a este gerente inteligente, el restaurante logra cosas increíbles comparado con los sistemas antiguos (como vLLM o DistServe):

Más platos servidos (Goodput): Sirven hasta 1.5 veces más pedidos en el mismo tiempo.
Menos espera (Latencia): El tiempo para ver la primera palabra del plato (TTFT) se reduce drásticamente (hasta un 67% menos). ¡La gente deja de mirar el reloj!
Menos desperdicio: Usan menos tarjetas gráficas (GPU) para hacer el mismo trabajo, ahorrando dinero y electricidad.
Cumplimiento de promesas (SLO): Casi el 99% de los clientes reciben su pedido a tiempo, sin quejas.

En Resumen

DOPD es como tener un sistema de gestión de tráfico en una ciudad que no solo reacciona a los atascos, sino que previene los atascos antes de que ocurran. Cambia dinámicamente el número de carriles (instancias) y dirige a los coches (pedidos) por las rutas más eficientes, asegurando que la ciudad (el sistema de IA) fluya suavemente, sin importar si es hora punta o si todos piden cosas muy diferentes.

Es una solución que hace que la Inteligencia Artificial sea más rápida, más barata y más confiable para todos nosotros.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: DOPD

1. Planteamiento del Problema

La inferencia de Modelos de Lenguaje Grande (LLM) enfrenta dos etapas computacionalmente distintas:

Prefill (Relleno): Intensiva en cómputo, procesa la entrada del usuario.
Decoding (Decodificación): Intensiva en memoria, genera tokens secuencialmente.

Para mitigar la contención de recursos entre estas etapas, las arquitecturas modernas adoptan la Desagregación PD (Prefill-Decoding), separando las instancias de Prefill (P) y Decoding (D) en GPUs diferentes. Sin embargo, esta arquitectura enfrenta desafíos críticos:

Desequilibrio Productor-Consumidor: La heterogeneidad de las cargas de trabajo (longitudes de secuencia variables y dinámicas) provoca que la capacidad de producción de las instancias P no coincida con la capacidad de consumo de las instancias D. Esto genera ineficiencia: sobreaprovisionamiento (GPU inactivas) o subaprovisionamiento (violaciones de SLO).
Configuración Estática Ineficiente: Las implementaciones actuales suelen usar ratios P/D estáticos basados en promedios. Esto falla ante cargas mixtas (cortes de longitud muy corta y muy larga), causando cuellos de botella y latencia elevada.
Sobrecarga de Transferencia: Para solicitudes ultra-cortas, la latencia de transferencia de la caché KV entre instancias P y D puede dominar la latencia total, haciendo que la desagregación sea contraproducente.

2. Metodología Propuesta: DOPD

El sistema DOPD (Dynamic Optimal Prefill/Decoding) es un marco de inferencia dinámico que ajusta continuamente la asignación de recursos. Sus componentes clave son:

Predicción de Carga y Cálculo de Ratio Óptimo P/D:
- Utiliza un modelo de series temporales ARIMA para predecir la carga futura (longitud media de entrada/salida y concurrencia) basándose en métricas históricas.
- Deriva analíticamente el ratio P/D óptimo para maximizar la concurrencia del sistema y minimizar el tiempo de inactividad. La fórmula considera la latencia de Prefill ( $t_p$ ), la latencia de Decoding ( $t_d$ ), la longitud de salida ( $OSL$ ) y la concurrencia máxima soportada por una instancia D ( $c_{cd}$ ), limitada por la memoria y el ancho de banda de la GPU.
- La relación óptima se define como: $n_p \times \frac{t_d \times OSL}{t_p} = n_d \times c_{cd}$ .
Planificación de Solicitudes Consciente de la Longitud (Length-Aware Scheduling):
- Solicitudes Largas: Se envían inmediatamente a las instancias P para evitar retrasos.
- Solicitudes Cortas: Se agrupan (batching) en las instancias P hasta cumplir un umbral de longitud o tiempo de espera, optimizando el uso de la GPU.
- Solicitudes Ultra-Cortas: Se ejecutan localmente en las instancias D (agregación PD) para evitar la sobrecarga de transferencia de la caché KV, reduciendo la latencia TTFT (Time-To-First-Token).
Escalado Elástico Proactivo:
- El PD Manager monitorea las métricas en tiempo real. Si la predicción indica un desequilibrio, ajusta el número de instancias P y D dinámicamente sin interrumpir el servicio (zero-downtime).
- Incluye mecanismos de seguridad para reaccionar ante picos repentinos no previstos, escalando inmediatamente si la cola de Prefill o el uso de memoria KV superan umbrales críticos.

3. Contribuciones Clave

Marco DOPD: Un sistema de inferencia inteligente que ajusta dinámicamente el número y configuración de instancias P y D.
Modelo Matemático del Ratio Óptimo: Un método analítico para calcular el balance exacto entre producción y consumo bajo restricciones de hardware (memoria/ancho de banda) y SLO.
Algoritmo de Planificación: Una estrategia de enrutamiento y agrupamiento que mitiga el desajuste de recursos causado por la heterogeneidad de las longitudes de las solicitudes.
Validación Exhaustiva: Demostración experimental de que DOPD supera significativamente a enfoques de agregación (vLLM) y desagregación estática (DistServe, Dynamo).

4. Resultados Experimentales

Las evaluaciones se realizaron en un clúster de 8 GPUs NVIDIA H100 con modelos como LLaMa-3.3-70B y OPT-30B, utilizando trazas de producción reales (Azure, BurstGPT).

Mejora en Goodput: DOPD aumenta el goodput (solicitudes completadas correctamente por segundo) hasta en 1.5x en comparación con vLLM y DistServe.
Reducción de Latencia:
- Reduce el P90 TTFT (Tiempo hasta el primer token) hasta en un 67.5%.
- Reduce el P90 TPOT (Tiempo por token de salida) hasta en un 22.8%.
Cumplimiento de SLO: Logra una tasa de cumplimiento de SLO superior al 99% (frente al 80.8% de las estrategias reactivas basadas en carga), utilizando menos recursos adicionales.
Eficiencia de Recursos: En escenarios estáticos, un ratio P/D óptimo calculado permite lograr un rendimiento comparable a un sistema agregado de 8 GPUs utilizando solo 6 GPUs.

5. Significado e Impacto

El trabajo de DOPD es significativo porque aborda la brecha entre la teoría de la desagregación de recursos y la práctica en entornos de producción dinámicos.

Eficiencia Económica: Permite a los proveedores de servicios de LLM satisfacer la demanda con menos hardware, reduciendo costos operativos.
Robustez Operativa: La capacidad de predecir y reaccionar proactivamente a las fluctuaciones de carga evita la degradación del servicio durante picos de tráfico, un problema común en sistemas estáticos o reactivos tardíos.
Viabilidad Industrial: Al integrar técnicas de predicción de series temporales con gestión de recursos de bajo nivel, DOPD ofrece una solución escalable y práctica para la implementación industrial de LLMs de gran escala, equilibrando la complejidad algorítmica con la eficiencia operativa.

En conclusión, DOPD establece un nuevo estándar para la gestión de recursos en la inferencia de LLMs, demostrando que la adaptación dinámica y consciente de la carga es esencial para maximizar el rendimiento en arquitecturas de computación en la nube modernas.