DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

El sistema DOPD mejora el rendimiento de la inferencia de modelos de lenguaje grandes (LLM) mediante una arquitectura dinámica que ajusta en tiempo real la proporción entre instancias de prellenado y decodificación para equilibrar la carga, logrando un aumento de hasta 1,5 veces en el buen rendimiento y reducciones significativas en los tiempos de respuesta en comparación con enfoques existentes.

Junhan Liao, Minxian Xu, Wanyi Zheng, Yan Wang, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu

Publicado 2026-03-10
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un restaurante muy famoso que sirve platos elaborados por una Inteligencia Artificial (como un chef robot). Este "restaurante" es el sistema que hace funcionar a los grandes modelos de lenguaje (como los que usan para escribir correos, crear código o chatear).

El problema es que este chef tiene dos etapas muy diferentes para cocinar cada plato, y a veces se desequilibra la cocina:

  1. La Etapa de "Lectura" (Prefill): Es como cuando el chef lee la receta completa y los ingredientes. Requiere mucha fuerza mental (computación) pero poca memoria.
  2. La Etapa de "Cocina" (Decoding): Es cuando el chef empieza a servir el plato, palabra por palabra. Aquí no necesita tanta fuerza mental, pero sí necesita tener muchos ingredientes a mano (memoria) y no puede dejar de servir.

El Problema: La Cocina Desconectada

Antes, los restaurantes intentaban hacer todo en una sola cocina. Pero como la "lectura" y la "servida" son tan diferentes, se estorbaban entre sí.

Para arreglarlo, crearon un sistema de dos cocinas separadas:

  • Una cocina de Lectura (donde solo se leen las recetas).
  • Una cocina de Servida (donde se entregan los platos).

Esto es genial, pero tiene un truco: ¿Cuántos cocineros necesitas en cada cocina?

  • Si pones demasiados cocineros en la de lectura y pocos en la de servida, los platos se acumulan en la salida y la gente se impacienta.
  • Si pones demasiados en la servida y pocos en la lectura, los cocineros de servida se quedan parados esperando los platos, desperdiciando dinero y energía.

Además, los clientes son impredecibles: a veces piden recetas cortas (un café) y a veces recetas gigantescas (un banquete de 100 platos). Si el restaurante no se adapta, se cae el sistema.

La Solución: DOPD (El Gerente Inteligente)

Los autores de este paper crearon DOPD, que es como un Gerente de Restaurante Super Inteligente que nunca duerme y tiene un cristal de bola (pero basado en matemáticas y datos reales).

Aquí te explico cómo funciona DOPD con analogías sencillas:

1. El Cristal de Bola (Predicción de Carga)

En lugar de esperar a que la cocina se llene para reaccionar, DOPD mira lo que pasó hace un momento y adivina lo que pasará en los próximos minutos.

  • Analogía: Es como un gerente que ve que la gente empieza a entrar en grupo y dice: "¡Atención! En 5 minutos tendremos una oleada de pedidos de 1000 palabras, ¡necesitamos más cocineros de lectura YA!".
  • Usa una herramienta matemática llamada ARIMA (que es como un algoritmo que aprende de los patrones de tráfico) para predecir si vendrán muchos pedidos cortos o pocos pedidos largos.

2. El Equilibrio Perfecto (Cálculo de la Proporción Óptima)

DOPD calcula constantemente la proporción perfecta entre cocineros de lectura y de servida.

  • Analogía: Imagina una banda de música. Si tienes 10 guitarristas (lectura) pero solo 1 baterista (servida), el ritmo se rompe. DOPD ajusta el número de músicos en tiempo real para que la banda suene perfecta, sin que nadie se quede esperando su turno.
  • Si el sistema detecta que hay muchos pedidos largos, añade más "lectores". Si hay muchos pedidos cortos, ajusta la "servida".

3. El Organizador de Pedidos (Programación Inteligente)

A veces llegan pedidos muy cortos (como "hola") y pedidos muy largos. Si los mezclas sin cuidado, el sistema se atasca.

  • Analogía: DOPD actúa como un camarero experto.
    • Si llega un pedido "ultra corto" (como pedir solo un café), el camarero lo sirve inmediatamente en la mesa de servicio (en la cocina de servida) para no perder tiempo enviándolo a la cocina de lectura.
    • Si llegan varios pedidos cortos juntos, los agrupa en una sola bandeja para que la cocina de lectura los procese todos de una vez, como si fueran un solo pedido grande. Esto ahorra tiempo y energía.

¿Qué logra DOPD? (Los Resultados)

Gracias a este gerente inteligente, el restaurante logra cosas increíbles comparado con los sistemas antiguos (como vLLM o DistServe):

  • Más platos servidos (Goodput): Sirven hasta 1.5 veces más pedidos en el mismo tiempo.
  • Menos espera (Latencia): El tiempo para ver la primera palabra del plato (TTFT) se reduce drásticamente (hasta un 67% menos). ¡La gente deja de mirar el reloj!
  • Menos desperdicio: Usan menos tarjetas gráficas (GPU) para hacer el mismo trabajo, ahorrando dinero y electricidad.
  • Cumplimiento de promesas (SLO): Casi el 99% de los clientes reciben su pedido a tiempo, sin quejas.

En Resumen

DOPD es como tener un sistema de gestión de tráfico en una ciudad que no solo reacciona a los atascos, sino que previene los atascos antes de que ocurran. Cambia dinámicamente el número de carriles (instancias) y dirige a los coches (pedidos) por las rutas más eficientes, asegurando que la ciudad (el sistema de IA) fluya suavemente, sin importar si es hora punta o si todos piden cosas muy diferentes.

Es una solución que hace que la Inteligencia Artificial sea más rápida, más barata y más confiable para todos nosotros.