DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

O artigo apresenta o DOPD, uma arquitetura dinâmica de desagregação de pré-preenchimento e decodificação para inferência de LLMs que ajusta automaticamente a alocação de recursos com base na carga em tempo real, superando desequilíbrios de workloads heterogêneos e alcançando ganhos significativos em boa produção e cumprimento de SLOs em comparação com abordagens existentes.

Junhan Liao, Minxian Xu, Wanyi Zheng, Yan Wang, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma cafeteria muito famosa que usa robôs para fazer café. O processo de fazer um café tem duas etapas bem diferentes:

  1. A Preparação (Prefill): O robô pega os ingredientes, mede o pó, espreme o café. Isso exige muita força bruta (como um atleta levantando peso), mas é rápido.
  2. A Entrega (Decoding): O robô coloca o café na xícara e o entrega ao cliente. Isso exige muita precisão e memória (lembrar quem pediu o que), mas é menos cansativo fisicamente.

O Problema: A Cafeteria Desbalanceada

Antes deste novo sistema (chamado DOPD), as cafeterias modernas tentavam separar esses robôs. Eles tinham uma equipe só de "Preparadores" e outra só de "Entregadores".

O problema é que os clientes são imprevisíveis!

  • Às vezes, todo mundo pede um café simples (pouca preparação, muita entrega rápida).
  • Às vezes, todo mundo pede um "café especial" gigante (muita preparação, entrega demorada).

Se você tiver 10 Preparadores e 2 Entregadores, e todos pedirem cafés simples, os Entregadores ficam sobrecarregados e os Preparadores ficam parados, olhando para o nada. Se você inverter e tiver 2 Preparadores e 10 Entregadores, e todos pedirem cafés especiais, os Preparadores ficam atolados e os Entregadores ficam esperando café pronto.

Isso é ineficiência: você gasta dinheiro com robôs (GPUs) que não estão trabalhando, e os clientes ficam esperando muito tempo.

A Solução: O Sistema DOPD (O Maestro Inteligente)

Os autores criaram o DOPD, que é como um Maestro de Orquestra ou um Gerente de Tráfego superinteligente para essa cafeteria.

O DOPD faz três coisas mágicas:

1. O Oráculo que Adivinha o Futuro (Previsão de Carga)

O DOPD não espera o caos acontecer. Ele olha para o histórico de pedidos e usa uma "bola de cristal matemática" (chamada ARIMA) para prever o que vai acontecer nos próximos minutos.

  • Analogia: É como um gerente de trânsito que vê no radar que vai chover e, antes da chuva começar, já manda abrir faixas extras e desviar carros, em vez de esperar o engarrafamento se formar.

2. O Equilíbrio Perfeito (Cálculo da Proporção Ideal)

Com base na previsão, o DOPD calcula exatamente quantos robôs de Preparação e quantos de Entrega são necessários agora.

  • Se a previsão é de muitos pedidos simples, ele ativa mais Entregadores e desliga alguns Preparadores.
  • Se a previsão é de pedidos complexos, ele faz o inverso.
  • Analogia: É como um restaurante que, ao ver uma fila de pessoas pedendo apenas sobremesas, manda cozinheiros para a área de doces e tira alguns da área de carnes, garantindo que nada fique parado.

3. O Organizador de Filas (Agendamento Inteligente)

Às vezes, chegam pedidos muito curtos (um café expresso) e pedidos muito longos (um café com 50 ingredientes). Se misturá-los na mesma fila, o pedido longo trava o pedido curto.
O DOPD é esperto: ele separa os pedidos curtos e os agrupa em "lotes" rápidos, enquanto os pedidos longos vão direto para a frente. Ele também decide quando é melhor fazer o pedido inteiro na mesma máquina (para não perder tempo trocando dados) e quando separar.

  • Analogia: Imagine uma fila de banco. O DOPD cria uma fila "Expressa" para quem só quer sacar dinheiro (pedidos curtos) e uma fila normal para quem precisa de empréstimo (pedidos longos), evitando que a fila rápida fique parada esperando o cliente lento.

Os Resultados: Por que isso é incrível?

O artigo mostra que, ao usar o DOPD:

  • Mais Clientes Atendidos: A cafeteria consegue atender até 1,5 vezes mais pessoas com o mesmo número de robôs.
  • Menos Espera: O tempo para o primeiro gole de café chegar à mesa caiu drasticamente (até 67% mais rápido).
  • Garantia de Qualidade: Quase 100% dos clientes recebem seu café no tempo prometido, mesmo em dias de muita gente.

Resumo Final

O DOPD é um sistema que transforma a inteligência artificial (LLMs) em algo muito mais eficiente. Em vez de ter robôs parados ou sobrecarregados por causa de pedidos imprevisíveis, ele ajusta a equipe em tempo real, como um maestro que muda a música e o número de músicos conforme o ritmo da plateia.

Isso significa que as empresas gastam menos energia e dinheiro com computadores caros, e você, como usuário, recebe respostas mais rápidas e confiáveis da Inteligência Artificial.