WVA: A Global Optimization Control Plane for llmd

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o gerente de um restaurante muito famoso, onde os chefs (as GPUs) preparam pratos complexos (os modelos de Inteligência Artificial) para milhares de clientes ao mesmo tempo.

O problema é que, nos restaurantes tradicionais, o gerente olha apenas para o número de mesas ocupadas ou se a cozinha está "ocupada" de forma genérica. Mas, com a Inteligência Artificial moderna (os Grandes Modelos de Linguagem ou LLMs), a cozinha é diferente: ela precisa de um espaço de armazenamento muito específico e valioso (a memória da GPU) para guardar os ingredientes de cada pedido enquanto ele é preparado. Se esse espaço encher, o pedido trava, e o cliente fica irritado.

Aqui entra o WVA (Workload Variant Autoscaler), o "Super Gerente" descrito neste artigo. Vamos entender como ele funciona usando analogias do dia a dia:

1. O Problema: O Gerente Cego (HPA)

Antes do WVA, os restaurantes usavam um sistema automático chamado HPA. Imagine que o HPA é um gerente que só olha para o relógio e diz: "Se tivermos mais de 80% das mesas ocupadas, abra mais uma cozinha."

O problema é que ele é "cego" para a realidade da cozinha:

Ele não sabe que, às vezes, 80% das mesas ocupadas significam que os ingredientes (memória) acabaram e o prato não pode ser servido.
Ele trata todos os chefs iguais. Se você tem chefs rápidos e caros (GPUs novas e potentes) e chefs mais lentos e baratos (GPUs antigas), o HPA contrata os caros primeiro ou de forma aleatória, gastando dinheiro à toa.
Quando a multidão vai embora, ele demora para fechar as cozinhas, deixando chefs ociosos gastando energia.

2. A Solução: O Super Gerente (WVA)

O WVA é um gerente que entra na cozinha e olha os ingredientes. Ele sabe exatamente o que está acontecendo dentro de cada pedido.

A. O "Espaço de Manobra" (Headroom)

Em vez de esperar a cozinha ficar cheia (80% ocupada) para agir, o WVA calcula um espaço de segurança.

Analogia: Imagine que você tem um elevador que suporta 10 pessoas. O HPA deixaria 8 pessoas entrarem e só chamaria outro elevador quando o 9º chegasse. O WVA, sabendo que o elevador é instável com 8 pessoas, já chama o segundo elevador quando o 6º entra. Ele garante que sempre haja "espaço vazio" para novos clientes entrarem sem que ninguém fique preso. Isso evita que os pedidos travem (latência).

B. A Escolha Inteligente de Chefs (Variants)

O WVA entende que nem todos os chefs são iguais. Ele cria "Variantes":

Variante Barata: Chefs mais antigos (GPUs A100), que são bons para pedidos normais e custam menos energia.
Variante Premium: Chefs super rápidos (GPUs H100), que são caros, mas salvam o dia quando a multidão explode.
A Estratégia: O WVA usa primeiro os chefs baratos. Só quando eles estão realmente ocupados é que ele contrata os caros. Isso economiza muito dinheiro e energia, como usar o carro popular para ir ao trabalho e só chamar o táxi de luxo se chover torrencialmente.

C. Não Desligar a Luz Antes da Hora (Scale-Down Seguro)

Quando o restaurante esvazia, o HPA pode apagar as luzes e demitir chefs de forma brusca, mesmo que ainda haja alguém comendo.
O WVA é mais cuidadoso. Ele olha para cada chef individualmente. Se um chef ainda está terminando de montar um prato complexo (processo de memória), o WVA não o demite. Ele espera até que o prato esteja pronto e o chef esteja livre. Isso evita que pedidos sejam cancelados no meio do caminho.

3. Os Resultados na Prática

O artigo mostra que, ao usar esse "Super Gerente":

Mais Pratos Servidos: O restaurante conseguiu servir 37% mais pedidos no mesmo tempo, porque não travou a cozinha.
Menos Clientes Irritados: Os pedidos que falharam (clientes que desistiram) caíram 10 vezes.
Economia: Ao usar os chefs mais baratos sempre que possível, o consumo de energia e o custo caíram drasticamente.

Resumo em uma Frase

O WVA é como um gerente de restaurante que não apenas conta as mesas, mas olha dentro da geladeira para saber se há ingredientes suficientes, contrata chefs baratos primeiro e só chama os caros quando necessário, garantindo que a comida saia rápida, barata e sem que ninguém fique esperando na fila.

Isso transforma a gestão de Inteligência Artificial de um "chute no escuro" em uma operação de precisão cirúrgica.

Each language version is independently generated for its own context, not a direct translation.

Título: WVA: Um Plano de Controle de Otimização Global para llmd

1. O Problema

O custo de inferência de Grandes Modelos de Linguagem (LLMs) tornou-se um gargalo crítico para a indústria de IA. Diferentemente dos microsserviços tradicionais (que são stateless e escalam linearmente), a inferência de LLMs é um processo stateful e limitado pela memória (especificamente a capacidade de memória de alta largura de banda - HBM, necessária para o Cache de Chave-Valor ou KV Cache).

Os principais desafios identificados são:

Ineficiência dos Autoscalers Tradicionais: Ferramentas como o Horizontal Pod Autoscaler (HPA) do Kubernetes tratam a aplicação como uma "caixa preta", otimizando apenas para métricas genéricas de recursos (ex: uso de CPU em 80%). Elas não compreendem o estado interno do motor de inferência, como fragmentação de KV Cache ou profundidade de filas.
Heterogeneidade de Hardware Ignorada: Clusters modernos misturam GPUs de diferentes gerações e custos (ex: A100 vs. H100). Os escaladores tradicionais tratam todas as instâncias como unidades fungíveis, falhando em priorizar hardware mais barato para tráfego base e reservar hardware de alto desempenho apenas para picos.
Violação de SLOs e Subutilização: A falta de compreensão do estado de saturação leva a overscaling (desperdício de energia) ou underscaling (falhas de requisição e aumento de latência), especialmente durante picos de tráfego súbitos.

2. Metodologia e Arquitetura

O artigo apresenta o WVA (Workload Variant Autoscaler), um plano de controle especializado co-projetado com o framework de inferência distribuída llmd. O WVA atua como uma camada de orquestração "white-box" que entende profundamente o estado do motor de inferência.

Conceitos Chave:

Abstração de Variantes (Variant): O WVA introduz a "Variante" como uma abstração de primeira classe, definida pela tupla: <Hardware, Parallelism, Quantization>. Isso permite tratar diferentes configurações de hardware (ex: A100 com 2 GPUs vs. H100 com 4 GPUs) como opções otimizáveis distintas, não apenas como réplicas idênticas.
Modelo de Saturação (Saturação Baseada em Headroom):
- Em vez de mirar em uma utilização média de recursos, o WVA monitora métricas específicas do motor: uso de KV Cache e profundidade da fila.
- Define um limite de saturação ( $\tau$ ) além do qual a latência degrada não linearmente.
- Utiliza uma abordagem proativa baseada em "Headroom" (margem de segurança): calcula a capacidade necessária para manter uma reserva de segurança ( $\delta$ ) para absorver picos de tráfego antes que a saturação ocorra.
Otimização Global:
- Escalonamento por Fragmentação: O sistema evita desligar réplicas se houver saturação localizada (fragmentação), garantindo que apenas réplicas verdadeiramente ociosas sejam removidas.
- Tiering Consciente de Custo: O otimizador prioriza variantes de menor custo (ex: A100) para o tráfego base. Apenas quando essas variantes atingem a saturação ou o custo-benefício muda, o sistema escala para variantes de alto desempenho (ex: H100).
Arquitetura Modular: O WVA é construído com interfaces plugáveis para:
- Coletor de Métricas: Suporta diversas fontes (Prometheus, endpoints locais).
- Política de Autoscaling: Permite a injeção de estratégias personalizadas.
- Descoberta de Recursos: Funciona em ambientes heterogêneos e não-Kubernetes.

3. Principais Contribuições

Plano de Controle "White-Box": A integração profunda com o llmd permite que o escalador tome decisões baseadas no estado interno do motor (KV Cache, filas), superando a abstração vazada dos escaladores tradicionais.
Otimização de Variantes: A capacidade de gerenciar clusters heterogêneos como um pool unificado, escalando variantes baratas primeiro e variantes caras sob demanda, otimizando simultaneamente custo e desempenho.
Mecanismo de Headroom Proativo: Uma lógica de controle que calcula a capacidade exata necessária para manter uma margem de segurança, prevenindo a degradação de latência antes que ela aconteça, em vez de reagir a ela.
Arquitetura Extensível: O design baseado em interfaces (Go) permite que operadores adaptem o escalador a diferentes motores de inferência e estratégias de otimização sem modificar o núcleo do código.

4. Resultados Experimentais

Os autores validaram o WVA através de simulações determinísticas e em um cluster físico com 200 GPUs NVIDIA H100, comparando-o com o HPA padrão do Kubernetes.

Aumento de Throughput: O WVA alcançou uma melhoria de 37% no throughput efetivo em comparação ao HPA, especialmente em taxas de requisição moderadas a altas (5 RPS), ao evitar a degradação por filas de espera.
Redução de Falhas: Houve uma redução de 10x nas falhas de requisição (rejeições HTTP 429/503). O HPA tende a rejeitar requisições quando o sistema atinge a saturação média, enquanto o WVA mantém a margem de segurança.
Eficiência de Custo e Energia: A estratégia de tiering priorizou automaticamente GPUs A100 (mais baratas e com menor consumo de energia em carga parcial) para o tráfego base, escalando para H100 apenas quando necessário, reduzindo o consumo total de energia.
Estabilidade de Latência: O WVA manteve o Time To First Token (TTFT) e a latência entre tokens (ITL) estáveis dentro dos limites de SLO até o limite de capacidade do cluster, enquanto o HPA apresentou picos de latência e rejeição de tráfego.

5. Significado e Conclusão

O WVA representa uma mudança de paradigma na orquestração de IA, movendo-se de uma escalabilidade baseada em recursos genéricos para uma escalabilidade baseada em SLOs e heterogeneidade.

Impacto Industrial: Oferece uma solução prática para o dilema de custo vs. desempenho em MaaS (Model-as-a-Service), permitindo que provedores reduzam custos operacionais sem comprometer a experiência do usuário.
Generalização: A abordagem de "integração vertical profunda" (onde o escalador e o motor de inferência compartilham uma linguagem comum de saturação) é apresentada como um padrão essencial para futuros sistemas de serviço de IA.
Sustentabilidade: Ao otimizar o uso de hardware e reduzir o desperdício de recursos ociosos, o WVA contribui para a sustentabilidade energética de data centers de IA.

O trabalho conclui que o WVA é um passo fundamental para infraestruturas de IA sustentáveis e de alto desempenho, com planos futuros focados em escalabilidade preditiva (usando modelos de previsão de tráfego) e otimização consciente de energia (carbono).