SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um restaurante muito famoso que atende vários tipos de clientes ao mesmo tempo: alguns pedem apenas café, outros querem um jantar completo, e alguns só querem um lanche rápido.

No mundo das Inteligências Artificiais (LLMs), acontece algo parecido. Empresas estão criando muitos "cérebros" diferentes de IA: um especialista em matemática, outro em programação, outro em direito, etc. O problema é como servir todos esses clientes de forma rápida e barata.

Aqui está a explicação do papel SUN, usando uma analogia simples:

O Problema: O Restaurante com Cozinhas Isoladas

Atualmente, quando um restaurante quer atender esses especialistas, ele faz o seguinte:

Ele contrata uma cozinha inteira (vários GPUs, que são os "chefs" de computador) para cada especialista.
Se o especialista em matemática estiver muito ocupado, a cozinha dele fica cheia.
Mas se o especialista em direito estiver com poucos pedidos, a cozinha dele fica vazia, com chefs parados olhando para a parede, gastando energia e dinheiro à toa.

Isso é ineficiente. É como ter 100 cozinhas, mas usar apenas 10 delas, enquanto as outras 90 ficam vazias. Além disso, quando a cozinha está cheia, os pedidos demoram mais para sair (a IA demora para responder).

A Solução: O "SUN" (Cozinha Compartilhada)

Os autores do paper criaram uma ideia genial chamada SUN (Shared Use of Next-token Prediction). Eles propõem mudar a forma como a cozinha funciona.

Eles dividem o trabalho de criar uma resposta em duas etapas:

A Preparação (Prefill): É quando o chef lê o pedido do cliente, entende o contexto e prepara os ingredientes. Isso é feito por um chef especialista em cada área (Matemática, Direito, etc.).
O Servir (Decode): É quando o chef começa a colocar a comida no prato, uma colherada de cada vez, até o prato ficar pronto.

A mágica do SUN:
Eles perceberam que, para a etapa de "Servir" (colocar a comida no prato), todos os chefs são basicamente iguais. Não importa se o prato é matemático ou jurídico; o movimento de servir é o mesmo.

Então, o SUN faz o seguinte:

Mantém os chefs especialistas (Prefill) separados, cada um cuidando do seu tipo de pedido.
Mas cria uma única equipe de "Servidores" (Decode) que é compartilhada por todos.

Em vez de ter 4 cozinhas com 4 servidores cada (onde 3 ficam parados), você tem 4 cozinhas de preparo, mas apenas 1 ou 2 servidores que atendem a fila de todos os pedidos juntos.

Por que isso é incrível?

Economia de Dinheiro (TCO): Você não precisa pagar por tantos "servidores" (GPUs) parados. Você consolida a equipe.
Velocidade: Se o especialista em matemática tiver muitos pedidos, ele pode usar os servidores livres que estavam sobrando do especialista em direito. Nada fica parado.
Qualidade: O papel prova que, mesmo compartilhando os servidores, a comida (a resposta da IA) continua com o mesmo sabor (precisão) de quando cada um tinha seu próprio servidor exclusivo. Eles conseguiram isso "treinando" apenas a parte de preparação para se adaptar ao servidor compartilhado.

O "QSUN": O Turbo Final

O paper também apresenta uma versão chamada QSUN. Imagine que os servidores compartilhados estão usando uniformes mais leves (tecnologia de quantização) para correr mais rápido.

Normalmente, usar uniformes mais leves faz o prato sair com menos qualidade.
Mas o QSUN ajusta a preparação (o chef especialista) para que, mesmo com o servidor rápido e leve, o prato final fique perfeito.
Resultado: A IA fica 45% mais rápida sem perder qualidade.

Resumo da Ópera

O SUN é como transformar um restaurante onde cada cliente tem sua própria cozinha e seu próprio garçomo, em um restaurante onde cada cliente tem seu próprio chef de preparo, mas todos compartilham uma equipe de garçons eficiente e dinâmica.

Isso resolve o problema de desperdício (chefs parados), acelera o serviço (garçons trabalhando juntos) e mantém a qualidade do prato, permitindo que empresas ofereçam muitas IAs diferentes a um custo muito menor.

Each language version is independently generated for its own context, not a direct translation.

Título: SUN: Uso Compartilhado de Previsão do Próximo Token para Serviço Desagregado Eficiente de Múltiplos LLMs

1. O Problema: Isolamento Inter-Modelo e Subutilização de GPU

O serviço de Grandes Modelos de Linguagem (LLMs) está evoluindo para cenários onde dezenas ou centenas de modelos especializados (ex: matemática, código, agentes) são atendidos simultaneamente. A arquitetura atual de serviço desagregado (separando as fases de prefill e decode em dispositivos distintos) resolve o problema de interferência intra-modelo, mas falha em resolver o isolamento inter-modelo.

Fragmentação de Recursos: Em sistemas convencionais, cada modelo especializado possui seu próprio conjunto dedicado de GPUs para a fase de decode.
Subutilização sob Carga Desigual: Como a distribuição de tráfego entre modelos é altamente enviesada (seguindo uma distribuição de Zipf), modelos populares ficam sobrecarregados enquanto modelos menos populares deixam suas GPUs ociosas.
Impossibilidade de Batching Cruzado: A fase de decode é limitada pela memória (memory-bound). Sem a capacidade de agrupar solicitações de diferentes modelos no mesmo lote de decode, a eficiência das GPUs cai drasticamente, aumentando o custo total de propriedade (TCO) e a latência.

2. Metodologia: SUN (Shared Use of Next-token Prediction)

O SUN propõe uma nova abordagem que permite o compartilhamento de recursos de decode entre diferentes modelos especializados, mantendo a precisão do modelo.

A. Decomposição e Fine-tuning Apenas no Prefill (Prefill-Only Tuning)

Decomposição Conceitual: O modelo Transformer é dividido em dois módulos:
1. Módulo de Prefill: Processa o prompt de entrada e gera o KV Cache (Cache de Chave-Valor).
2. Módulo de Decode: Gera tokens sequencialmente baseando-se no KV Cache.
Estratégia de Treinamento:
- Para cada tarefa (ex: matemática, código), apenas o módulo de prefill é ajustado (fine-tuned) para o domínio específico.
- O módulo de decode permanece congelado e é compartilhado entre todos os modelos.
Solução de Compatibilidade: Um desafio inicial seria que o KV Cache gerado por um prefill ajustado poderia não ser compreendido corretamente por um decode congelado. O SUN resolve isso ajustando o prefill para produzir KV Caches que são semanticamente compatíveis com o decodificador base congelado, eliminando a discrepância entre treinamento e inferência.

B. Roteamento Agnóstico ao Modelo (Model-Agnostic Routing)

Roteamento de Prefill: As solicitações são direcionadas deterministicamente para o módulo de prefill específico da tarefa (ex: uma pergunta de matemática vai para o prefill de matemática).
Roteamento de Decode: As solicitações de decode são despachadas para um pool compartilhado de trabalhadores de decode, independentemente de qual modelo gerou a solicitação. Isso permite o batching cruzado (agrupar tokens de diferentes modelos no mesmo lote), maximizando a utilização da GPU.

C. QSUN (Quantized SUN)

Para maximizar a eficiência, o SUN aplica quantização apenas nos pesos do módulo de decode (que é limitado pela memória), mantendo o prefill em precisão total (para evitar sobrecarga computacional de desquantização).
Como a quantização pode degradar a precisão, o QSUN realiza um re-ajuste apenas no módulo de prefill (prefill-only re-tuning) após a quantização. Isso ensina o prefill a gerar KV Caches compatíveis com o decodificador de baixa precisão, recuperando a acurácia perdida.

3. Principais Contribuições

Compartilhamento Robusto de Decode Cruzado: O primeiro algoritmo a eliminar o isolamento inter-modelo em serviços desagregados, permitindo que um único módulo de decode congelado sirva múltiplos modelos especializados com precisão comparável ao fine-tuning completo.
Roteamento para Alta Utilização: Implementa uma política de roteamento que equilibra a carga em um pool compartilhado, permitindo reduzir o número de GPUs de decode necessárias em até 50% sem perder throughput (vazão) do sistema.
Decodificação Quantizada com Preservação de Acurácia (QSUN): Apresenta uma técnica que combina quantização de pesos (4-bit) no decode com re-ajuste no prefill, alcançando acelerações significativas sem sacrificar a qualidade da resposta.

4. Resultados Experimentais

Os experimentos foram realizados em modelos como LLaMA3.1-8B e Qwen3, em tarefas de matemática, geração de código e chamadas de ferramentas.

Precisão: O SUN mantém uma precisão comparável ao Full Fine-Tuning (ajuste completo de todos os parâmetros) em diversas tarefas e famílias de modelos. Em alguns casos (ex: HumanEval), superou ligeiramente o Full Fine-Tuning.
Desempenho do Sistema:
- Aumento de Throughput: O SUN melhora o throughput por GPU em até 2,0x em comparação com a desagregação convencional, mantendo a latência por token de saída (TPOT) dentro de 5% do baseline.
- Resiliência a Cargas Desiguais: Sob cargas altamente enviesadas (Zipf com $\alpha=3.0$ ), o SUN mantém a interatividade e o throughput estáveis, enquanto o baseline sofre degradação severa devido ao gargalo em modelos populares e ociosidade em modelos raros.
Eficiência do QSUN:
- O QSUN oferece um acréscimo de velocidade de 45% no TPOT em relação ao SUN não quantizado.
- Recupera a precisão quase total do SUN (não quantizado), superando métodos de quantização padrão como o AWQ (Activation-aware Weight Quantization) tanto em precisão quanto em latência inicial (TTFT).
- Reduz o TTFT em 17% em comparação ao AWQ, pois mantém a fase de prefill em precisão total.

5. Significado e Impacto

O trabalho SUN representa um avanço fundamental na infraestrutura de serviço de LLMs para cenários multi-modelo:

Redução de Custos (TCO): Ao consolidar a execução de decode em um pool menor e mais eficiente de GPUs, reduz-se drasticamente a necessidade de hardware caro (especialmente GPUs com grande memória HBM).
Viabilidade de Agentes Multi-Modelo: Facilita a implantação de pipelines de agentes complexos que requerem a orquestração de dezenas de modelos especializados com baixa latência e custo reduzido.
Eficiência Energética: A maior utilização de GPU e a redução de hardware ocioso contribuem para uma operação mais sustentável.

Em resumo, o SUN transforma a arquitetura de serviço de LLMs de uma abordagem "um modelo, um conjunto de GPUs" para uma abordagem de "pool compartilhado de decodificação", resolvendo um dos principais gargalos de eficiência na era dos agentes de IA.

SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

O Problema: O Restaurante com Cozinhas Isoladas

A Solução: O "SUN" (Cozinha Compartilhada)

Por que isso é incrível?

O "QSUN": O Turbo Final

Resumo da Ópera

Título: SUN: Uso Compartilhado de Previsão do Próximo Token para Serviço Desagregado Eficiente de Múltiplos LLMs

1. O Problema: Isolamento Inter-Modelo e Subutilização de GPU

2. Metodologia: SUN (Shared Use of Next-token Prediction)

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems