SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

O SUN é uma abordagem inovadora para o serviço eficiente de múltiplos LLMs que permite o compartilhamento de módulos de decodificação entre diferentes modelos através da decomposição e ajuste fino seletivo, resultando em uma otimização significativa da utilização de GPU e do rendimento do sistema sem comprometer a precisão.

Sunghyeon Woo, Ahreum Seo, Jaegwang Lee, Jaeeun Kil, Hanbae Seo, Joonghoon Kim, Baeseong Park, Se Jung Kwon, Dongsoo Lee

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um restaurante muito famoso que atende vários tipos de clientes ao mesmo tempo: alguns pedem apenas café, outros querem um jantar completo, e alguns só querem um lanche rápido.

No mundo das Inteligências Artificiais (LLMs), acontece algo parecido. Empresas estão criando muitos "cérebros" diferentes de IA: um especialista em matemática, outro em programação, outro em direito, etc. O problema é como servir todos esses clientes de forma rápida e barata.

Aqui está a explicação do papel SUN, usando uma analogia simples:

O Problema: O Restaurante com Cozinhas Isoladas

Atualmente, quando um restaurante quer atender esses especialistas, ele faz o seguinte:

  1. Ele contrata uma cozinha inteira (vários GPUs, que são os "chefs" de computador) para cada especialista.
  2. Se o especialista em matemática estiver muito ocupado, a cozinha dele fica cheia.
  3. Mas se o especialista em direito estiver com poucos pedidos, a cozinha dele fica vazia, com chefs parados olhando para a parede, gastando energia e dinheiro à toa.

Isso é ineficiente. É como ter 100 cozinhas, mas usar apenas 10 delas, enquanto as outras 90 ficam vazias. Além disso, quando a cozinha está cheia, os pedidos demoram mais para sair (a IA demora para responder).

A Solução: O "SUN" (Cozinha Compartilhada)

Os autores do paper criaram uma ideia genial chamada SUN (Shared Use of Next-token Prediction). Eles propõem mudar a forma como a cozinha funciona.

Eles dividem o trabalho de criar uma resposta em duas etapas:

  1. A Preparação (Prefill): É quando o chef lê o pedido do cliente, entende o contexto e prepara os ingredientes. Isso é feito por um chef especialista em cada área (Matemática, Direito, etc.).
  2. O Servir (Decode): É quando o chef começa a colocar a comida no prato, uma colherada de cada vez, até o prato ficar pronto.

A mágica do SUN:
Eles perceberam que, para a etapa de "Servir" (colocar a comida no prato), todos os chefs são basicamente iguais. Não importa se o prato é matemático ou jurídico; o movimento de servir é o mesmo.

Então, o SUN faz o seguinte:

  • Mantém os chefs especialistas (Prefill) separados, cada um cuidando do seu tipo de pedido.
  • Mas cria uma única equipe de "Servidores" (Decode) que é compartilhada por todos.

Em vez de ter 4 cozinhas com 4 servidores cada (onde 3 ficam parados), você tem 4 cozinhas de preparo, mas apenas 1 ou 2 servidores que atendem a fila de todos os pedidos juntos.

Por que isso é incrível?

  1. Economia de Dinheiro (TCO): Você não precisa pagar por tantos "servidores" (GPUs) parados. Você consolida a equipe.
  2. Velocidade: Se o especialista em matemática tiver muitos pedidos, ele pode usar os servidores livres que estavam sobrando do especialista em direito. Nada fica parado.
  3. Qualidade: O papel prova que, mesmo compartilhando os servidores, a comida (a resposta da IA) continua com o mesmo sabor (precisão) de quando cada um tinha seu próprio servidor exclusivo. Eles conseguiram isso "treinando" apenas a parte de preparação para se adaptar ao servidor compartilhado.

O "QSUN": O Turbo Final

O paper também apresenta uma versão chamada QSUN. Imagine que os servidores compartilhados estão usando uniformes mais leves (tecnologia de quantização) para correr mais rápido.

  • Normalmente, usar uniformes mais leves faz o prato sair com menos qualidade.
  • Mas o QSUN ajusta a preparação (o chef especialista) para que, mesmo com o servidor rápido e leve, o prato final fique perfeito.
  • Resultado: A IA fica 45% mais rápida sem perder qualidade.

Resumo da Ópera

O SUN é como transformar um restaurante onde cada cliente tem sua própria cozinha e seu próprio garçomo, em um restaurante onde cada cliente tem seu próprio chef de preparo, mas todos compartilham uma equipe de garçons eficiente e dinâmica.

Isso resolve o problema de desperdício (chefs parados), acelera o serviço (garçons trabalhando juntos) e mantém a qualidade do prato, permitindo que empresas ofereçam muitas IAs diferentes a um custo muito menor.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →