The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

O artigo introduz a desigualdade qsqs, um critério preditivo que revela como a fragmentação de reutilização de memória e a redução do espaço para o cache KV penalizam estruturalmente os modelos Mixture-of-Experts (MoE) durante a inferência de longo contexto, tornando-os frequentemente menos eficientes em throughput do que modelos densos de qualidade equivalente.

Vignesh Adhinarayanan, Nuwan Jayasena

Publicado Wed, 11 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está organizando um grande evento de jantar para muitos convidados. O objetivo é servir a melhor comida possível (a "inteligência" do modelo) de forma rápida e eficiente.

Este artigo, escrito por pesquisadores da AMD, conta uma história sobre dois tipos de cozinhas: a Cozinha Densa (tradicional) e a Cozinha de Especialistas (o modelo MoE, ou Mixture-of-Experts).

Aqui está a explicação simples do que eles descobriram, usando analogias do dia a dia:

1. A Promessa vs. A Realidade

A Promessa (Treinamento):
Os modelos "Mixture-of-Experts" (MoE) foram criados para serem super eficientes durante o aprendizado. Imagine que você tem uma cozinha gigante com 1.000 chefs (os "especialistas"). Para cada prato que você pede, você só acorda 2 chefs específicos para cozinhar. Isso economiza muita energia e tempo enquanto você está aprendendo a cozinhar (treinando o modelo). É como ter uma equipe enorme, mas só usar o que precisa a cada momento.

A Realidade (Inferência/Uso):
O problema surge quando você começa a servir os pratos (o momento em que o modelo responde às perguntas dos usuários). O artigo diz que essa economia de energia desaparece e vira um pesadelo logístico.

2. A "Dupla Penalidade" (O Problema)

Os autores dizem que os modelos MoE sofrem de uma "dupla penalidade" na hora de servir:

  • Penalidade 1: O Caos na Cozinha (Fragmentação)
    Imagine que você tem 100 pedidos de entrada. Na cozinha tradicional, todos os 100 pedidos vão para a mesma estação de trabalho, e os chefs usam as mesmas panelas e temperos para todos de uma vez (reutilização eficiente).
    No modelo MoE, o "gerente" (o roteador) olha para cada pedido e diz: "O pedido 1 vai para o Chef A, o pedido 2 para o Chef B, o pedido 3 para o Chef C...".
    O resultado: Em vez de uma grande panela sendo usada 100 vezes, você tem 100 panelas pequenas sendo usadas uma única vez cada. A cozinha fica cheia de gente correndo para pegar ingredientes diferentes para cada pessoa, em vez de preparar tudo em lote. Isso é chamado de fragmentação de reutilização.

  • Penalidade 2: A Geladeira Cheia (Memória)
    Para que o sistema funcione, você precisa ter todos os 1.000 chefs e suas receitas completas na geladeira (memória do computador) o tempo todo, mesmo que só 2 estejam trabalhando.
    Isso ocupa todo o espaço da geladeira. Sobrou pouco espaço para guardar os ingredientes que você já preparou (o "KV Cache", que é a memória de longo prazo da conversa).
    O resultado: Como a geladeira está cheia de receitas inúteis, você não consegue preparar muitos pedidos ao mesmo tempo. Você é forçado a servir um cliente de cada vez, o que deixa tudo muito lento.

3. A "Desigualdade qs" (A Regra de Ouro)

Os autores criaram uma regra simples chamada Desigualdade qs para prever quando a Cozinha de Especialistas vai falhar.

  • s (Esparsidade): Quantos chefs você usa por pedido (ex: 2 de 1.000).
  • q (Qualidade): Quantos chefs uma cozinha tradicional precisaria ter para fazer o mesmo prato tão bem quanto a cozinha de especialistas.

A regra diz: Se o número de chefs que você usa é muito pequeno comparado ao tamanho da cozinha, a eficiência cai. Em termos simples: Ter muitos especialistas que você quase nunca usa é pior do que ter uma equipe menor, mas que trabalha junta e de forma organizada.

4. O Que Eles Mediram?

Eles testaram modelos famosos (como DeepSeek-V3 e Qwen) em situações de conversas longas (como ler um livro inteiro de uma vez).

  • Descoberta: Em conversas curtas, a cozinha de especialistas até consegue ser rápida, mas perde tempo com a comunicação entre os chefs.
  • Descoberta Principal: Em conversas longas, a cozinha tradicional (Densa) é 4,5 vezes mais rápida. Por quê? Porque ela consegue preparar muitos pedidos ao mesmo tempo (lotes grandes) e não perde tempo correndo para pegar ingredientes diferentes para cada um. A cozinha de especialistas fica travada, tentando carregar receitas diferentes para cada cliente, e a memória do computador fica cheia demais para aguentar a conversa longa.

5. A Conclusão (O Veredito)

O artigo conclui que:

  1. Treinar é diferente de Usar: O que é eficiente para aprender (treinar) não é necessariamente eficiente para servir (inferir).
  2. O Futuro Sugerido: Talvez a melhor estratégia seja usar os modelos "Mixture-of-Experts" apenas para treinar (aprender rápido com muitos especialistas), e depois "ensinar" esse conhecimento para um modelo Densa (uma equipe menor e mais organizada) para usar no dia a dia. É como treinar um exército gigante de especialistas, mas depois formar um esquadrão de elite pequeno e rápido para a missão final.

Resumo em uma frase:
Ter muitos especialistas que trabalham sozinhos parece inteligente no papel, mas na prática, quando você precisa responder rápido a muitas pessoas, é melhor ter uma equipe menor que trabalha junta e organizada do que uma multidão que fica correndo de um lado para o outro.