Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

Este artigo investiga a consistência de roteamento local em modelos de Mistura de Especialistas (MoE), propondo novas métricas para analisar 20 LLMs e revelando trade-offs cruciais entre consistência e balanceamento de carga que orientam o design eficiente de sistemas com offloading de especialistas.

Jingcong Liang, Siyuan Wang, Miren Tian, Yitong Li, Duyu Tang, Zhongyu Wei

Publicado 2026-03-03
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma cozinha gigante (o modelo de Inteligência Artificial) com 100 chefs especializados (os "experts"). Cada chef é um mestre em algo diferente: um é ótimo em matemática, outro em poesia, outro em código de computador, e outro em receitas de bolo.

Quando você pede um prato (uma frase ou uma pergunta), o chefe de cozinha (o "roteador") olha para o pedido e escolhe apenas 2 ou 3 chefs para cozinhar aquele prato específico. O resto da cozinha fica em silêncio. Isso é o que chamamos de MoE (Mistura de Especialistas). É uma forma inteligente de ter uma cozinha enorme sem precisar pagar 100 salários o tempo todo, usando apenas os especialistas necessários.

O Problema: A Cozinha no Celular

Agora, imagine que você quer levar essa cozinha gigante para um celular pequeno. O celular não tem espaço (memória) para guardar os uniformes e ferramentas de todos os 100 chefs ao mesmo tempo.

A solução usada hoje é a "Offloading" (Descarga):

  • Você mantém apenas alguns chefs (digamos, 5) com seus uniformes prontos na geladeira rápida do celular (memória rápida/GPU).
  • Os outros 95 chefs ficam em uma despensa lenta no armário (memória lenta/CPU ou disco).
  • Se o pedido exigir um chef que está na despensa, você tem que correr até lá, pegar o uniforme, voltar e começar a cozinhar. Isso demora muito e deixa o celular lento.

A Descoberta do Papel: "Consistência de Roteamento Local"

O grande segredo que esse papel descobriu é sobre padrões.

Se você pedir "uma receita de bolo", o chefe de cozinha provavelmente vai chamar o Chef de Bolos para o primeiro ingrediente, e provavelmente vai chamá-lo de novo para o segundo, e de novo para o terceiro. Eles trabalham juntos em sequência. Isso é alta consistência.

Mas, se você pedir algo que mistura "código de programação" com "poesia triste", o chefe pode pular do Chef de Código para a Poetisa, depois para o Chef de Matemática, e depois voltar para o Chef de Código. Isso é baixa consistência. É como se a cozinha estivesse em caos, correndo de um lado para o outro pegando uniformes.

A pergunta do papel é: Todos os modelos de IA têm esse padrão de "trabalho em equipe" consistente? E isso ajuda a economizar tempo no celular?

As Duas Regras de Ouro (Métricas)

Os autores criaram duas formas de medir isso:

  1. SRP (O "Previsor Perfeito"): Imagine que, em vez de escolher um chef por vez, você diz: "Para os próximos 10 passos dessa receita, vamos usar apenas este grupo de 3 chefs". O SRP mede o quão bem esse grupo fixo consegue fazer o trabalho que o chefe original faria escolhendo um por um. Se o grupo fixo fizer um ótimo trabalho, o modelo é "amigável" para celulares.
  2. SCH (O "Cache Inteligente"): Imagine que você tem uma prateleira pequena na geladeira. O SCH simula um sistema que sabe o que vai acontecer nos próximos passos e guarda os chefs certos lá. Ele mede quantas vezes você consegue pegar o chef certo na geladeira sem ter que correr até a despensa.

O Que Eles Encontraram?

Ao analisar 20 modelos diferentes (desde os pequenos até os gigantes), eles descobriram coisas fascinantes:

  • Nem todos são iguais: Alguns modelos (como o LLaMA-MoE-v2) são como times de futebol que jogam muito juntos. Eles usam os mesmos especialistas por longos períodos. Isso é ótimo para celulares! Outros (como o SwitchTransformer) são como um grupo de amigos que trocam de lugar a cada segundo. Isso é péssimo para celulares, pois você fica correndo para a despensa o tempo todo.
  • O Dilema do Equilíbrio: Existe um conflito. Se você forçar todos os chefs a trabalharem igualmente (para ninguém ficar ocioso), o modelo perde a consistência e começa a trocar de chef a todo momento. Mas, se deixar o modelo escolher naturalmente, ele pode usar alguns chefs o tempo todo e deixar outros parados.
    • A solução: É melhor ter um modelo que usa alguns chefs intensamente em blocos (consistência local), mesmo que isso signifique que, no geral do dia, alguns chefs trabalhem mais que outros. O celular se beneficia mais da consistência.
  • Especialistas de Domínio vs. Vocabulário: Eles descobriram que chefs que são especialistas em temas (ex: "só fala de matemática") ajudam muito mais a manter a consistência do que chefs que são especialistas em palavras específicas (ex: "só usa a palavra 'banana'"). Quando o assunto muda (de matemática para história), o modelo muda de grupo de chefs de forma limpa e organizada.
  • O Tamanho Mágico da Geladeira: Eles descobriram que, para a maioria dos modelos, ter uma geladeira (memória) que cabe o dobro do número de chefs que estão trabalhando ativamente é o ponto ideal. Nem muito pequena (muita corrida para a despensa), nem muito grande (desperdício de espaço).

A Conclusão Simples

Este papel nos ensina que nem todo modelo de IA é igual quando tentamos rodá-lo em dispositivos pequenos como celulares.

  • Alguns modelos são como orquestras: os músicos tocam juntos por longos trechos. São fáceis de otimizar.
  • Outros são como jogos de tag: os músicos trocam de lugar a cada segundo. São difíceis de otimizar.

Para quem vai criar o próximo modelo de IA para rodar no seu celular, a dica é: projete o modelo para que ele tenha "consistência local". Ou seja, faça com que, quando o assunto for um, ele use o mesmo time de especialistas por um bom tempo antes de mudar. Isso permite que o celular guarde esses especialistas na memória rápida, evitando a "corrida para a despensa" e deixando a IA voar baixo, rápida e eficiente.

Resumo em uma frase: Nem todo modelo de IA é feito para rodar em celulares; os melhores são aqueles que "pensam em blocos" e não "pensam em saltos", permitindo que a memória do celular funcione como um bom organizador de equipe.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →