Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma cozinha gigante (o modelo de Inteligência Artificial) com 100 chefs especializados (os "experts"). Cada chef é um mestre em algo diferente: um é ótimo em matemática, outro em poesia, outro em código de computador, e outro em receitas de bolo.

Quando você pede um prato (uma frase ou uma pergunta), o chefe de cozinha (o "roteador") olha para o pedido e escolhe apenas 2 ou 3 chefs para cozinhar aquele prato específico. O resto da cozinha fica em silêncio. Isso é o que chamamos de MoE (Mistura de Especialistas). É uma forma inteligente de ter uma cozinha enorme sem precisar pagar 100 salários o tempo todo, usando apenas os especialistas necessários.

O Problema: A Cozinha no Celular

Agora, imagine que você quer levar essa cozinha gigante para um celular pequeno. O celular não tem espaço (memória) para guardar os uniformes e ferramentas de todos os 100 chefs ao mesmo tempo.

A solução usada hoje é a "Offloading" (Descarga):

Você mantém apenas alguns chefs (digamos, 5) com seus uniformes prontos na geladeira rápida do celular (memória rápida/GPU).
Os outros 95 chefs ficam em uma despensa lenta no armário (memória lenta/CPU ou disco).
Se o pedido exigir um chef que está na despensa, você tem que correr até lá, pegar o uniforme, voltar e começar a cozinhar. Isso demora muito e deixa o celular lento.

A Descoberta do Papel: "Consistência de Roteamento Local"

O grande segredo que esse papel descobriu é sobre padrões.

Se você pedir "uma receita de bolo", o chefe de cozinha provavelmente vai chamar o Chef de Bolos para o primeiro ingrediente, e provavelmente vai chamá-lo de novo para o segundo, e de novo para o terceiro. Eles trabalham juntos em sequência. Isso é alta consistência.

Mas, se você pedir algo que mistura "código de programação" com "poesia triste", o chefe pode pular do Chef de Código para a Poetisa, depois para o Chef de Matemática, e depois voltar para o Chef de Código. Isso é baixa consistência. É como se a cozinha estivesse em caos, correndo de um lado para o outro pegando uniformes.

A pergunta do papel é: Todos os modelos de IA têm esse padrão de "trabalho em equipe" consistente? E isso ajuda a economizar tempo no celular?

As Duas Regras de Ouro (Métricas)

Os autores criaram duas formas de medir isso:

SRP (O "Previsor Perfeito"): Imagine que, em vez de escolher um chef por vez, você diz: "Para os próximos 10 passos dessa receita, vamos usar apenas este grupo de 3 chefs". O SRP mede o quão bem esse grupo fixo consegue fazer o trabalho que o chefe original faria escolhendo um por um. Se o grupo fixo fizer um ótimo trabalho, o modelo é "amigável" para celulares.
SCH (O "Cache Inteligente"): Imagine que você tem uma prateleira pequena na geladeira. O SCH simula um sistema que sabe o que vai acontecer nos próximos passos e guarda os chefs certos lá. Ele mede quantas vezes você consegue pegar o chef certo na geladeira sem ter que correr até a despensa.

O Que Eles Encontraram?

Ao analisar 20 modelos diferentes (desde os pequenos até os gigantes), eles descobriram coisas fascinantes:

Nem todos são iguais: Alguns modelos (como o LLaMA-MoE-v2) são como times de futebol que jogam muito juntos. Eles usam os mesmos especialistas por longos períodos. Isso é ótimo para celulares! Outros (como o SwitchTransformer) são como um grupo de amigos que trocam de lugar a cada segundo. Isso é péssimo para celulares, pois você fica correndo para a despensa o tempo todo.
O Dilema do Equilíbrio: Existe um conflito. Se você forçar todos os chefs a trabalharem igualmente (para ninguém ficar ocioso), o modelo perde a consistência e começa a trocar de chef a todo momento. Mas, se deixar o modelo escolher naturalmente, ele pode usar alguns chefs o tempo todo e deixar outros parados.
- A solução: É melhor ter um modelo que usa alguns chefs intensamente em blocos (consistência local), mesmo que isso signifique que, no geral do dia, alguns chefs trabalhem mais que outros. O celular se beneficia mais da consistência.
Especialistas de Domínio vs. Vocabulário: Eles descobriram que chefs que são especialistas em temas (ex: "só fala de matemática") ajudam muito mais a manter a consistência do que chefs que são especialistas em palavras específicas (ex: "só usa a palavra 'banana'"). Quando o assunto muda (de matemática para história), o modelo muda de grupo de chefs de forma limpa e organizada.
O Tamanho Mágico da Geladeira: Eles descobriram que, para a maioria dos modelos, ter uma geladeira (memória) que cabe o dobro do número de chefs que estão trabalhando ativamente é o ponto ideal. Nem muito pequena (muita corrida para a despensa), nem muito grande (desperdício de espaço).

A Conclusão Simples

Este papel nos ensina que nem todo modelo de IA é igual quando tentamos rodá-lo em dispositivos pequenos como celulares.

Alguns modelos são como orquestras: os músicos tocam juntos por longos trechos. São fáceis de otimizar.
Outros são como jogos de tag: os músicos trocam de lugar a cada segundo. São difíceis de otimizar.

Para quem vai criar o próximo modelo de IA para rodar no seu celular, a dica é: projete o modelo para que ele tenha "consistência local". Ou seja, faça com que, quando o assunto for um, ele use o mesmo time de especialistas por um bom tempo antes de mudar. Isso permite que o celular guarde esses especialistas na memória rápida, evitando a "corrida para a despensa" e deixando a IA voar baixo, rápida e eficiente.

Resumo em uma frase: Nem todo modelo de IA é feito para rodar em celulares; os melhores são aqueles que "pensam em blocos" e não "pensam em saltos", permitindo que a memória do celular funcione como um bom organizador de equipe.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Consistência de Roteamento Local em Modelos MoE

1. O Problema

Os Modelos de Linguagem de Grande Escala (LLMs) baseados em Mistura de Especialistas (MoE) permitem escalar o tamanho do modelo de forma eficiente ativando apenas um subconjunto de "especialistas" (FFNs esparsos) durante a inferência. No entanto, para implantar esses modelos em dispositivos com memória limitada (como celulares ou borda), utiliza-se a técnica de descarregamento de especialistas (expert offloading), onde apenas um subconjunto de especialistas é mantido na memória rápida (GPU) e os demais ficam na memória lenta (CPU/disco), sendo carregados sob demanda.

O problema central identificado pelos autores é que a eficiência desse sistema depende criticamente da localidade das ativações dos especialistas. Se os tokens consecutivos ativam especialistas diferentes frequentemente, o sistema sofre com constantes carregamentos e descarregamentos (offloads), degradando severamente a velocidade de inferência. Embora alguns trabalhos anteriores tenham observado essa localidade, a consistência do roteamento local varia drasticamente entre diferentes arquiteturas de MoE e não foi sistematicamente estudada. Nem todos os modelos MoE são adequados para esse tipo de otimização.

2. Metodologia

Os autores propõem uma análise quantitativa da consistência de roteamento local através de duas novas métricas e uma avaliação empírica abrangente:

Métricas Propostas:
1. Desempenho Ideal de Roteamento por Segmento (SRP - Segment Routing Best Performance): Avalia o quão bem um roteador simplificado (que seleciona um grupo fixo de especialistas para todo um segmento de tokens) pode imitar as decisões do roteador original token a token. É calculado como o limite superior do escore F1. O SRP mede a consistência intrínseca sem depender de parâmetros de cache.
2. Taxa de Acerto Ideal de Cache por Segmento (SCH - Segment Cache Best Hit Rate): Simula um cache de especialistas "oráculo" que, dado um limite de tamanho de cache, mantém os especialistas que serão mais utilizados nos próximos $m$ tokens (baseado em frequência futura). A SCH mede a taxa de acerto (hit rate) desse cache ideal, servindo como um proxy direto para a eficiência de sistemas de offloading reais.
Configuração Experimental:
- Modelos Reais (REAL): Análise de 20 LLMs MoE variados, com tamanhos de 3B a 57B de parâmetros (incluindo Mixtral, DeepSeek-V2, Qwen3, Jamba, etc.).
- Modelos de Brinquedo (TOY): Pré-treinamento de modelos OLMoE-like do zero com modificações arquitetônicas controladas (ex: alteração no balanceamento de carga, presença de especialistas compartilhados, granularidade dos especialistas) para isolar fatores causais.
- Dados: Corpus diversificado incluindo dados genéricos (RedPajama) e domínios especializados (código, matemática, ciências).

3. Principais Contribuições e Descobertas

A. Trade-off entre Consistência Local e Balanceamento de Carga Local

Existe uma forte relação de trade-off: modelos com alta consistência de roteamento local (tokens consecutivos ativam os mesmos especialistas) tendem a ter um balanceamento de carga local mais pobre (alguns especialistas são muito mais ativos que outros em um curto espaço de tempo).
No entanto, é possível alcançar balanceamento de carga global (todos os especialistas são usados ao longo de diferentes tópicos) mesmo com alta consistência local. Modelos como LLaMA-MoE-v2 e Qwen3 demonstram isso: eles são consistentes localmente, mas os especialistas variam entre diferentes domínios, garantindo o uso global.

B. Impacto da Arquitetura na Consistência

Especialistas Compartilhados (Shared Experts): A presença de especialistas compartilhados (que são ativados por todos os tokens) reduz significativamente a consistência de roteamento local. Isso ocorre porque diminui o espaço de combinações de especialistas disponíveis para o roteador tomar decisões locais dinâmicas.
Espaço de Combinação: Limitar o número de combinações possíveis de especialistas (ex: ativar muito poucos ou ter muitos especialistas compartilhados) prejudica a consistência.
Camadas Interleaved: A intercalação de camadas densas e MoE tem um impacto menor comparado aos especialistas compartilhados.

C. Especialização de Domínio vs. Vocabulário

Especialistas Especializados em Domínio: Modelos que possuem especialistas dedicados a domínios específicos (ex: matemática, código) apresentam maior consistência de roteamento local nesses domínios. A especialização por domínio contribui mais para a consistência do que a especialização por vocabulário (tokens específicos).
Padrões de Ativação: Especialistas de domínio tendem a ser ativados consistentemente quando o contexto pertence àquele domínio, permitindo previsões de cache mais eficazes.

D. Tamanho Ótimo de Cache

A análise da métrica SCH revela que o tamanho de cache ideal para equilibrar eficácia e eficiência na maioria dos modelos é de aproximadamente 2x o número de especialistas ativos por token. Acima desse ponto, o ganho marginal na taxa de acerto diminui.

4. Resultados Quantitativos

Variação entre Modelos: Modelos como LLaMA-MoE-v2, OLMoE e PowerMoE exibem alta consistência (SRP > 0.5 para segmentos longos), enquanto modelos como SwitchTransformers e NLLB-MoE apresentam consistência muito baixa (SRP < 0.3).
Correlação SCH e Algoritmos Reais: A métrica SCH (ideal) tem alta correlação (>90%) com algoritmos de cache práticos como LRU (Least Recently Used) e LFU (Least Frequently Used), validando sua utilidade para prever o desempenho de sistemas reais.
Domínios: Modelos com especialistas de domínio mostram picos de consistência em domínios específicos (ex: GitHub para código, ArXiv para ciência), enquanto modelos sem essa especialização têm consistência uniforme e geralmente mais baixa.

5. Significado e Impacto

Este trabalho fornece diretrizes cruciais para o design e a implantação de modelos MoE em dispositivos com restrições de memória:

Seleção de Modelos: Nem todos os modelos MoE são adequados para offloading. Projetistas de sistemas devem verificar a consistência de roteamento local (via SRP/SCH) antes de escolher um modelo para implantação em borda.
Otimização de Arquitetura: Para melhorar a eficiência de offloading, recomenda-se evitar especialistas compartilhados excessivos e incentivar a especialização por domínio durante o treinamento, mesmo que isso sacrifique ligeiramente o balanceamento de carga local.
Configuração de Sistema: Para a maioria dos modelos, configurar o cache de especialistas para o dobro do número de especialistas ativos oferece o melhor equilíbrio entre velocidade de inferência e uso de memória.
Futuro: As descobertas permitem o desenvolvimento de modelos MoE "amigáveis ao offloading", possibilitando a execução de modelos grandes e complexos em hardware limitado sem sacrificar a velocidade de inferência.

Em suma, o artigo estabelece que a consistência de roteamento local é uma propriedade fundamental, muitas vezes negligenciada, que determina a viabilidade prática de implantar modelos MoE esparsos em ambientes de recursos limitados.

Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

O Problema: A Cozinha no Celular

A Descoberta do Papel: "Consistência de Roteamento Local"

As Duas Regras de Ouro (Métricas)

O Que Eles Encontraram?

A Conclusão Simples

Resumo Técnico: Consistência de Roteamento Local em Modelos MoE

1. O Problema

2. Metodologia

3. Principais Contribuições e Descobertas

4. Resultados Quantitativos

5. Significado e Impacto

Mais como este

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

To Throw a Stone with Six Birds: On Agents and Agenthood

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models