Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo um time de especialistas para resolver problemas. Você tem dois tipos de desafios: memorizar fatos (como nomes de capitais ou datas históricas) e raciocinar (como resolver equações de matemática complexas ou escrever um código de computador).

Este artigo de pesquisa (publicado na conferência ICLR 2026) investiga como devemos montar esse time de especialistas usando uma arquitetura chamada Mixture-of-Experts (MoE).

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Cenário: O "Time de Consultores"

Imagine que sua Inteligência Artificial é um escritório gigante.

Modelos Densos (Antigos): São como um escritório onde todos os funcionários leem e processam todas as perguntas. É pesado e lento.
Modelos MoE (Novos): São como um escritório com 100 consultores especialistas. Quando chega uma pergunta, um "gerente" (o roteador) olha e escolhe apenas 2 consultores para responder. Os outros 98 ficam parados. Isso economiza energia (computação), mas permite ter um escritório enorme (muitos parâmetros).

2. O Grande Descobrimento: Nem Tudo o que Brilha é Ouro

Os cientistas achavam que, quanto mais consultores (especialistas) você tivesse no escritório, melhor seria a resposta, desde que o custo de energia fosse o mesmo. Eles queriam saber: "Devo ter 100 consultores e usar apenas 2? Ou 10 consultores e usar todos?"

A resposta surpreendente é: Depende do tipo de problema.

A. Para Memorização (Trivia, Histórias)

A Analogia: É como ter uma biblioteca gigante.
O Resultado: Quanto mais consultores você tiver no total (mesmo que use apenas 2 por vez), melhor. A "espalhamento" dos especialistas ajuda a guardar mais informações.
Conclusão: Para memorizar, espalhe o conhecimento. Tenha um time enorme, mas use pouco dele a cada momento.

B. Para Raciocínio (Matemática, Lógica, Código)

A Analogia: É como um grupo de trabalho resolvendo um quebra-cabeça complexo.
O Resultado: Aqui, ter um time gigante e usar apenas 2 pessoas piora a performance. Por quê? Porque cada especialista recebe muito pouca "informação" (dados) para aprender. Eles ficam "subnutridos".
O Ponto Ideal: Para raciocinar, você precisa de um equilíbrio. Não pode ter um time gigante com poucos dados (os especialistas ficam burros por falta de prática) nem um time pequeno com muitos dados (falta de capacidade).
Regra de Ouro: O modelo de raciocínio funciona melhor quando há cerca de 20 palavras (tokens) para cada especialista. Se houver menos, o especialista não aprende o suficiente. Se houver mais, o especialista é desperdiçado.

3. A Ilusão da "Pós-Entrenamento" (Ajuste Fino)

Muitas empresas tentam consertar modelos ruins depois de treiná-los, usando técnicas como GRPO (Reforço de Aprendizado) ou pedindo para o modelo "pensar mais" antes de responder (Cálculo no Tempo de Teste).

A Analogia: É como tentar ensinar um aluno que não estudou o suficiente a passar em um exame difícil apenas fazendo ele revisar a prova na véspera ou dando dicas de como responder.
O Resultado: O artigo mostra que não adianta. Se o modelo foi treinado de forma errada (com muitos especialistas e poucos dados para cada um), nenhuma quantidade de "revisão" ou "pensamento extra" vai consertar a falta de raciocínio. A base precisa estar certa desde o início.

4. O Veredito Final

O papel diz que a "fórmula mágica" para criar a melhor IA não é apenas aumentar o tamanho ou a quantidade de dados. É preciso encontrar o ponto ideal de densidade:

Para guardar fatos: Use modelos muito esparsos (muitos especialistas, poucos ativos).
Para raciocinar: Use modelos mais "densos" (menos especialistas totais, mas use mais deles a cada vez) e garanta que cada especialista tenha dados suficientes para aprender profundamente.

Resumo em uma frase:
Se você quer que sua IA seja um livro de referência, tenha muitos consultores e deixe-os descansar. Se você quer que ela seja um gênio da matemática, tenha menos consultores, mas garanta que eles trabalhem juntos mais vezes e estudem bastante antes de serem chamados.

Each language version is independently generated for its own context, not a direct translation.

Título: Esparsidade Ótima de Modelos de Linguagem Mixture-of-Experts (MoE) para Tarefas de Raciocínio

1. Problema e Motivação

As leis de escalonamento empíricas (scaling laws) têm guiado o desenvolvimento de Grandes Modelos de Linguagem (LLMs), relacionando perda de treinamento, tamanho do modelo e orçamento de computação. No entanto, os coeficientes dessas leis mudam quando a arquitetura ou o pipeline de dados são alterados.

O Desafio: Modelos Mixture-of-Experts (MoE) tornaram-se padrão em sistemas de ponta (como Gemini 2.5, DeepSeek-V3, Qwen3) por oferecerem alta capacidade com custo computacional fixo. A questão central é: qual é a esparsidade ótima (relação entre parâmetros totais e parâmetros ativos) para diferentes capacidades?
A Lacuna: A literatura anterior frequentemente assume que aumentar a esparsidade (mais especialistas, menos ativos por token) é sempre benéfico sob um orçamento fixo de FLOPs. Este trabalho questiona se essa regra se aplica uniformemente a tarefas de memorização (ex: TriviaQA) versus tarefas de raciocínio (ex: GSM8K, GSM-Plus, HumanEval).

2. Metodologia

Os autores realizaram uma exploração em larga escala de famílias de modelos MoE baseados na arquitetura Mixtral, variando sistematicamente três hiperparâmetros arquitetônicos sob orçamentos de computação fixos:

Largura do modelo ( $d$ ): 512, 1024, 2048.
Número de especialistas por camada ( $E$ ): 8 a 256.
Top-k (especialistas ativos): 2, 4, 8, 16.

Configuração Experimental:

Corpus de Treinamento: Mistura balanceada de 125B de tokens (Web de alta qualidade, STEM, Matemática, Código). O tamanho do corpus foi mantido fixo para isolar o efeito da arquitetura.
Avaliação:
- Memorização: TriviaQA, HellaSwag.
- Raciocínio Matemático: GSM8K, GSM-Plus.
- Raciocínio de Código: HumanEval, MBPP.
Pós-treinamento e Inferência: Investigaram se técnicas como GRPO (Reinforcement Learning com Group Relative Policy Optimization) e Test-Time Compute (TTC) (ex: Self-Consistency) poderiam mitigar quaisquer deficiências causadas pela esparsidade subótima.
Métricas: Analisaram a perda de treinamento, perda da tarefa (task loss) e acurácia, desconstruindo a relação entre perda e precisão.

3. Contribuições Principais e Descobertas

O estudo revela que a relação entre esparsidade e desempenho não é monotônica e depende criticamente do tipo de tarefa. Dois princípios fundamentais emergem:

A. FLOPs Ativos vs. Perda de Treinamento

Descoberta: Modelos com a mesma perda de treinamento, mas com maior número de FLOPs ativos (maior $k$ no top-k), alcançam maior precisão em tarefas de raciocínio.
Implicação: A perda de pré-treinamento sozinha é um indicador enganoso para raciocínio. A capacidade de inferência ativa (quantos especialistas processam cada token) é crucial.

B. Tokens por Parâmetro (TPP) e a Curva em U

Memorização: Tarefas de memorização são "famintas por parâmetros". Elas melhoram monotonicamente à medida que a esparsidade aumenta (mais especialistas totais, menor TPP), pois o modelo ganha capacidade de armazenamento.
Raciocínio: Tarefas de raciocínio são "famintas por dados". Elas exibem uma relação não-monotônica (em forma de U) com o TPP:
- O desempenho atinge um pico em torno de 20 tokens por parâmetro.
- Se o TPP for muito baixo (muitos parâmetros para poucos dados), o modelo sofre de "fome de dados" (cada especialista recebe poucos tokens para aprender).
- Se o TPP for muito alto (poucos parâmetros para muitos dados), o modelo fica sub-capacitado.
Conclusão: Para raciocínio, aumentar excessivamente a esparsidade (aumentando $E$ e mantendo $k$ fixo) sob um orçamento fixo de dados degrada o desempenho, invertendo a tendência observada em modelos densos ou em tarefas de memorização.

C. Robustez a Pós-treinamento e Inferência

A aplicação de GRPO (RL) ou aumento do Test-Time Compute (mais tempo de inferência) não elimina a degradação de desempenho causada por uma esparsidade subótima no pré-treinamento.
Isso indica que a escolha da esparsidade deve ser feita durante o pré-treinamento; não é possível "corrigir" uma arquitetura de pré-treinamento ruim apenas com mais inferência ou ajuste fino.

4. Resultados Quantitativos e Gráficos Chave

Figura 2 & 3: Mostram que, para GSM8K, a perda da tarefa e a acurácia pioram (curva em U) quando o número total de parâmetros aumenta além de um certo limiar, mesmo que a perda de treinamento continue a cair. Para TriviaQA, a melhoria é contínua.
Figura 5 & 8: Em orçamentos de FLOPs fixos, aumentar a esparsidade melhora tarefas de memorização, mas para tarefas de raciocínio (Matemática e Código), quando a capacidade ativa é alta, modelos mais densos (menor esparsidade) superam os modelos mais esparsos.
Figura 7: Confirma o pico de desempenho de raciocínio em TPP $\approx$ 20.

5. Significado e Impacto

Este trabalho revisa a visão clássica de escalonamento ótimo para LLMs MoE:

Revisão das Leis de Escalonamento: A esparsidade ótima não é universal. Ela deve ser determinada conjuntamente pelos FLOPs Ativos e pela razão Tokens por Parâmetro (TPP).
Diretrizes de Projeto:
- Para memorização: Prefira modelos mais esparsos (mais especialistas totais).
- Para raciocínio: Em orçamentos de computação elevados, prefira configurações mais densas (menor esparsidade) para garantir que cada especialista tenha dados suficientes para aprender padrões complexos.
Limitações e Futuro: O estudo sugere que, com corpora de treinamento maiores (ex: 1T de tokens), a esparsidade ótima para raciocínio pode mudar novamente, mas sob orçamentos atuais, o equilíbrio entre capacidade ativa e densidade de dados é crítico.

Em resumo, o artigo demonstra que mais especialistas não significam necessariamente melhor raciocínio se isso resultar em uma diluição excessiva dos dados de treinamento por especialista. A otimização de MoE para raciocínio exige um equilíbrio cuidadoso entre a capacidade ativa (FLOPs) e a intensidade de dados por parâmetro (TPP).