Expert Divergence Learning for MoE-based Language Models

O artigo apresenta a "Expert Divergence Learning", uma estratégia de pré-treinamento que utiliza uma perda auxiliar baseada em rótulos de domínio para maximizar a divergência entre as distribuições de roteamento dos especialistas, promovendo assim uma especialização funcional eficaz em modelos de linguagem MoE e melhorando o desempenho em tarefas downstream sem sobrecarga computacional significativa.

Jiaang Li, Haibin Chen, Langming Liu, Yujin Yuan, Yadao Wang, Yizhen Zhang, Chengting Yu, Xin Tong, Weidong Zhang, Shilei Liu, Wenbo Su, Bo Zheng

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo um super time de especialistas para resolver qualquer problema que o mundo possa jogar em cima deles. Esse é o objetivo de uma arquitetura de Inteligência Artificial chamada MoE (Mixture of Experts, ou "Mistura de Especialistas").

Nesses modelos, em vez de ter um único cérebro gigante que tenta saber tudo, você tem muitos "cérebros menores" (os especialistas). Quando o modelo recebe uma pergunta, um "gerente" (o roteador) decide qual desses cérebros deve trabalhar naquele momento.

O Problema: A "Homogeneização" (Todos iguais)

O artigo começa dizendo que, embora essa ideia seja genial, na prática ela costuma dar errado. Por que? Porque, sem uma direção clara, todos os especialistas acabam aprendendo a mesma coisa.

A Analogia do Restaurante:
Imagine que você contrata 10 cozinheiros para um restaurante. O ideal seria que um fosse especialista em sushi, outro em pizza, outro em sobremesas, etc.
Mas, no treinamento padrão, o gerente diz apenas: "Vocês precisam dividir o trabalho igualmente". O resultado? Todos os 10 cozinheiros tentam aprender a fazer um pouco de tudo. Ninguém fica realmente bom em nada específico. Eles se tornam "generalistas" medíocres. No mundo da IA, chamamos isso de homogeneização de especialistas. Eles se tornam redundantes e o modelo não atinge seu potencial máximo.

A Solução: "Aprendizado de Divergência de Especialistas"

Os autores deste paper (da Alibaba) propuseram uma nova regra para o treinamento. Eles criaram um método chamado Expert Divergence Learning.

A Analogia do Mapa de Tesouro:
Em vez de apenas dizer "trabalhem juntos", eles deram a cada especialista um mapa de tesouro diferente baseado no tipo de dado que está sendo processado.

  • Se o texto é sobre Matemática, o sistema força um grupo específico de especialistas a trabalhar.
  • Se é sobre História, outro grupo diferente é ativado.
  • Se é sobre Culinária, um terceiro grupo assume.

Eles usam um "auxílio" (uma perda auxiliar no treinamento) que diz ao modelo: "Ei, a forma como você escolhe os especialistas para textos de Matemática deve ser muito diferente da forma como você escolhe para textos de História."

Isso força os especialistas a se "divergirem". Eles são obrigados a se especializar em nichos específicos, criando uma verdadeira equipe de especialistas, onde cada um brilha em sua área.

Como eles testaram?

Eles treinaram modelos gigantes (de até 15 bilhões de parâmetros) do zero.

  • O que eles fizeram: Usaram dados da internet que já vinham com "etiquetas" (saber se o texto era inglês, chinês, matemática, ou sobre temas específicos como esportes, política, etc.).
  • O resultado: Os modelos treinados com essa nova regra aprenderam mais rápido, cometeram menos erros e ficaram muito melhores em testes de raciocínio, matemática e idiomas do que os modelos tradicionais.

O Pulo do Gato: Mais detalhes, melhor resultado

Eles descobriram que quanto mais específico era o "mapa", melhor funcionava.

  • Versão Simples: Separar apenas por "Inglês, Chinês e Matemática" (3 classes) já ajudou.
  • Versão Detalhada: Separar por 49 temas diferentes (como "Política", "Tecnologia", "Medicina", "Esportes") fez o modelo ficar ainda mais inteligente.

Isso mostra que, quando você dá instruções claras sobre quem deve fazer o quê, a IA aprende a se organizar de forma muito mais eficiente.

Conclusão Simples

Este paper nos ensina que, para criar IAs mais inteligentes e eficientes, não basta apenas ter muitos "cérebros". É preciso ensinar cada um deles a ter uma função única e clara.

Ao usar um método que força os especialistas a se diferenciarem uns dos outros (divergência) com base no tipo de informação, os autores conseguiram criar modelos que são mais rápidos, mais baratos de rodar e, principalmente, muito mais inteligentes do que os modelos atuais. É como transformar um grupo de generalistas medíocres em uma equipe de gênios especializados.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →