MoE-GRPO: Optimizing Mixture-of-Experts via Reinforcement Learning in Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um super time de especialistas trabalhando juntos para responder perguntas sobre imagens e vídeos. Esse time é chamado de MoE (Mistura de Especialistas).

No modelo tradicional, quando uma pergunta chega (como "quantos cachorros há nesta foto?"), um "gerente" (o roteador) olha para a pergunta e escolhe sempre os mesmos 2 ou 3 especialistas que têm a maior pontuação inicial. É como se o gerente dissesse: "Sempre chame o João e a Maria, eles são os melhores!".

O problema?
Isso é muito rígido. Às vezes, para uma pergunta específica, o "João" não é o melhor, mas o gerente continua chamando ele porque é o costume. Isso faz com que o time fique "preguiçoso" e dependa demais das mesmas pessoas, perdendo a chance de usar outros talentos que poderiam dar uma resposta melhor. É como tentar resolver um quebra-cabeça complexo usando sempre as mesmas duas peças.

A Solução: MoE-GRPO (O Treinador Inteligente)

Os autores deste paper criaram um novo método chamado MoE-GRPO. Em vez de seguir regras fixas, eles transformaram o processo em um jogo de aprendizado por tentativa e erro, usando Inteligência Artificial (Reinforcement Learning).

Aqui está como funciona, usando analogias simples:

1. O "Ginásio de Treino" (Exploração)

No método antigo, o gerente escolhia os especialistas de forma automática e chata. No MoE-GRPO, o modelo faz várias tentativas diferentes para a mesma pergunta.

Tentativa 1: Chama o João e a Maria.
Tentativa 2: Chama o Pedro e a Ana.
Tentativa 3: Chama a Maria e o Pedro.

O modelo gera várias respostas possíveis (como se fosse um time jogando várias partidas de treino).

2. O "Apito do Árbitro" (Recompensa)

Depois de cada tentativa, um "árbitro" (a função de recompensa) olha para a resposta.

Se a resposta estiver certa, o time ganha pontos (recompensa).
Se estiver errada, não ganha nada.

O segredo do MoE-GRPO é que ele não olha apenas para a resposta final. Ele olha para quem foi chamado em cada tentativa. Se a tentativa que chamou o "Pedro e a Ana" acertou, o modelo aprende: "Ah! Para esse tipo de pergunta, é melhor chamar o Pedro e a Ana, não o João!".

Com o tempo, o "gerente" aprende a escolher a combinação perfeita de especialistas para cada situação, em vez de seguir um roteiro fixo.

3. O "Guia de Modais" (O Truque Extra)

O papel menciona uma coisa chamada "Guia de Roteador Consciente de Modalidade". Vamos imaginar que o time tem especialistas para imagens e especialistas para texto.

Se você está mostrando uma foto de um cachorro, não faz sentido chamar o especialista que só sabe ler poesia.
Esse guia funciona como um filtro inteligente que diz ao gerente: "Ei, estamos olhando uma foto, não perca tempo chamando os especialistas de texto agora, foque nos de imagem!".

Isso evita que o modelo tente coisas inúteis (como tentar ler uma imagem com um especialista de texto), tornando o aprendizado mais rápido e estável.

Por que isso é importante?

Menos "Vício": O modelo não fica viciado em usar sempre os mesmos especialistas. Ele aprende a diversificar, usando o time todo de forma mais inteligente.
Melhor Generalização: Como o modelo aprendeu a escolher o melhor especialista para cada situação, ele se sai muito melhor em perguntas novas e em diferentes tipos de tarefas (imagens, vídeos, textos), sem "quebrar" quando vê algo diferente.
Resultados: Nos testes, esse novo método (MoE-GRPO) venceu os métodos antigos em quase todas as provas de compreensão de imagem e vídeo.

Resumo em uma frase:

O MoE-GRPO ensina o modelo a não ser um "robô" que segue regras cegas, mas sim um estrategista inteligente que aprende, por tentativa e erro, qual especialista chamar em cada momento para garantir a resposta mais precisa, tudo isso guiado por um filtro que sabe se estamos olhando uma foto ou lendo um texto.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: MoE-GRPO

1. O Problema

Os Modelos de Linguagem e Visão (VLMs) baseados em arquiteturas Mixture-of-Experts (MoE) tornaram-se populares por permitirem escalar a capacidade do modelo ativando apenas um subconjunto esparso de parâmetros (especialistas) para cada token, reduzindo custos computacionais. No entanto, a maioria das arquiteturas MoE existentes utiliza um mecanismo de roteamento determinístico Top-K.

Limitações do Top-K: Este método seleciona os $K$ especialistas com as maiores pontuações de "gate" de forma determinística. Isso restringe a exploração de combinações de especialistas mais otimizadas, levando frequentemente ao sobreajuste (overfitting) em um subconjunto pequeno de especialistas e limitando a especialização por tarefa.
Falha em Abordagens Anteriores: Métodos que introduzem estocasticidade heurística (como adição de ruído gaussiano) não otimizam explicitamente a "política" de seleção de especialistas, falhando em resolver o problema fundamental de aprender a estratégia de roteamento ideal.

2. Metodologia: MoE-GRPO

Os autores propõem o MoE-GRPO, um framework baseado em Aprendizado por Reforço (RL) que reformula a seleção de especialistas como um problema de tomada de decisão sequencial. O método utiliza o algoritmo Group Relative Policy Optimization (GRPO).

Componentes Principais:

Formulação como Decisão Sequencial: Ao contrário do GRPO padrão (que otimiza a geração de tokens), o MoE-GRPO define uma "ação" como a seleção de $K$ especialistas para um token em uma camada específica. O espaço de ação expande-se para incluir decisões de roteamento através de tokens e camadas.
Objetivo de Treinamento Híbrido: A função de perda total combina dois sub-objetivos:
1. Token-GRPO: Otimiza a qualidade da geração de sequências de tokens (respostas finais) com base nas recompensas.
2. Gate-GRPO: Otimiza diretamente as funções de gate (roteamento) em cada camada, fornecendo sinais de supervisão densos e granulares para a seleção de especialistas.
Mecanismo de Recompensa: Utiliza recompensas verificáveis baseadas em precisão (1 para resposta correta, 0 para incorreta). O GRPO calcula vantagens relativas dentro de um grupo de múltiplas "rollouts" (trajetórias amostradas) para atualizar a política, reforçando combinações de especialistas que geram recompensas mais altas.
Guia de Roteamento Consciente de Modalidade (Modality-Aware Router Guidance):
- Para evitar exploração ineficiente de um espaço de busca vasto, o método introduz uma restrição inteligente.
- Calcula pontuações de "consciência de modalida" (visão vs. texto) para cada especialista baseando-se na frequência de ativação histórica.
- Desativa os $P\%$ de especialistas menos relevantes para a modalida atual (ex: desativa especialistas focados em texto ao processar tokens visuais), restringindo a exploração a especialistas relevantes e melhorando a estabilidade e eficiência do treinamento.

3. Contribuições Chave

Primeira Formulação RL para Roteamento MoE: É o primeiro trabalho a formular a seleção de especialistas em VLMs como um problema de decisão sequencial e otimizá-lo via RL, superando a limitação do roteamento Top-K determinístico.
Guia de Roteamento Consciente de Modalidade: Introduz um mecanismo que estabiliza o treinamento ao impedir a exploração de especialistas irrelevantes para a modalida de entrada, acelerando a convergência.
Especialização por Tarefa e Diversidade: Demonstra que o método induz uma especialização de especialistas ao nível da tarefa (diferentes especialistas para diferentes tipos de problemas) enquanto mantém uma utilização equilibrada ao nível do token.

4. Resultados Experimentais

Os experimentos foram conduzidos convertendo a arquitetura InternVL3.5-1B em MoE (ativando 1.3B de 2.9B parâmetros) e aplicando o MoE-GRPO.

Benchmarks Multimodais (Imagem e Vídeo): O MoE-GRPO superou consistentemente o roteamento Top-K determinístico (Det-FT) e variantes estocásticas (Stoch-FT) em 7 de 9 benchmarks, incluindo MMBench, MMStar e MLVU. Houve um ganho médio de precisão de 2.0% a 2.3% sobre as melhores linhas de base.
Generalização Cross-Dataset: Ao ser aplicado ao CLIP-MoE para classificação de imagens, o MoE-GRPO superou o ajuste fino determinístico em 9 de 10 datasets alvo, evitando a degradação de desempenho (overfitting) observada no baseline.
Generalização de Domínio: Em testes de domínio fora de distribuição (ex: ImageNet-A, ImageNet-R), o MoE-GRPO obteve ganhos significativos (média de 4.1% sobre o CLIP-MoE base e 1.5% sobre o Det-FT), demonstrando maior robustez.
Análises de Ablação:
- A combinação de Token-GRPO e Gate-GRPO é essencial; usar apenas um resulta em queda de desempenho.
- O Guia Consciente de Modalidade superou abordagens agnósticas (ruído gaussiano ou amostragem multinomial pura) em 1.5%, convergindo mais rápido e com menor variância de recompensa.
- A diversidade de ativação de especialistas aumentou (entropia de 1.05 para 1.82), indicando uma utilização mais equilibrada dos recursos do modelo.

5. Significado e Impacto

O MoE-GRPO representa um avanço significativo na eficiência e capacidade de generalização de VLMs. Ao substituir a lógica determinística de roteamento por uma política aprendida via RL, o método permite que o modelo descubra combinações de especialistas mais otimizadas para tarefas específicas, sem aumentar o custo de inferência (que permanece determinístico após o treinamento).

A descoberta de que a diversidade na seleção de especialistas leva a uma melhor generalização e menor sobreajuste sugere que o futuro dos modelos grandes (LLMs e VLMs) pode depender não apenas de escalar parâmetros, mas de otimizar dinamicamente como esses parâmetros são ativados. O framework oferece uma nova direção para treinar arquiteturas MoE complexas de forma estável e eficiente.