Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design

Este artigo propõe uma nova lei de escalonamento para modelos Mixture-of-Experts (MoE) que define uma relação de potência para a alocação ótima de computação entre camadas de atenção e especialistas, permitindo o ajuste preciso de arquiteturas escaláveis dentro de orçamentos de computação fixos.

Junzhuo Li, Peijie Jiang, Changxin Tian, Jia Liu, Zhiqiang Zhang, Xuming Hu

Publicado 2026-03-12
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo um super-estádio de futebol (o nosso modelo de Inteligência Artificial) e tem um orçamento fixo de dinheiro e energia para fazê-lo funcionar. O objetivo é ter o melhor time possível para jogar e ganhar jogos (resolver problemas de linguagem).

Neste estádio, existem dois tipos de jogadores essenciais:

  1. Os "Especialistas" (Experts): São como jogadores de elite que sabem fazer coisas muito específicas, como chutar de longe, defender cantos ou fazer jogadas de estratégia. Eles são muito fortes, mas o estádio é grande demais para todos entrarem em campo de uma vez. Então, a cada lance, apenas alguns são chamados.
  2. Os "Observadores" (Attention): São como os capitães e táticos que olham para todo o campo, entendem o contexto, veem onde a bola está e dizem para quem passar o jogo. Eles precisam estar sempre atentos a tudo.

O Problema: Como dividir o dinheiro?

Antes deste estudo, os construtores de estádios (cientistas de IA) tinham uma regra meio "achada": "Vamos gastar 50% do dinheiro nos Especialistas e 50% nos Observadores, não importa o tamanho do estádio."

Mas a equipe deste artigo (Junzhuo Li e colegas) descobriu que essa regra está errada. Eles provaram que a melhor divisão de dinheiro muda dependendo de dois fatores:

  1. O tamanho do orçamento total: Quanto mais dinheiro você tem para gastar no total.
  2. A "seletividade" dos Especialistas: Quantos especialistas você deixa entrar em campo de cada vez (chamado de espalhamento ou sparsity).

A Descoberta Principal: A "Lei da Divisão Dinâmica"

Os pesquisadores fizeram um monte de experimentos e descobriram uma fórmula mágica (uma lei de escala).

A analogia do crescimento:
Imagine que você tem um pequeno time de bairro.

  • No começo (orçamento pequeno): Você precisa gastar a maior parte do dinheiro nos Observadores. Por quê? Porque com poucos jogadores, o time precisa entender o jogo básico, ver onde a bola está e não errar passes. Se você gastar tudo em especialistas caros, eles ficam sem saber o que fazer porque o time não tem estrutura.
  • No final (orçamento gigante): Quando você tem um orçamento de Champions League, a coisa muda. Agora que o time já sabe jogar o básico, você pode começar a contratar mais e mais Especialistas. Com um orçamento enorme, vale a pena ter um time onde a maioria do dinheiro vai para os especialistas, porque eles podem aprender detalhes super complexos que os observadores sozinhos não conseguem.

A regra de ouro do papel:

  • Se o seu modelo é pouco seletivo (muitos especialistas jogam de uma vez), você deve investir muito mais nos especialistas conforme o modelo cresce.
  • Se o seu modelo é muito seletivo (apenas 1 ou 2 especialistas jogam), você deve manter um equilíbrio maior com os observadores, mesmo com muito dinheiro.

Por que isso é importante?

Antes, se você tivesse um orçamento fixo (digamos, 1 milhão de dólares em energia de computador) e quisesse treinar um modelo gigante, você poderia estar desperdiçando dinheiro.

  • Se você gastasse demais nos especialistas cedo demais, o modelo ficaria "burro" em entender o contexto.
  • Se gastasse demais nos observadores quando já era grande, o modelo não aprenderia detalhes complexos.

Este artigo dá a você um mapa de tesouro. Ele diz: "Se você tem X de dinheiro e quer usar Y de especialistas, gaste exatamente Z% do seu dinheiro nos especialistas e o resto nos observadores para ter o melhor desempenho possível."

Resumo em uma frase:

Não existe uma receita de bolo fixa para dividir o dinheiro entre "quem entende o contexto" e "quem faz a tarefa específica". A melhor divisão muda conforme o seu modelo cresce e quanto você deixa os especialistas trabalharem, e os autores descobriram a fórmula exata para não desperdiçar nenhum centavo do seu orçamento de computador.