Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

O artigo apresenta o ProMoE, um novo framework de Mistura de Especialistas (MoE) para Transformadores de Difusão que supera as limitações atuais ao empregar um roteador em duas etapas com orientação explícita para especializar especialistas em tokens visuais, resultando em desempenho superior no benchmark ImageNet.

Yujie Wei, Shiwei Zhang, Hangjie Yuan, Yujin Han, Zhekai Chen, Jiayu Wang, Difan Zou, Xihui Liu, Yingya Zhang, Yu Liu, Hongming Shan

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um artista superdotado a pintar qualquer coisa que você imaginar. Até agora, os artistas mais famosos (os modelos de IA chamados "Transformers") funcionavam como um gênio solitário: ele tentava fazer tudo sozinho, de desenhar um gato até pintar um céu estrelado. O problema é que, para fazer coisas cada vez melhores e mais complexas, esse gênio precisava ficar cada vez maior e mais lento, gastando uma fortuna em energia e tempo.

Para resolver isso, os cientistas do mundo da linguagem (como os criadores do ChatGPT) inventaram uma ideia brilhante: em vez de um gênio solitário, eles criaram uma equipe de especialistas (o que chamam de "Mixture of Experts" ou MoE). Imagine uma grande sala de reuniões onde, para cada pergunta, apenas os especialistas certos são chamados para responder. Se você pergunta sobre culinária, só o chef fala; se pergunta sobre história, só o historiador fala. Isso torna o sistema muito mais inteligente sem precisar aumentar o tamanho da sala.

O Problema: Pintar vs. Escrever
Os pesquisadores descobriram que essa equipe de especialistas funcionava maravilhosamente bem para texto, mas falhava miseravelmente quando tentavam usá-la para imagens (como no modelo DiT, que gera fotos).

Por que? A diferença é como a diferença entre palavras e pontos de uma foto:

  1. Texto é denso: Cada palavra tem um significado único e forte. "Gato" é muito diferente de "Carro". É fácil para um especialista saber que deve falar sobre gatos.
  2. Imagens são redundantes: Uma foto é feita de milhões de pedacinhos (pixels). Se você tem uma foto de um céu azul, 90% dos pedacinhos são apenas "azul". Eles são todos iguais e repetitivos. Além disso, a IA precisa lidar com dois tipos de "pedacinhos" ao mesmo tempo: os que têm instruções (ex: "pinte um cachorro") e os que não têm (o fundo neutro).

Quando tentaram aplicar a equipe de especialistas nas imagens, os "especialistas" da IA ficavam confusos. Eles todos aprendiam a fazer a mesma coisa (pintar azul) porque os pedacinhos da imagem eram tão parecidos. Ninguém se especializava de verdade.

A Solução: ProMoE (O Maestro da Orquestra)
Os autores deste paper criaram o ProMoE, que é como colocar um Maestro inteligente no comando dessa equipe de pintores. Esse maestro usa um sistema de duas etapas para garantir que cada especialista saiba exatamente o que fazer:

  1. Etapa 1: O Filtro de Função (Quem faz o quê?)
    O maestro primeiro separa os pedacinhos da imagem em duas pilhas:

    • A Pilha "Instruída": São os pedacinhos que têm uma ordem específica (ex: "pinte o olho do gato").
    • A Pilha "Neutra": São os pedacinhos de fundo ou sem instrução (ex: o céu ao redor).
      Ele envia a pilha "Neutra" para um especialista dedicado apenas a fundos, e a pilha "Instruída" para os outros especialistas. Isso evita que o especialista de fundos tente aprender a pintar olhos de gato, e vice-versa.
  2. Etapa 2: O Guia de Semelhança (Quem pinta o quê?)
    Agora, com a pilha "Instruída" (o gato), o maestro usa um guia de protótipos. Imagine que cada especialista tem um "cartão de identidade" com uma imagem mental do que ele é bom em pintar (ex: um cartão com "olhos", outro com "pelagem", outro com "patas").
    O maestro olha para cada pedacinho da imagem e pergunta: "Isso se parece mais com o cartão 'olhos' ou com o cartão 'pelagem'?" Ele então entrega o pedacinho para o especialista certo.

O Segredo Extra: O Treino de Contraste
Para garantir que os especialistas não fiquem preguiçosos ou aprendam coisas erradas, o ProMoE usa uma técnica de treino chamada "Loss Contrastivo". É como um professor que diz:

  • "Especialista A, você e o Especialista B devem ser muito diferentes um do outro!" (Para garantir diversidade).
  • "Especialista A, todos os pedacinhos que você pintou devem parecer muito entre si!" (Para garantir coerência).

O Resultado?
Com esse sistema, o ProMoE consegue criar imagens incrivelmente detalhadas e realistas, superando os modelos antigos (que eram gigantes e lentos) e outros modelos de equipe que não tinham esse "Maestro" inteligente.

Em resumo:
O papel diz que, para pintar com IA, não basta ter muitos especialistas; é preciso ter um sistema de organização inteligente que entenda a diferença entre o que é "fundo" e o que é "objeto", e que direcione cada pedacinho da imagem para o artista certo. O ProMoE é esse sistema, e ele está mudando a forma como criamos imagens com inteligência artificial, tornando-as mais rápidas, baratas e bonitas.