Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

Le papier présente ProMoE, un cadre MoE pour les Transformers de diffusion qui surpasse les méthodes actuelles en introduisant un routage explicite à deux étapes guidé par des prototypes pour surmonter les défis de la spécialisation des experts dans les tokens visuels.

Yujie Wei, Shiwei Zhang, Hangjie Yuan, Yujin Han, Zhekai Chen, Jiayu Wang, Difan Zou, Xihui Liu, Yingya Zhang, Yu Liu, Hongming Shan

Publié 2026-03-03
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de peindre un tableau magnifique, mais au lieu d'avoir un seul artiste qui fait tout, vous engagez une équipe de 100 experts différents. C'est le principe du MoE (Mélange d'Experts), une technique très populaire dans l'intelligence artificielle moderne.

Dans le monde du texte (comme les chatbots), cette méthode fonctionne à merveille. Mais dans le monde de l'image, les choses se sont toujours mal passées. Pourquoi ? Parce que les images sont très différentes des mots.

Voici l'explication de la nouvelle méthode ProMoE, présentée dans ce papier, avec des analogies simples.

1. Le Problème : Pourquoi les experts se perdent dans les images

Pensez à un roman. Chaque mot est unique et porte une idée précise. Si vous demandez à un expert de lire le mot "pomme", il sait exactement de quoi il parle. C'est dense et clair.

Maintenant, pensez à une photo. Une photo est composée de milliers de petits carrés (des "patchs").

  • Redondance spatiale : Si vous regardez un ciel bleu, 100 petits carrés sont presque identiques. C'est comme si vous demandiez à 100 experts de décrire la même chose 100 fois. Ils finissent par tous dire la même chose et ne développent pas de talents spécifiques.
  • Hétérogénéité fonctionnelle : Dans la création d'images par IA, on utilise souvent une technique où l'ordinateur doit deviner à la fois "ce qu'il voit" (conditionnel) et "ce qu'il imagine sans indice" (inconditionnel). C'est comme demander à un chef de cuisine de préparer un plat spécifique et de cuisiner à l'aveugle en même temps. Si vous ne séparez pas les tâches, le chef se trompe.

Les anciennes méthodes traitaient tous les petits carrés de l'image de la même façon, ce qui empêchait les experts de se spécialiser.

2. La Solution : ProMoE, le Chef d'Orchestre Intelligent

Les auteurs proposent ProMoE, un système qui agit comme un chef d'orchestre très organisé. Au lieu de laisser les experts choisir au hasard, il utilise une guide de routage explicite en deux étapes.

Étape 1 : La Séparation des Tâches (Routage Conditionnel)

Imaginez une grande salle de réunion.

  • Le chef d'orchestre (le routeur) regarde les participants.
  • Il dit : "Toi, toi et toi, vous êtes les experts du silence (inconditionnels). Vous travaillez sur les parties de l'image qui ne dépendent d'aucune description."
  • Il dit : "Vous, les autres, vous êtes les experts du contexte (conditionnels). Vous travaillez sur les parties qui dépendent de la description (par exemple, 'un chat rouge')."

C'est comme séparer les équipes de construction : une équipe s'occupe des fondations (inconditionnel) et l'autre de la décoration intérieure (conditionnel). Cela évite la confusion.

Étape 2 : L'Attribution par "Modèles" (Routage Prototypique)

Maintenant, pour les experts du contexte, comment savoir qui fait quoi ?
Au lieu de laisser les experts se battre pour les tâches, ProMoE utilise des modèles apprenables (des prototypes).

  • Imaginez que chaque expert a une carte de visite avec une image de ce qu'il aime faire (ex: un expert "animaux", un expert "architecture", un expert "nourriture").
  • Quand un petit carré de l'image arrive, le système compare son contenu à ces cartes de visite.
  • Si le carré représente une patte de chien, il va vers l'expert "animaux". S'il représente une fenêtre, il va vers l'expert "architecture".

C'est beaucoup plus intelligent que de simplement compter les mots. Le système comprend la sémantique (le sens) de l'image.

3. L'Entraînement : Le "Cours de Conduite" (Contrastive Loss)

Pour que ces experts deviennent vraiment bons, il faut les entraîner. Les auteurs ont ajouté une règle spéciale appelée Perte de Contraste de Routage.

C'est comme un jeu éducatif :

  • Si deux petits carrés de l'image sont très similaires (deux pattes de chien), le système les force à aller chez le même expert. Cela crée de la cohérence.
  • Si deux carrés sont très différents (un chien et une voiture), le système les force à aller chez des experts différents. Cela crée de la diversité.

Cela empêche les experts de devenir paresseux et de tous faire la même chose.

4. Les Résultats : Pourquoi c'est génial

Grâce à cette organisation, ProMoE obtient des résultats incroyables :

  • Moins de calcul, plus de qualité : Ils utilisent moins de "cerveaux" actifs (paramètres) que les modèles denses classiques, mais produisent des images plus belles.
  • Rapidité : Ils apprennent plus vite.
  • Polyvalence : Cela fonctionne aussi bien pour créer des images à partir de texte que pour d'autres tâches complexes.

En résumé

Si les anciennes méthodes d'IA pour les images étaient comme un groupe de 100 personnes essayant de peindre un tableau en criant toutes en même temps sans coordination, ProMoE est comme un chef d'orchestre qui :

  1. Sépare les musiciens en deux groupes (fondations vs détails).
  2. Donne à chaque musicien une partition précise basée sur ce qu'il joue le mieux.
  3. Les entraîne à jouer ensemble de manière harmonieuse.

Résultat : Une symphonie visuelle parfaite, même avec moins de musiciens !