Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

本論文は、視覚トークンの空間的冗長性と機能的異質性という課題に対処するため、条件付きルーティングとプロトタイプに基づくセマンティックなルーティングを組み合わせた明示的ガイダンスを備えた二段階ルーター「ProMoE」を提案し、ImageNet における最先端の拡散トランスフォーマーモデルの性能を向上させることを示しています。

Yujie Wei, Shiwei Zhang, Hangjie Yuan, Yujin Han, Zhekai Chen, Jiayu Wang, Difan Zou, Xihui Liu, Yingya Zhang, Yu Liu, Hongming Shan

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

絵を描く天才チームの「役割分担」革命:ProMoE の解説

この論文は、AI が美しい絵を描く技術(拡散モデル)を、より効率的で高品質にするための新しい方法「ProMoE」を紹介しています。

これを理解するために、**「巨大な絵画スタジオ」「天才画家たち」**の物語を想像してみてください。

1. 従来の問題:「全員が同じことをする」スタジオ

これまでの AI 絵描き(DiT)は、どんな絵を描くときも、すべての画家が同じように働いていました

  • 言語(文章)の場合:単語はそれぞれ意味がはっきりしています。「猫」と「車」は全く違うので、画家も「猫専門」「車専門」と自然に分かれて活躍できました。
  • 画像(絵)の場合:問題はここにあります。絵の「パッチ(小さな断片)」は、隣り合う部分ととても似ています(赤い空の隣も赤い空など)。また、AI は「条件付き(例えば『猫を描いて』)」と「条件なし(何も言わずに描く)」の 2 種類の作業を同時に行う必要があります。

従来の MoE(専門家混合)方式は、言語モデルの成功を真似して、絵の断片をランダムに画家に割り当てようとしていました。
しかし、「似ているパッチ」を「似ている画家」に、そして「条件付き」と「条件なし」を区別せずに割り当ててしまったため、画家たちは「全員が同じような絵しか描けない」状態になり、専門性が育ちませんでした。

2. ProMoE の解決策:「2 段階の役割分担システム」

ProMoE は、この問題を解決するために、**「2 段階のルーター(配達人)」**を導入しました。これは、スタジオのマネージャーが画家を配置する新しいルールです。

第 1 段階:「作業の種類」で分ける(条件付きルーター)

まず、マネージャーは「このパッチは『猫を描く』という指示があるのか、それとも『何も言わずに描く』のか」を見分けます。

  • 指示があるパッチ → 「指示に従う専門チーム」へ
  • 指示がないパッチ → 「自由な発想の専門チーム」へ
    これにより、「指示に従う画家」と「自由な画家」が明確に分かれ、それぞれの得意分野を磨くことができます。

第 2 段階:「内容」で分ける(原型ルーター)

次に、「指示があるパッチ」の中でも、さらに細かく分けられます。

  • ここでは、**「見本(プロトタイプ)」**という役割を使います。例えば、「赤い花の専門家」「青い空の専門家」といった見本を用意し、パッチがどの見本に似ているか(意味が近いか)を計算して、最も適した画家に割り当てます。
  • これにより、「猫を描く画家」と「犬を描く画家」が自然に分離し、それぞれが極致的な技術を持つようになります。

3. さらに強力にする「対比学習」

ただ分けるだけでなく、ProMoE は**「同じようなパッチは同じ画家に、違うパッチは違う画家に」**というルールを、AI に自ら学習させるための特別な「宿題(損失関数)」を与えています。

  • これにより、画家たちは「自分の担当分野はこれだ!」と明確に意識し、**「同じチーム内では協力し合い(一貫性)、他のチームとは明確に違う役割(多様性)」**を果たすようになります。

4. 結果:少ない人数で、より素晴らしい絵

この新しいシステム(ProMoE)を導入した結果:

  • 少ない人数(計算コスト)で、より多くの画家(パラメータ)がいるような高品質な絵が描けるようになりました。
  • 従来の「全員が同じように働く」方法や、他の「専門家混合」方式よりも、はるかに早く、そして美しく絵が完成します。
  • 特に、**「Rectified Flow」**という最新の描画手法と組み合わせたとき、その威力が最も発揮されました。

まとめ

ProMoE は、**「絵を描く AI に、言語モデルのような『明確な役割分担』を教えた」**画期的な技術です。

  • :全員が同じように働き、混乱していた。
    1. 作業の種類(指示あり/なし)でチームを分ける。
    2. 内容(猫/車/空など)で専門家を割り当てる。
    3. ルール(対比学習)で、それぞれの専門性をさらに高める。

これにより、AI はより少ないエネルギーで、より多様で高品質な絵を描けるようになったのです。まるで、混乱していたスタジオが、完璧な役割分担で動くプロのチームに生まれ変わったようなものです。