Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 ProMoE 的新方法，旨在解决一个核心难题：如何让“混合专家模型”（MoE）在图像生成领域（特别是扩散模型 DiT）像在大语言模型（LLM）中那样表现出色？

为了让你轻松理解，我们可以把整个图像生成过程想象成经营一家超级繁忙的“图像修复与创作工厂”。

1. 背景：为什么现在的工厂效率不高？

传统工厂（密集模型）： 以前，工厂里的所有工人（参数）无论遇到什么订单，都要一起动手。这就像让所有专家（包括修车、做蛋糕、画画的）同时去处理每一个任务，虽然质量不错，但太费电、太慢，而且人多了反而容易互相干扰。
专家工厂（MoE 模型）： 为了提速，人们引入了“混合专家”模式。工厂里设有一个调度员（Router），他根据订单内容，只派最合适的几个专家（比如只派画画的专家）去干活。
- 在文字领域（LLM）： 文字就像乐高积木，每个词（Token）都有独特的含义，区别很大。调度员很容易分辨：“这句话需要语法专家”，“那个词需要历史专家”。所以文字领域的 MoE 非常成功。
- 在图像领域（DiT）： 图像就像一大片连绵的草地。虽然草叶很多，但大部分看起来都差不多（空间冗余），而且有些草叶是“背景”，有些是“主体”（功能不同）。
- 问题所在： 现有的调度员太“笨”了。他分不清哪些草是背景，哪些是主体，导致他经常把“画画的专家”派去处理“背景草”，或者让所有专家都去处理相似的内容。结果就是：专家没有发挥特长，工厂效率没提升，甚至质量还下降了。

2. ProMoE 的解决方案：给调度员装上“导航仪”

论文作者发现，图像生成有一个特殊之处：它通常需要**“有条件”（比如用户说“画一只猫”）和“无条件”**（比如让模型自己瞎画，用于引导）两种模式。

ProMoE 给调度员设计了一套**“两步走”的聪明策略**，就像给工厂装上了智能导航系统：

第一步：按“功能”分家（条件路由）

比喻： 想象工厂门口有两个不同的入口。
- 入口 A（无条件）： 进来的订单是“随便画点什么”。调度员直接把这些任务派给**“自由创作专家”**。
- 入口 B（有条件）： 进来的订单是“画一只猫”。调度员把这些任务派给**“精细创作专家”**。
作用： 这避免了让“自由创作专家”去处理需要精确指令的订单，也避免了让“精细专家”去处理不需要指令的杂活。大家各司其职，互不干扰。

第二步：按“内容”找对的人（原型路由）

比喻： 在“精细创作”入口里，订单千奇百怪（猫、狗、车、树）。
- 以前的调度员是“盲猜”，谁有空就派给谁。
- ProMoE 的调度员手里有一张**“专家名片墙”**（可学习的原型 Prototype）。每张名片代表一个专家擅长的领域（比如“动物专家”、“交通工具专家”）。
- 当一张“猫”的订单进来，调度员会把它和名片墙上的内容比对（计算相似度），发现它和“动物专家”的名片最像，于是精准派单。
作用： 确保处理“猫”的订单永远由最懂猫的专家处理，处理“车”的订单由最懂车的专家处理。

3. 核心创新：给调度员加个“纠错机制”（路由对比损失）

仅仅有名片墙还不够，有时候专家可能会“偷懒”或者“抢单”。

比喻： 就像学校里的老师，如果不管教，可能会发现大家都去教数学，没人教语文。
ProMoE 的做法： 引入了一种**“对比学习”**机制。
- 它强制要求：内容相似的订单（比如都是猫），必须被同一个专家处理（这叫“组内一致性”）。
- 同时，内容差异大的订单（比如猫和卡车），必须被不同的专家处理（这叫“组间多样性”）。
效果： 这就像给调度员加了一个“纪律委员”，确保每个专家都深耕自己的领域，不会大锅饭，也不会抢单。

4. 结果：工厂大提速，质量大提升

通过这套方法，ProMoE 实现了：

更少的算力，更好的质量： 它激活的专家数量比传统密集模型少，但生成的图片质量（FID 分数）却更高，甚至超过了那些总参数量比它大 1.7 倍的竞争对手。
专家真的“专”了： 实验证明，不同的专家真的学会了不同的技能（有的专攻背景，有的专攻物体），不再是一盘散沙。
通用性强： 无论是用 DDPM 还是 Rectified Flow 这两种不同的训练方法，ProMoE 都表现优异。

总结

简单来说，以前的图像生成模型像是一个**“大锅饭”，所有人一起干，效率低；后来的 MoE 模型像是一个“乱指挥的调度室”**，虽然分了工，但分得不准。

ProMoE 就像是给调度室装上了**“智能分类器”和“纪律委员”**：

先分清是“瞎画”还是“按指令画”（功能分家）。
再根据具体内容精准匹配最擅长的专家（内容匹配）。
最后用规则确保大家各管一摊，不越界、不偷懒（对比学习）。

最终，这个“工厂”用更少的人（算力），造出了更精美、更多样的“产品”（图像）。

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

1. 背景：为什么现在的工厂效率不高？

2. ProMoE 的解决方案：给调度员装上“导航仪”

第一步：按“功能”分家（条件路由）

第二步：按“内容”找对的人（原型路由）

3. 核心创新：给调度员加个“纠错机制”（路由对比损失）

4. 结果：工厂大提速，质量大提升

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 核心设计：两步路由

2.2 增强机制：路由对比学习 (Routing Contrastive Learning, RCL)

2.3 架构细节

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

1. 背景：为什么现在的工厂效率不高？

2. ProMoE 的解决方案：给调度员装上“导航仪”

第一步：按“功能”分家（条件路由）

第二步：按“内容”找对的人（原型路由）

3. 核心创新：给调度员加个“纠错机制”（路由对比损失）

4. 结果：工厂大提速，质量大提升

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 核心设计：两步路由

2.2 增强机制：路由对比学习 (Routing Contrastive Learning, RCL)

2.3 架构细节

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics