Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

针对现有混合专家模型(MoE)在扩散变换器(DiT)中因视觉 Token 特性而表现不佳的问题,本文提出了 ProMoE 框架,通过引入包含条件路由与原型路由的两步显式路由引导机制,有效促进了专家专业化并提升了图像生成性能。

Yujie Wei, Shiwei Zhang, Hangjie Yuan, Yujin Han, Zhekai Chen, Jiayu Wang, Difan Zou, Xihui Liu, Yingya Zhang, Yu Liu, Hongming Shan

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 ProMoE 的新方法,旨在解决一个核心难题:如何让“混合专家模型”(MoE)在图像生成领域(特别是扩散模型 DiT)像在大语言模型(LLM)中那样表现出色?

为了让你轻松理解,我们可以把整个图像生成过程想象成经营一家超级繁忙的“图像修复与创作工厂”

1. 背景:为什么现在的工厂效率不高?

  • 传统工厂(密集模型): 以前,工厂里的所有工人(参数)无论遇到什么订单,都要一起动手。这就像让所有专家(包括修车、做蛋糕、画画的)同时去处理每一个任务,虽然质量不错,但太费电、太慢,而且人多了反而容易互相干扰。
  • 专家工厂(MoE 模型): 为了提速,人们引入了“混合专家”模式。工厂里设有一个调度员(Router),他根据订单内容,只派最合适的几个专家(比如只派画画的专家)去干活。
    • 在文字领域(LLM): 文字就像乐高积木,每个词(Token)都有独特的含义,区别很大。调度员很容易分辨:“这句话需要语法专家”,“那个词需要历史专家”。所以文字领域的 MoE 非常成功。
    • 在图像领域(DiT): 图像就像一大片连绵的草地。虽然草叶很多,但大部分看起来都差不多(空间冗余),而且有些草叶是“背景”,有些是“主体”(功能不同)。
    • 问题所在: 现有的调度员太“笨”了。他分不清哪些草是背景,哪些是主体,导致他经常把“画画的专家”派去处理“背景草”,或者让所有专家都去处理相似的内容。结果就是:专家没有发挥特长,工厂效率没提升,甚至质量还下降了。

2. ProMoE 的解决方案:给调度员装上“导航仪”

论文作者发现,图像生成有一个特殊之处:它通常需要**“有条件”(比如用户说“画一只猫”)和“无条件”**(比如让模型自己瞎画,用于引导)两种模式。

ProMoE 给调度员设计了一套**“两步走”的聪明策略**,就像给工厂装上了智能导航系统

第一步:按“功能”分家(条件路由)

  • 比喻: 想象工厂门口有两个不同的入口。
    • 入口 A(无条件): 进来的订单是“随便画点什么”。调度员直接把这些任务派给**“自由创作专家”**。
    • 入口 B(有条件): 进来的订单是“画一只猫”。调度员把这些任务派给**“精细创作专家”**。
  • 作用: 这避免了让“自由创作专家”去处理需要精确指令的订单,也避免了让“精细专家”去处理不需要指令的杂活。大家各司其职,互不干扰。

第二步:按“内容”找对的人(原型路由)

  • 比喻: 在“精细创作”入口里,订单千奇百怪(猫、狗、车、树)。
    • 以前的调度员是“盲猜”,谁有空就派给谁。
    • ProMoE 的调度员手里有一张**“专家名片墙”**(可学习的原型 Prototype)。每张名片代表一个专家擅长的领域(比如“动物专家”、“交通工具专家”)。
    • 当一张“猫”的订单进来,调度员会把它和名片墙上的内容比对(计算相似度),发现它和“动物专家”的名片最像,于是精准派单。
  • 作用: 确保处理“猫”的订单永远由最懂猫的专家处理,处理“车”的订单由最懂车的专家处理。

3. 核心创新:给调度员加个“纠错机制”(路由对比损失)

仅仅有名片墙还不够,有时候专家可能会“偷懒”或者“抢单”。

  • 比喻: 就像学校里的老师,如果不管教,可能会发现大家都去教数学,没人教语文。
  • ProMoE 的做法: 引入了一种**“对比学习”**机制。
    • 它强制要求:内容相似的订单(比如都是猫),必须被同一个专家处理(这叫“组内一致性”)。
    • 同时,内容差异大的订单(比如猫和卡车),必须被不同的专家处理(这叫“组间多样性”)。
  • 效果: 这就像给调度员加了一个“纪律委员”,确保每个专家都深耕自己的领域,不会大锅饭,也不会抢单。

4. 结果:工厂大提速,质量大提升

通过这套方法,ProMoE 实现了:

  1. 更少的算力,更好的质量: 它激活的专家数量比传统密集模型少,但生成的图片质量(FID 分数)却更高,甚至超过了那些总参数量比它大 1.7 倍的竞争对手。
  2. 专家真的“专”了: 实验证明,不同的专家真的学会了不同的技能(有的专攻背景,有的专攻物体),不再是一盘散沙。
  3. 通用性强: 无论是用 DDPM 还是 Rectified Flow 这两种不同的训练方法,ProMoE 都表现优异。

总结

简单来说,以前的图像生成模型像是一个**“大锅饭”,所有人一起干,效率低;后来的 MoE 模型像是一个“乱指挥的调度室”**,虽然分了工,但分得不准。

ProMoE 就像是给调度室装上了**“智能分类器”“纪律委员”**:

  1. 先分清是“瞎画”还是“按指令画”(功能分家)。
  2. 再根据具体内容精准匹配最擅长的专家(内容匹配)。
  3. 最后用规则确保大家各管一摊,不越界、不偷懒(对比学习)。

最终,这个“工厂”用更少的人(算力),造出了更精美、更多样的“产品”(图像)。