DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

该论文通过系统分析扩散变换器(DiT)的内部表示动态,发现跨层表示多样性对有效学习至关重要,并据此提出了通过长残差连接和多样性损失来显式提升表示多样性的 DiverseDiT 框架,在多种规模和设置下均实现了性能提升与收敛加速。

Mengping Yang, Zhiyu Tan, Binglei Li, Xiaomeng Yang, Hesen Chen, Hao Li

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 DiverseDiT 的新方法,旨在让 AI 画图的“大脑”(扩散 Transformer 模型)变得更聪明、更多样化。

为了让你轻松理解,我们可以把 AI 画图的过程想象成组建一个大型交响乐团来演奏一首复杂的乐曲

1. 背景:现在的乐团有什么问题?

目前的 AI 画图模型(比如 DiT)就像是一个由许多乐手(神经网络层/Block)组成的乐团。

  • 传统做法:以前的训练方法,往往让所有乐手都盯着同一个乐谱,或者让大家都听同一个指挥(外部模型)的指令。
  • 结果:虽然大家都能演奏,但久而久之,所有乐手的声音变得越来越像(同质化)。第一小提琴手和第二小提琴手吹出的音符几乎一样,长笛手和单簧管手也分不清谁是谁。
  • 后果:乐团虽然整齐,但缺乏层次感,演奏出来的音乐(生成的图像)虽然能听,但细节不够丰富,缺乏那种“灵魂”和惊喜。

2. 核心发现:为什么“不同”很重要?

作者们做了一项有趣的调查(就像乐团总监去听每个乐手的排练):

  • 观察一:随着排练(训练)时间的增加,原本声音相似的乐手,自然会开始发展出不同的风格(多样性增加)。
  • 观察二:如果强行让某个乐手去模仿外部的大师(比如用预训练模型对齐),这个乐手确实会变得很独特,但其他乐手可能会因为被忽视或被迫模仿而变得混乱。
  • 关键结论:一个优秀的乐团,不需要所有乐手都一模一样,也不需要每个人都去模仿外部的大师。最重要的是,每个乐手都要有自己独特的“声部”,大家分工合作,互不干扰,才能奏出最精彩的乐章。

3. DiverseDiT 的解决方案:两个“魔法”

为了让这个 AI 乐团真正“百花齐放”,作者提出了两个简单的改进:

魔法一:长距离的“传声筒”(Long Residual Connections)

  • 比喻:以前,乐手只能听到前一个乐手的声音,像传话游戏一样,传到后面声音就变味了,大家都变得差不多。
  • 做法:DiverseDiT 给每个乐手装了一个“直通耳机”,让他们不仅能听到前一个人的声音,还能直接听到最早期乐手的声音。
  • 效果:这样,后面的乐手就能接触到更多样化的信息,不会只模仿眼前的邻居,从而保持了各自独特的风格。

魔法二:强制“差异化”的指挥棒(Representation Diversity Loss)

  • 比喻:以前,如果两个乐手吹得太像,指挥也不管。现在,指挥(损失函数)会专门盯着大家,如果发现两个乐手的声音太像了,就会扣分(惩罚)。
  • 做法
    1. 正交性:强迫大家吹不同的调子(像正交的坐标轴,互不重叠)。
    2. 独立性:确保大家吹的内容没有重复的信息。
    3. 分散性:鼓励大家把声音分布得更广,不要挤在一个频道里。
  • 效果:这迫使每个乐手(网络层)去挖掘自己独特的技能,有的负责画轮廓,有的负责画光影,有的负责画纹理,大家各司其职。

4. 结果:效果如何?

  • 画得更快、更好:在 ImageNet 数据集(就像是一个巨大的动物和物体图库)上测试,用了 DiverseDiT 的模型,不仅训练速度更快(收敛快),而且画出来的图更清晰、细节更丰富
  • 无需外部“老师”:以前的方法(如 REPA)需要请一个超级强大的外部模型(像请了一位世界级的指挥家)来指导,这很贵且麻烦。DiverseDiT 不需要外部老师,它通过内部自我调节,让乐团自己学会如何配合。
  • 兼容性:它甚至可以和现有的其他技术(如 DispLoss, SRA)叠加使用,效果更上一层楼。

总结

简单来说,DiverseDiT 就是告诉 AI 模型:

“别大家都学同一种样子,也别都去模仿外面的大神。你们每个人都要有自己的‘个性’,互相配合但互不重复。只要你们内部足够‘多元化’,你们就能画出最棒的作品!”

这种方法不仅让 AI 画图更厉害,还为我们理解 AI 是如何“思考”和“学习”的打开了一扇新窗户。