Scaling Laws For Diffusion Transformers

该论文首次通过大规模实验证实了扩散 Transformer(DiT)的预训练损失与计算量之间存在幂律关系,从而能够依据计算预算精准预测最优模型规模、数据需求及生成性能,为评估模型表现和数据质量提供了低成本的可靠基准。

Zhengyang Liang, Hao He, Ceyuan Yang, Bo Dai

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是为AI 画师(扩散 Transformer,简称 DiT)制定的一套"成长食谱"。

以前,我们训练 AI 画师就像是在“盲人摸象”:想让它画得更好,我们只知道要给它更多的钱(算力)和更多的图(数据),但具体该花多少钱、买多少图、模型该长多大,全靠猜。有时候钱花多了,效果却提升不大;有时候模型太小,浪费了数据。

这篇论文的作者们做了一件很酷的事:他们通过大量的实验,终于找到了AI 画师成长的“数学规律”(Scaling Laws)。

我们可以用几个生活中的比喻来理解这篇论文的核心发现:

1. 寻找“最佳配比”:就像做蛋糕

想象你要做蛋糕(训练 AI)。

  • 算力(Compute)是你的总预算
  • 模型大小(Model Size)是蛋糕胚的大小
  • 数据量(Data)是面粉和糖的用量

以前,大家不知道:如果我有 100 块钱,是应该买个大模具(大模型)但只放一点点面(少数据),还是买个小模具(小模型)但把面堆成山(多数据)?

这篇论文发现,存在一个“黄金比例”

  • 如果你预算固定,模型太大,面粉不够,蛋糕会干瘪(过拟合)。
  • 如果你模型太小,面粉太多,蛋糕会塌(欠拟合)。
  • 结论:论文画出了一条完美的曲线,告诉你:给定多少钱,你应该买多大的模具,用多少面粉,才能做出最完美的蛋糕。

2. “未卜先知”的预言家

最厉害的是,这个规律不仅能解释过去,还能预测未来
作者们说:“如果我们把预算从现在的 1 亿倍,增加到 150 亿倍(1.5e21 FLOPs),按照这个规律,我们应该训练一个大约 10 亿参数的模型。”

于是,他们真的去训练了这个模型,结果完全符合预测
这就像是一个气象学家,通过观察过去几天的气压变化,精准地预测了明年夏天的台风路径。这意味着,未来我们想训练超级 AI 时,不需要再盲目试错,直接按这个“食谱”下单即可,既省钱又高效。

3. “试吃”代替“全吃”:低成本评估

通常,要判断一个 AI 画得好不好,得让它画很多图,让人类去打分(比如 FID 分数),这非常耗时耗力。

这篇论文发现了一个神奇的“捷径”:
AI 在训练过程中的“痛苦指数”(训练损失 Loss)

  • 如果 AI 在训练时“学得很痛苦”(Loss 高),那它画出来的图肯定很丑。
  • 如果它“学得很轻松”(Loss 低),画出来的图就美。

比喻:就像你不用等学生考完试、发完成绩单,只要看他平时做作业时的正确率,就能精准预测他期末考试能拿多少分。
这意味着,我们不需要等到模型完全训练好,也不需要花大价钱去跑各种测试,只要看它训练时的“痛苦指数”,就能知道它未来的表现。这大大降低了评估成本。

4. 换个考场也能考高分(通用性)

作者还发现,这个规律不仅在他们用的数据集(Laion)上有效,就算把模型扔到另一个完全不同的考场(比如 COCO 数据集,或者从未见过的图片风格),这个“成长规律”依然成立。
就像是一个学霸,不管是在做数学题还是物理题,他的学习曲线和最终成绩的关系都是相似的。这说明这个规律非常稳健,不是碰巧撞上的。

5. 不同的“教学方法”效果不同

论文还比较了两种“教学方法”:

  • 方法 A(In-Context):把文字和图片混在一起,让模型自己找关系。
  • 方法 B(Cross-Attention):像老师一样,专门指着图片问:“这里对应哪个词?”

实验发现,方法 B(Cross-Attention)在同样的预算下,进步得更快,画得更好。这就像发现了一种更高效的“教学大纲”,告诉未来的开发者:如果你想让 AI 学得更快,应该优先选择这种架构。


总结:这篇论文有什么用?

简单来说,这篇论文给 AI 界提供了一本**《AI 训练操作手册》**:

  1. 不再瞎猜:告诉你给多少钱,该配多大的模型和多少数据,效率最高。
  2. 精准预测:能算出花巨资训练出来的模型,最终画得有多好。
  3. 省钱省力:不用等模型练成,看训练过程中的表现就能预判结果。
  4. 指导设计:告诉开发者哪种模型架构更“吃香”,哪种数据质量更高。

这就好比在造火箭之前,先算好了燃料和重量的最佳比例,让未来的 AI 研发从“凭感觉”变成了“科学计算”。