Scaling Laws For Diffusion Transformers

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是为AI 画师（扩散 Transformer，简称 DiT）制定的一套"成长食谱"。

以前，我们训练 AI 画师就像是在“盲人摸象”：想让它画得更好，我们只知道要给它更多的钱（算力）和更多的图（数据），但具体该花多少钱、买多少图、模型该长多大，全靠猜。有时候钱花多了，效果却提升不大；有时候模型太小，浪费了数据。

这篇论文的作者们做了一件很酷的事：他们通过大量的实验，终于找到了AI 画师成长的“数学规律”（Scaling Laws）。

我们可以用几个生活中的比喻来理解这篇论文的核心发现：

1. 寻找“最佳配比”：就像做蛋糕

想象你要做蛋糕（训练 AI）。

算力（Compute）是你的总预算。
模型大小（Model Size）是蛋糕胚的大小。
数据量（Data）是面粉和糖的用量。

以前，大家不知道：如果我有 100 块钱，是应该买个大模具（大模型）但只放一点点面（少数据），还是买个小模具（小模型）但把面堆成山（多数据）？

这篇论文发现，存在一个“黄金比例”。

如果你预算固定，模型太大，面粉不够，蛋糕会干瘪（过拟合）。
如果你模型太小，面粉太多，蛋糕会塌（欠拟合）。
结论：论文画出了一条完美的曲线，告诉你：给定多少钱，你应该买多大的模具，用多少面粉，才能做出最完美的蛋糕。

2. “未卜先知”的预言家

最厉害的是，这个规律不仅能解释过去，还能预测未来。
作者们说：“如果我们把预算从现在的 1 亿倍，增加到 150 亿倍（1.5e21 FLOPs），按照这个规律，我们应该训练一个大约 10 亿参数的模型。”

于是，他们真的去训练了这个模型，结果完全符合预测！
这就像是一个气象学家，通过观察过去几天的气压变化，精准地预测了明年夏天的台风路径。这意味着，未来我们想训练超级 AI 时，不需要再盲目试错，直接按这个“食谱”下单即可，既省钱又高效。

3. “试吃”代替“全吃”：低成本评估

通常，要判断一个 AI 画得好不好，得让它画很多图，让人类去打分（比如 FID 分数），这非常耗时耗力。

这篇论文发现了一个神奇的“捷径”：
AI 在训练过程中的“痛苦指数”（训练损失 Loss）

如果 AI 在训练时“学得很痛苦”（Loss 高），那它画出来的图肯定很丑。
如果它“学得很轻松”（Loss 低），画出来的图就美。

比喻：就像你不用等学生考完试、发完成绩单，只要看他平时做作业时的正确率，就能精准预测他期末考试能拿多少分。
这意味着，我们不需要等到模型完全训练好，也不需要花大价钱去跑各种测试，只要看它训练时的“痛苦指数”，就能知道它未来的表现。这大大降低了评估成本。

4. 换个考场也能考高分（通用性）

作者还发现，这个规律不仅在他们用的数据集（Laion）上有效，就算把模型扔到另一个完全不同的考场（比如 COCO 数据集，或者从未见过的图片风格），这个“成长规律”依然成立。
就像是一个学霸，不管是在做数学题还是物理题，他的学习曲线和最终成绩的关系都是相似的。这说明这个规律非常稳健，不是碰巧撞上的。

5. 不同的“教学方法”效果不同

论文还比较了两种“教学方法”：

方法 A（In-Context）：把文字和图片混在一起，让模型自己找关系。
方法 B（Cross-Attention）：像老师一样，专门指着图片问：“这里对应哪个词？”

实验发现，方法 B（Cross-Attention）在同样的预算下，进步得更快，画得更好。这就像发现了一种更高效的“教学大纲”，告诉未来的开发者：如果你想让 AI 学得更快，应该优先选择这种架构。

总结：这篇论文有什么用？

简单来说，这篇论文给 AI 界提供了一本**《AI 训练操作手册》**：

不再瞎猜：告诉你给多少钱，该配多大的模型和多少数据，效率最高。
精准预测：能算出花巨资训练出来的模型，最终画得有多好。
省钱省力：不用等模型练成，看训练过程中的表现就能预判结果。
指导设计：告诉开发者哪种模型架构更“吃香”，哪种数据质量更高。

这就好比在造火箭之前，先算好了燃料和重量的最佳比例，让未来的 AI 研发从“凭感觉”变成了“科学计算”。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于扩散 Transformer (Diffusion Transformers, DiT) 扩展定律（Scaling Laws）的学术论文，发表于 ICLR 2026。该研究首次系统地探索并验证了 DiT 在文本到图像生成任务中的扩展规律，填补了该领域缺乏精确预测模型的空白。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景： 在大语言模型（LLM）中，扩展定律（Scaling Laws）已被广泛验证，表明预训练性能与计算量（Compute）之间存在幂律关系，能够指导模型大小和数据量的最优分配。
问题： 尽管扩散模型（特别是 DiT）已显示出良好的扩展性（即模型越大，生成质量越好），但缺乏精确的扩展定律。目前尚不清楚在给定计算预算下，如何确定最优的模型参数量（ $N$ ）和数据量（ $D$ ），也无法准确预测训练损失或生成质量。现有的配置搜索通常依赖启发式方法，成本高昂且难以保证最优平衡。

2. 方法论 (Methodology)

为了建立 DiT 的扩展定律，作者进行了广泛的实验，覆盖从 $10^{17} $到$ 6 \times 10^{18}$ FLOPs 的计算预算。

实验设置：
- 模型架构： 采用标准的 Transformer 架构（Vanilla Transformer），输入为文本、图像和时间步嵌入的拼接（In-Context Conditioning）。同时也对比了交叉注意力（Cross-Attention）架构。
- 扩散公式： 使用 Rectified Flow (RF) 结合 v-prediction（速度预测）目标，时间步采样采用 Logit-Normal (LN) 调度。
- 数据集： 主要使用从 Laion-Aesthetic 中采样的 1.08 亿图像 - 文本对（经 LLAVA 1.5 重标注），并在 COCO 等数据集上进行验证。
- 计算量定义： 遵循 $C = 6ND$ 的关系，其中 $N$ 为参数量， $D$ 为 Token 数量， $C$ 为总计算量（FLOPs）。
核心步骤：
1. 等计算量曲线 (IsoFLOP) 分析： 对于每个固定的计算预算，训练不同大小的模型（改变层数和宽度），绘制损失曲线。通过拟合抛物线找到该预算下的最优损失点，从而提取出该预算下的最优模型大小 ( $N_{opt}$ ) 和数据量 ( $D_{opt}$ )。
2. 幂律拟合： 将不同预算下的最优点在对数坐标下拟合，建立计算量 $C$ 与最优参数量、最优数据量及训练损失之间的幂律关系。
3. 外推验证： 利用拟合出的定律，预测 $1.5 \times 10^{21}$ FLOPs 预算下的最优配置（约 1B 参数），并实际训练该模型以验证预测的准确性。
4. 生成性能关联： 验证预训练损失与生成质量指标（如 FID、GenEval、人类偏好评分）之间的趋势一致性。
5. 跨域验证： 在 COCO 等域外数据集上测试，验证定律的泛化性。

3. 关键贡献 (Key Contributions)

首次确立 DiT 扩展定律： 首次明确证明了扩散 Transformer 的预训练损失与计算量之间存在清晰的幂律关系，并给出了具体的数学公式。
最优资源配置公式： 推导出了在给定计算预算下，最优模型参数量 ( $N_{opt}$ $N_{o pt}$ ) 和数据量 ( $D_{opt}$ $D_{o pt}$ ) 的扩展公式：
- $N_{opt} \propto C^{0.5681}$
- $D_{opt} \propto C^{0.4319}$
- 这表明随着预算增加，模型大小和数据量需同步增长，但模型大小的增长速度略快于数据量。
损失与生成质量的强关联： 发现预训练损失与生成质量指标（如 FID）遵循相同的幂律趋势。这意味着可以通过监控训练损失来预测最终的生成质量，无需昂贵的生成评估。
可扩展的基准工具： 提出利用扩展定律作为评估模型架构和数据质量的基准。通过在小规模预算下拟合幂律指数，可以低成本地预测大规模训练的效果，从而指导模型和数据的优化。

4. 主要结果 (Results)

预测准确性： 基于 $10^{17}-10^{18} $FLOPs 的数据拟合出的定律，成功预测了$ 1.5 \times 10^{21}$ FLOPs 预算下 1B 参数模型的训练损失，实际训练结果与预测高度吻合。
生成质量预测： FID 与计算量的关系也符合幂律： $FID \propto C^{-0.234}$ 。在大预算下，FID 的预测值与实际值非常接近。
跨域泛化性： 在 COCO 验证集（域外数据）上，虽然绝对性能指标（如 FID 数值）存在垂直偏移（Offset），但幂律趋势保持一致。这表明扩展定律在不同数据分布下依然有效。
架构对比： 对比了 "In-Context Transformer"（拼接输入）和 "Cross-Attention Transformer"（交叉注意力）。结果显示，Cross-Attention 架构在相同预算下具有更陡峭的损失下降斜率（Loss Exponent 更小），意味着其扩展效率更高，能更有效地利用计算资源。

5. 意义与影响 (Significance)

指导资源分配： 为 DiT 的训练提供了明确的“配方”。研究人员可以根据可用的计算预算，直接计算出最优的模型大小和数据量，避免盲目试错。
降低评估成本： 证明了训练损失是生成质量的可靠代理指标。在大规模训练前，可以通过小规模实验拟合扩展曲线，低成本地评估不同模型架构或数据集的潜力。
推动 DiT 发展： 随着 DiT 成为文生图的主流架构（如 Flux, SD3 等），该研究提供的扩展定律为未来更大规模模型的训练和架构设计提供了理论依据和量化标准。
数据质量评估： 扩展定律的指数可以反映数据质量。例如，使用密集描述（Dense Captions）的数据集比稀疏标签（Sparse Tags）的数据集具有更优的扩展指数，表明数据质量直接影响扩展效率。

总结： 该论文通过严谨的实证研究，将扩散 Transformer 的训练过程从“黑盒”经验主义转变为可预测的数学模型，为高效、低成本地训练下一代高质量文生图模型奠定了坚实基础。

Scaling Laws For Diffusion Transformers

1. 寻找“最佳配比”：就像做蛋糕

2. “未卜先知”的预言家

3. “试吃”代替“全吃”：低成本评估

4. 换个考场也能考高分（通用性）

5. 不同的“教学方法”效果不同

总结：这篇论文有什么用？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键贡献 (Key Contributions)

4. 主要结果 (Results)

5. 意义与影响 (Significance)

类似论文

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes