Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 rCM（正则化连续时间一致性模型）的新技术，旨在解决当前人工智能生成图像和视频时“慢”和“画质差”的两大痛点。

为了让你轻松理解，我们可以把生成图像的过程想象成**“从一团迷雾中雕刻出一座精美的雕像”**。

1. 背景：现在的困境

传统扩散模型（慢）：就像一位极其谨慎的雕刻家，他必须从一团迷雾开始，每一步都小心翼翼地凿掉一点点石头，经过几十步甚至上百步，才能慢慢显现出雕像的轮廓。虽然最终作品很精美，但太慢了。
现有的加速方法（快但糊）：为了加快速度，科学家们发明了一些“捷径”（比如 sCM 模型）。这就像让雕刻家直接跳过中间步骤，试图一步到位。
- 问题 A（sCM 的缺陷）：虽然速度快了，但雕刻家因为跳步太多，经常看不清细节。雕像的脸可能模糊，或者文字刻得乱七八糟（就像论文里说的“模式覆盖”问题，为了覆盖所有可能性，结果什么都做不精）。
- 问题 B（其他方法的缺陷）：另一种加速方法（如 DMD2）虽然细节好，但容易**“撞车”**。就像雕刻家为了追求完美，只敢刻一种姿势的雕像，导致生成的所有雕像都长得一模一样，缺乏多样性（“模式坍塌”）。

2. 核心突破：rCM 是怎么做的？

rCM 就像是一位**“拥有双重智慧的超级雕刻家”**。它把两种看似矛盾的方法完美融合在了一起：

第一部分：保持“快”的骨架（sCM）

它保留了“一步到位”的加速能力。这就像给雕刻家装上了**“透视眼”，让他能直接看到迷雾中的大致轮廓，从而快速生成图像。这保证了速度和多样性**（能生成各种姿势的雕像）。

第二部分：注入“精”的灵魂（Score Regularization）

为了解决“看不清细节”的问题，rCM 引入了一个**“细节修正器”**（Score Distillation）。

比喻：想象雕刻家在快速雕刻时，旁边有一位**“严苛的质检员”**。这位质检员手里拿着原稿（老师模型），时刻盯着雕刻家：“嘿，这个手指的关节不对！”“那个文字刻歪了！”
作用：这个质检员会不断修正雕刻家的错误，强迫他关注细节和质量。这解决了 sCM 模糊不清的问题。

第三部分：解决“大模型”的算力难题

以前，这种“透视眼”（数学上叫雅可比 - 向量积，JVP）的计算非常消耗内存，导致在超大的模型（比如 100 亿参数）上根本跑不动。

创新：作者开发了一种新的**“流水线工具”**（FlashAttention-2 JVP 内核）。
比喻：以前计算这个需要把整个工厂的图纸都摊在桌子上，桌子不够大就干不了。现在，他们发明了一种**“折叠图纸”**的技术，让超大的工厂也能在有限的桌子上高效运转。这使得 rCM 能应用在目前最顶尖的 140 亿参数模型和长视频生成上。

3. 成果：它有多强？

速度极快：以前生成一张图需要几十秒，现在1 到 4 步就能搞定，速度提升了 15 到 50 倍。
画质惊人：生成的图像不仅清晰，连微小的文字（如手表上的时间、路牌）都能准确刻出来，没有模糊。
风格多样：它既不像 sCM 那样模糊，也不像其他方法那样只会生成千篇一律的图。它能生成既清晰又多样的视频和图像。
视频生成：在生成 5 秒长的视频时，物体运动流畅，不会出现“鬼畜”或闪烁的现象。

4. 总结

简单来说，rCM 就是给 AI 生成模型装上了**“快腿”（加速）和“慧眼”**（保真），同时解决了以前“跑得快就看不清”和“看太细就跑不动”的矛盾。

它不需要复杂的训练技巧，不需要像训练游戏 AI 那样反复试错，就能让现在的 AI 在几秒钟内，生成以前需要几分钟才能完成的、高质量且充满创意的图像和视频。这对于未来的实时视频生成、互动世界模拟（比如游戏里的即时画面生成）具有巨大的应用潜力。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文，题为《Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency》（基于分数正则化的连续时间一致性的大规模扩散蒸馏）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：扩散模型（Diffusion Models）在图像和视频生成领域取得了巨大成功，但推理速度慢。一致性模型（Consistency Models, CMs），特别是连续时间一致性模型（sCM），理论上能够消除离散化误差，实现极快的采样（单步或几步），是加速扩散模型的理想方案。
核心挑战：
1. 大规模扩展困难：现有的 sCM 主要在小规模学术模型（如 ImageNet 1.5B 以下）上验证。将其扩展到大规模（>10B 参数）的文本到图像（T2I）和文本到视频（T2V）模型时，面临巨大的基础设施挑战。特别是 sCM 训练依赖**雅可比 - 向量积（JVP）**计算，这在现有的大规模并行训练架构（如 FlashAttention-2、FSDP、上下文并行 CP）中难以高效实现。
2. 生成质量缺陷：研究发现，纯 sCM 在大规模模型上虽然能生成清晰图像，但在精细细节（如小文本渲染）和时间一致性（视频中的物体几何稳定性）方面存在严重问题，导致模糊、扭曲或物体穿透。
3. 评估局限：现有的评估指标（如 FID）无法充分捕捉 T2I/T2V 任务中的细粒度属性（如文本准确性、复杂指令遵循）。
4. 现有替代方案的不足：目前的 SOTA 蒸馏方法（如 DMD2）虽然质量高，但往往基于对抗训练或分数蒸馏，容易导致模式坍塌（Mode Collapse），即生成多样性下降。

2. 方法论 (Methodology)

作者提出了分数正则化连续时间一致性模型（rCM, Score-Regularized Continuous-Time Consistency Model），旨在解决上述问题。

A. 基础设施与工程创新 (Infrastructure)

为了在大规模模型上训练 sCM，作者开发了专用的底层支持：

FlashAttention-2 JVP 内核：开发了基于 Triton 的自定义内核，将 JVP 计算集成到 FlashAttention-2 的前向传播中，支持自注意力和交叉注意力，显著降低了显存占用并提高了吞吐量。
并行兼容性：重构了网络层以兼容FSDP（完全分片数据并行）和CP（上下文/序列并行），使得 JVP 计算可以在大规模分布式环境下稳定运行。
噪声调度适配：设计了无需重新训练教师模型的“包装（Wrapping）”策略，将教师模型适配到 sCM 所需的 TrigFlow 噪声调度上。

B. 核心算法：rCM (Score-Regularized CM)

作者从理论角度分析了扩散蒸馏方法的特性：

前向散度（Forward Divergence）：如 sCM，基于真实数据或教师生成数据，倾向于“覆盖模式（Mode-Covering）”，多样性好但质量（细节）可能不足，且存在误差累积问题。
反向散度（Reverse Divergence）：如分数蒸馏（Score Distillation），基于学生自生成数据，倾向于“寻找模式（Mode-Seeking）”，质量高但容易模式坍塌。

rCM 的核心创新是将两者结合：

主目标（sCM Loss）：保持连续时间一致性，利用前向散度保证生成多样性和训练稳定性。
正则化项（Score Distillation Loss）：引入**分数蒸馏（Score Distillation）**作为长跳跃（Long-skip）正则器。具体使用 DMD（Distribution Matching Distillation）损失，通过一个辅助的“假分数网络（Fake Score Network）”来监督学生模型生成的分布与教师分布的一致性。
损失函数： $L_{rCM} = L_{sCM} + \lambda L_{DMD}$ 。其中 $\lambda$ 控制多样性与质量的权衡（实验发现 $\lambda=0.01$ 为最佳平衡点）。
稳定化技术：针对 JVP 计算中的数值不稳定性（特别是在 BF16 精度下），提出了“半连续时间”近似或“高精度时间”嵌入策略，防止训练崩溃。

3. 关键贡献 (Key Contributions)

首次大规模扩展：这是首次将连续时间一致性模型成功扩展到**140 亿参数（14B）**的图像和视频扩散模型，并支持长达 5 秒的视频生成。
工程突破：开发了兼容 FlashAttention-2、FSDP 和 CP 的 JVP 计算内核，解决了大规模 sCM 训练的算力瓶颈。
理论洞察与改进：揭示了纯 sCM 在大规模场景下的质量瓶颈（误差累积），并提出 rCM 通过结合前向和反向散度，在保持高多样性的同时显著提升了生成质量。
无需复杂调优：rCM 不需要多阶段训练、GAN 对抗微调或繁琐的超参数搜索，即可达到 SOTA 效果。

4. 实验结果 (Results)

作者在 Cosmos-Predict2 (T2I) 和 Wan2.1 (T2V) 等大规模模型上进行了验证：

生成质量：
- 图像 (T2I)：在 GenEval 基准测试中，rCM 蒸馏后的模型（4 步采样）在 14B 模型上达到了 0.83 的总分，与 SOTA 的 FLUX.1-schnell 相当，且在文本渲染等细节上优于纯 sCM。
- 视频 (T2V)：在 VBench 基准测试中，rCM 蒸馏的 Wan2.1 14B 模型在 4 步采样下总分达到 85.05，甚至超过了原始教师模型（50 步采样），且在物体运动、语义对齐等指标上表现优异。
多样性：
- 与 DMD2 相比，rCM 显著减少了模式坍塌现象。DMD2 生成的视频/图像中物体位置和姿态趋于一致，而 rCM 保持了 sCM 的高多样性，同时解决了 sCM 的模糊和扭曲问题（如图 1 所示）。
推理速度：
- 实现了 15x 到 50x 的加速。
- T2I：仅需 1 步 即可生成高质量图像。
- T2V：仅需 2 步 即可生成高质量视频，且吞吐量（FPS）显著提升。
消融实验：证明了 $\lambda$ 参数在多样性与质量之间的调节作用，确认了分数正则化的必要性。

5. 意义与影响 (Significance)

实用化落地：rCM 为大规模扩散模型的快速推理提供了一套理论扎实且工程可行的框架，使得在消费级硬件或有限算力下实时生成高质量视频成为可能。
统一范式：论文提出了一种结合“前向散度（多样性）”和“反向散度（质量）”的统一蒸馏范式，这可能成为未来生成式模型研究的新方向。
开源与复现：相关工作代码和基础设施设计为社区大规模训练一致性模型提供了重要参考，特别是解决了 JVP 在 FlashAttention 架构下的实现难题。

总结：该论文通过工程创新解决了大规模 sCM 训练的算力瓶颈，并通过理论创新（rCM）解决了其生成质量缺陷，成功实现了在 14B 参数级模型上的单步/少步高质量图像与视频生成，是扩散模型蒸馏领域的重要突破。