Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 CEM 的新方法，旨在解决当前最火的 AI 绘画和视频生成模型（特别是基于 Diffusion Transformer 的模型）“画得慢”的问题。

为了让你更容易理解，我们可以把 AI 生成图像的过程想象成一位画家在画一幅复杂的油画。

1. 核心痛点：画家太累了，画得太慢

现在的 AI 模型（比如 FLUX、Stable Diffusion）画一张图，需要像画家一样，从一团模糊的噪点开始，一步步“去噪”，经过几十次甚至上百次的修改（步骤），才能把细节画清楚。

问题：这个过程是串行的，一步接一步，非常耗时。画一张图可能要几十秒，画一段视频甚至要几分钟。

2. 现有的“偷懒”方案：缓存（Caching）及其副作用

为了加速，以前的方法想了一个“偷懒”的主意：缓存（Caching）。

比喻：就像画家在画连续帧时，觉得上一秒的某些笔触和这一秒差不多，于是直接把上一秒的画纸复印下来，稍微改改就当成这一秒的画，省去了重新画的时间。
副作用：这种“复印”不是完美的。如果复印的次数太多（缓存间隔太长），或者在画的关键步骤（比如画眼睛的时候）偷懒了，画面就会越来越模糊、变形，甚至出现奇怪的伪影。这就叫“累积误差”。

3. 旧方法的局限：死板的“偷懒规则”

以前的加速方法（比如 ToCa, DuCa 等）虽然也试图修正这些错误，但它们的“偷懒规则”太死板了。

比喻：以前的规则是：“不管画什么，每画 5 笔就复印一次”或者“刚开始画的时候每 1 笔复印一次，后面每 10 笔复印一次”。
问题：画家在画“轮廓”时（早期步骤）和画“细节”时（后期步骤）对复印的敏感度完全不同。死板的规则无法适应这种变化，导致要么偷懒太多画坏了，要么偷懒太少没提速。

4. CEM 的解决方案：聪明的“动态规划师”

这篇论文提出的 CEM（累积误差最小化），就像是一位超级聪明的“动态规划师”，它不直接参与画画，而是给画家制定最优的偷懒策略。

它的工作流程分为三步：

第一步：离线“预演”（Offline Error Modeling）

做法：在正式给顾客画画之前，CEM 先让画家在一张废纸上，用各种随机的草稿快速试画一遍。
目的：它记录下：“在画轮廓时，如果复印 3 次，误差会变大多少？”、“在画细节时，如果复印 5 次，误差又会变大多少？”。
比喻：这就像在正式演出前，先做了一次全剧彩排，摸清了剧本中哪些段落可以“快进”，哪些段落必须“慢放”。这个“预演”只做一次，以后所有画都可以用这个经验。

第二步：动态规划（Dynamic Programming）

做法：有了上面的“误差地图”，CEM 开始算账。它要在“总步数”（比如只允许画 20 步）的限制下，找出一种复印方案，使得总的画面变形（误差）。
比喻：这就像玩一个贪吃蛇游戏，你需要在有限的步数内吃到最多的苹果（保持画质），同时避开所有的坑（误差）。CEM 通过数学算法，瞬间算出了完美的路线：“第 1-5 步别偷懒，第 6-10 步可以复印 2 次，第 11-15 步复印 5 次..."。

第三步：即插即用（Plug-and-Play）

做法：把这个算好的“完美偷懒路线图”直接塞进现有的加速软件里。
优势：
- 不需要重新训练：不需要让画家重新学画画（省去了巨大的训练成本）。
- 零额外开销：在正式画画时，CEM 只是照着地图走，不需要额外计算，速度极快。
- 通用性强：无论是画人像、风景，还是画视频，甚至是用压缩过的模型（量化模型），这套地图都管用。

5. 最终效果：又快又好

实验结果显示，CEM 就像一个神奇的“画质修复补丁”：

速度：保持了原有的加速效果（比如 5 倍速）。
画质：原本因为加速而变模糊、变形的画面，被 CEM 修正了回来，甚至比原版的慢速生成还要清晰（在 FLUX.1-dev 等模型上，CEM 加速后的效果竟然超过了原版未加速的效果！）。

总结

简单来说，CEM 就是给 AI 画家配了一个精明的“导演”。
以前的加速方法是让画家“无脑快进”，结果画面糊了；
CEM 则是先做“剧本分析”，告诉画家：“哪里可以快进，哪里必须慢工出细活”，从而在不牺牲画质的前提下，实现了极致的加速。

这就好比以前坐火车去远方，为了快只能开快车但颠簸得让人晕车；现在有了 CEM，就像给火车装上了智能减震系统，既跑得快，又稳如平地。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文，题为 《Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization》（基于累积误差最小化的即插即用式扩散 Transformer 保真度优化）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：扩散 Transformer (DiT) 已成为图像和视频生成的主导架构，但其迭代去噪过程导致推理速度缓慢，限制了实际应用。
现有方案及其局限：
- 蒸馏/量化：需要重新训练，计算成本高且泛化性差。
- 缓存加速 (Caching-based)：通过复用相邻时间步或层的隐藏状态实现免训练加速。然而，简单的缓存策略会引入累积误差，导致生成质量（保真度）显著下降。
- 现有误差修正方法：如 ToCa、DuCa、TaylorSeer 等，通过剪枝 (Pruning) 或预测 (Prediction) 来修正缓存误差。
- 核心痛点：现有的误差修正方法通常依赖于固定或简单的缓存策略（如线性变化或恒定间隔）。这些策略无法适应去噪过程中模型对缓存敏感度的复杂动态变化，导致误差修正不充分，限制了生成保真度的提升潜力。

2. 方法论 (Methodology)

作者提出了一种名为 CEM (Cumulative Error Minimization) 的新型即插即用插件，旨在通过累积误差最小化来优化缓存策略。该方法包含三个核心步骤：

2.1 离线误差建模 (Offline Error Modeling)

核心思想：在推理前，通过分析模型在不同去噪时间步 ( $t$ ) 和不同缓存间隔 ( $n$ ) 下的表现，构建模型对缓存加速的内在敏感度先验。
误差定义：定义误差 $E(t, n)$ 为当前时间步 $t$ 的真实输出与 $n$ 步前的缓存输出之间的余弦损失（Cosine Loss）。
内容无关性 (Content-Agnostic)：通过在推理前生成少量随机内容（Random Samples）并取平均来建模。实验证明，这种误差分布反映了模型本身的属性，与具体生成内容无关，因此只需对每个模型建模一次即可永久复用。
优势：避免了实时误差估计带来的额外计算开销，实现了零推理成本。

2.2 动态缓存策略 (Dynamic Caching Strategy)

累积误差近似：由于直接模拟累积误差效率极低，作者提出使用累积积分 (Cumulative Integral) 来近似累积误差 $E^*(t, n)$ 。实验表明，这种简单近似能准确捕捉实际推理中的误差趋势。
动态规划 (Dynamic Programming, DP)：
- 将缓存策略优化问题转化为在给定加速预算（缓存次数 $N_c$ ）下，寻找最小化累积误差的缓存间隔组合问题。
- 利用 DP 算法求解最优子结构： $dp[t][j]$ 表示从开始到时间步 $t$ 使用 $j$ 次缓存的最小总误差。
- 通过回溯 (Backtracking) 获取最优的缓存时间步序列。
结果：生成的缓存策略能够根据去噪阶段的不同敏感度，动态调整缓存间隔，从而在保持加速比的同时最小化累积误差。

2.3 即插即用部署 (Plug-and-Play Deployment)

CEM 作为一个插件，可以无缝集成到现有的误差修正方法（如 ToCa, DuCa, TaylorSeer）和量化模型（如 Q-DiT）中。
它不引入额外的推理计算开销，仅加载预计算的误差矩阵并运行一次 DP 算法即可。

3. 主要贡献 (Key Contributions)

提出 CEM 框架：一种训练免、即插即用的缓存策略优化方法，能显著提升现有加速方法的生成保真度，同时保持加速效率。
离线误差建模：通过随机采样构建模型内在敏感度先验，指导策略优化，无需在线计算成本。
基于 DP 的累积误差最小化：引入动态规划算法，在给定加速预算下推导最优缓存策略，有效解决了固定策略无法适应复杂误差动态的问题。
广泛的实验验证：在 9 个生成模型（包括 FLUX.1-dev, PixArt-α, Hunyuan, Wan2.1 等）和量化模型上进行了验证，证明了其通用性和有效性。

4. 实验结果 (Results)

实验涵盖了文本到图像 (Text-to-Image)、文本到视频 (Text-to-Video) 和类别到图像 (Class-to-Image) 三个任务：

生成保真度提升：
- FLUX.1-dev：结合 CEM 后，TaylorSeer 的 ImageReward (IR) 从 0.9410 提升至 0.9811，甚至超过了原始模型的性能。
- PixArt-α：结合 DuCa 后，FID 从 41.56 大幅降低至 27.57（数值越低越好），显著优于原始加速模型。
- Hunyuan：在 TaylorSeer 基础上，VBench 分数从 79.78 提升至 81.24，超越了原始模型。
- SD1.5：FasterSD 结合 CEM 后，FID 从 21.62 降至 19.99，优于原始模型。
加速效率保持：CEM 在提升质量的同时，没有增加 FLOPs 或推理延迟，甚至在某些情况下（如优化了缓存时机）进一步降低了延迟。
量化模型兼容性：在 Q-DiT (W6A8, W4A8) 上，CEM 不仅保持了量化带来的加速，还进一步将推理速度提升了 2 倍，同时改善了生成质量（如 IS 分数提升）。
鲁棒性：实验证明 CEM 对随机种子、CFG 值、分辨率和帧数变化具有高度鲁棒性，且离线建模所需的样本量很少（10-50 个即可收敛）。

5. 意义与总结 (Significance)

打破质量与速度的权衡：CEM 证明了在不牺牲加速效率的前提下，通过优化缓存策略可以显著提升生成质量，甚至超越原始未加速模型。
通用性与低成本：作为一种“即插即用”的插件，它不需要重新训练模型，也不增加推理时的计算负担，极大地降低了部署门槛。
理论价值：揭示了去噪过程中模型对缓存敏感度的非线性动态变化规律，并提供了基于动态规划的最优策略求解思路。
未来方向：该方法为加速扩散模型提供了一种新的范式，即通过离线先验知识指导在线策略优化，未来可进一步探索与剪枝、蒸馏等技术的结合。

总结：CEM 通过离线建模和动态规划，智能地解决了扩散 Transformer 加速中的累积误差问题，实现了“加速不减质，甚至提质加速”的效果，是扩散模型推理加速领域的一项重要进展。