Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

本文提出了一种名为 CEM 的即插即用插件,通过最小化累积误差来动态优化缓存策略,从而在无需额外计算开销的情况下显著提升了现有 Diffusion Transformer 加速方法的生成保真度。

Tong Shao, Yusen Fu, Guoying Sun, Jingde Kong, Zhuotao Tian, Jingyong Su

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 CEM 的新方法,旨在解决当前最火的 AI 绘画和视频生成模型(特别是基于 Diffusion Transformer 的模型)“画得慢”的问题。

为了让你更容易理解,我们可以把 AI 生成图像的过程想象成一位画家在画一幅复杂的油画

1. 核心痛点:画家太累了,画得太慢

现在的 AI 模型(比如 FLUX、Stable Diffusion)画一张图,需要像画家一样,从一团模糊的噪点开始,一步步“去噪”,经过几十次甚至上百次的修改(步骤),才能把细节画清楚。

  • 问题:这个过程是串行的,一步接一步,非常耗时。画一张图可能要几十秒,画一段视频甚至要几分钟。

2. 现有的“偷懒”方案:缓存(Caching)及其副作用

为了加速,以前的方法想了一个“偷懒”的主意:缓存(Caching)。

  • 比喻:就像画家在画连续帧时,觉得上一秒的某些笔触和这一秒差不多,于是直接把上一秒的画纸复印下来,稍微改改就当成这一秒的画,省去了重新画的时间。
  • 副作用:这种“复印”不是完美的。如果复印的次数太多(缓存间隔太长),或者在画的关键步骤(比如画眼睛的时候)偷懒了,画面就会越来越模糊、变形,甚至出现奇怪的伪影。这就叫“累积误差”。

3. 旧方法的局限:死板的“偷懒规则”

以前的加速方法(比如 ToCa, DuCa 等)虽然也试图修正这些错误,但它们的“偷懒规则”太死板了。

  • 比喻:以前的规则是:“不管画什么,每画 5 笔就复印一次”或者“刚开始画的时候每 1 笔复印一次,后面每 10 笔复印一次”。
  • 问题:画家在画“轮廓”时(早期步骤)和画“细节”时(后期步骤)对复印的敏感度完全不同。死板的规则无法适应这种变化,导致要么偷懒太多画坏了,要么偷懒太少没提速。

4. CEM 的解决方案:聪明的“动态规划师”

这篇论文提出的 CEM(累积误差最小化),就像是一位超级聪明的“动态规划师”,它不直接参与画画,而是给画家制定最优的偷懒策略

它的工作流程分为三步:

第一步:离线“预演”(Offline Error Modeling)

  • 做法:在正式给顾客画画之前,CEM 先让画家在一张废纸上,用各种随机的草稿快速试画一遍。
  • 目的:它记录下:“在画轮廓时,如果复印 3 次,误差会变大多少?”、“在画细节时,如果复印 5 次,误差又会变大多少?”。
  • 比喻:这就像在正式演出前,先做了一次全剧彩排,摸清了剧本中哪些段落可以“快进”,哪些段落必须“慢放”。这个“预演”只做一次,以后所有画都可以用这个经验。

第二步:动态规划(Dynamic Programming)

  • 做法:有了上面的“误差地图”,CEM 开始算账。它要在“总步数”(比如只允许画 20 步)的限制下,找出一种复印方案,使得总的画面变形(误差)。
  • 比喻:这就像玩一个贪吃蛇游戏,你需要在有限的步数内吃到最多的苹果(保持画质),同时避开所有的坑(误差)。CEM 通过数学算法,瞬间算出了完美的路线:“第 1-5 步别偷懒,第 6-10 步可以复印 2 次,第 11-15 步复印 5 次..."

第三步:即插即用(Plug-and-Play)

  • 做法:把这个算好的“完美偷懒路线图”直接塞进现有的加速软件里。
  • 优势
    • 不需要重新训练:不需要让画家重新学画画(省去了巨大的训练成本)。
    • 零额外开销:在正式画画时,CEM 只是照着地图走,不需要额外计算,速度极快。
    • 通用性强:无论是画人像、风景,还是画视频,甚至是用压缩过的模型(量化模型),这套地图都管用。

5. 最终效果:又快又好

实验结果显示,CEM 就像一个神奇的“画质修复补丁”

  • 速度:保持了原有的加速效果(比如 5 倍速)。
  • 画质:原本因为加速而变模糊、变形的画面,被 CEM 修正了回来,甚至比原版的慢速生成还要清晰(在 FLUX.1-dev 等模型上,CEM 加速后的效果竟然超过了原版未加速的效果!)。

总结

简单来说,CEM 就是给 AI 画家配了一个精明的“导演”
以前的加速方法是让画家“无脑快进”,结果画面糊了;
CEM 则是先做“剧本分析”,告诉画家:“哪里可以快进,哪里必须慢工出细活”,从而在不牺牲画质的前提下,实现了极致的加速

这就好比以前坐火车去远方,为了快只能开快车但颠簸得让人晕车;现在有了 CEM,就像给火车装上了智能减震系统,既跑得快,又稳如平地。