BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

本文提出了一种名为 BWCache 的免训练方法,通过动态缓存并基于相似度阈值在扩散步之间重用 DiT 块特征,在保持视觉质量的同时将视频生成推理速度提升了高达 6 倍。

Hanshuai Cui, Zhiqing Tang, Zhifei Xu, Zhi Yao, Wenyi Zeng, Weijia Jia

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 BWCache 的新方法,它的目的是让 AI 生成视频的速度变得更快,同时还能保证画面质量不下降。

为了让你更容易理解,我们可以把 AI 生成视频的过程想象成一位画家在画一幅动态的长卷画

1. 现在的痛点:画家太“较真”,画得太慢

目前的 AI 视频模型(叫 DiT)在生成视频时,就像一位极度严谨的画家。

  • 过程:它从一团模糊的噪点(像电视雪花)开始,一步步地“去噪”,把画面一点点变清晰。这个过程要重复几十次(比如 30 步)。
  • 问题:在这几十步里,画家每一步都要重新计算每一笔。但实际上,在中间很多步骤里,画面变化非常微小(比如云还在飘,但位置没变多少)。画家却还在重复计算这些没怎么变的细节,导致生成一个视频需要很长时间,甚至几分钟,没法实时使用。

2. BWCache 的灵感:聪明的“偷懒”策略

作者发现,AI 在生成视频时,中间那一大段过程,画面其实非常稳定

  • 比喻:想象你在看一部电影,中间有一场戏是两个人坐在沙发上聊天,背景是静止的。这时候,你不需要每一帧都重新画一遍沙发和背景,直接复用上一帧的沙发和背景画面,只画人物嘴巴的微小动作,不就行了吗?
  • BWCache 的做法:它给 AI 装了一个“缓存记忆库”。当它发现当前的画面和上一步的画面非常相似(变化很小)时,它就直接把上一步算好的结果“存”下来,直接拿来用,不再重新计算。

3. 核心黑科技:如何判断“能不能偷懒”?

这是这篇论文最聪明的地方。以前的方法要么太笨(不管变没变都偷懒,结果画面糊了),要么太死板(只在固定时间偷懒)。

BWCache 引入了一个**“相似度检查员”**:

  • 检查机制:在每一步生成前,检查员会拿“现在的画面”和“刚才的画面”做对比。
  • 阈值判断
    • 如果变化很小(比如只是云飘了一点点):检查员说“别算了,直接复用刚才的缓存!”(加速)。
    • 如果变化很大(比如突然从白天变黑夜,或者车冲过来了):检查员说“不行,变化太大,必须重新认真画!”(保证质量)。
  • 比喻:就像你开车。在高速公路上直道行驶时,方向盘不用怎么动(复用缓存);但遇到急转弯或红绿灯时,你必须立刻接管方向盘(重新计算)。BWCache 就是那个知道什么时候该“巡航”,什么时候该“手动驾驶”的智能系统。

4. 防止“画歪了”:定期“校准”

如果一直复用缓存,画面可能会慢慢“跑偏”(就像复印机复印了 100 次后,图像越来越模糊)。

  • 解决方案:BWCache 设定了一个规则,每隔几步(比如每 10 步),强制画家重新认真画一次,把画面拉回正轨,然后再继续复用。这就像每隔几公里就校准一次指南针,确保方向没错。

5. 效果如何?

  • 速度:在测试中,BWCache 让生成视频的速度提升了 1.6 倍到 2.6 倍。也就是说,原来要等 1 分钟的视频,现在可能只要 30 秒。
  • 质量:最重要的是,它不需要重新训练 AI 模型(不需要给画家重新上课),直接就能用。而且生成的视频清晰度、流畅度几乎和原来一样好,没有明显的“偷懒”痕迹。

总结

BWCache 就像给 AI 视频生成器装上了一个**“智能节能模式”**。它不再盲目地每一步都全速运转,而是像老司机一样,知道什么时候路况平稳可以“滑行”(复用缓存),什么时候必须“踩油门”(重新计算)。

这使得 AI 生成视频不再那么“慢吞吞”,让实时生成高质量视频的梦想离我们要更近了一步。