Adaptive Hybrid Caching for Efficient Text-to-Video Diffusion Model Acceleration

本文提出了名为 MixCache 的免训练框架,通过引入上下文感知的缓存触发机制与自适应混合粒度决策策略,有效解决了现有视频 DiT 模型缓存方法单一、难以平衡生成质量与推理速度的问题,在显著提升视频生成加速比的同时保持了优越的生成质量。

Yuanxin Wei, Lansong Diao, Bujiao Chen, Shenggan Cheng, Zhengping Qian, Wenyuan Yu, Nong Xiao, Wei Lin, Jiangsu Du

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MixCache 的新技术,旨在让 AI 生成视频的速度变得更快,同时保证画质不下降。

为了让你轻松理解,我们可以把AI 生成视频的过程想象成一位画家在画一幅长卷画,而MixCache就是这位画家的“超级智能助手”。

1. 背景:画家为什么画得慢?

现在的 AI 视频模型(比如 Wan、HunyuanVideo)非常强大,能画出电影级的视频。但是,它们画画的原理很“笨拙”:

  • ** iterative denoising(迭代去噪)**:想象画家一开始面对一张全是噪点的白纸(随机噪声)。他需要画很多很多遍(比如 50 遍),每一遍都稍微擦掉一点噪点,加一点细节,直到画面清晰。
  • 痛点:这个过程非常耗时。画一张 5 秒的视频,用一张顶级显卡可能要等 50 分钟。这就像让画家一笔一划地重新画每一帧,哪怕画面里大部分东西(比如背景的天空、静止的墙壁)根本没变,他也要重新画一遍。

2. 现有的“偷懒”方法(缓存技术)

为了加速,以前的方法尝试过几种“偷懒”技巧,也就是缓存(Caching)

  • Step Level(步级缓存):如果画家发现这一笔和上一笔画得差不多,就直接把上一笔的结果拿来用,不再重画。
  • CFG Level(引导级缓存):AI 画画时通常会同时画“有提示词”和“没提示词”的两张图来对比。如果这两张图很像,就只画一张,另一张直接复用。
  • Block Level(模块级缓存):画家的画布分很多层(比如先画轮廓,再画颜色,再画光影)。如果某一层(比如轮廓层)没变,就直接复用上一层的结果。

问题在于:以前的方法太“死板”了。它们只允许画家只选一种偷懒方式。

  • 就像画家被规定:“要么全程只复用上一笔,要么全程只复用轮廓”。
  • 但在实际画画中,有时候背景不动(适合复用轮廓),有时候光影在变(适合复用上一笔)。死板的方法要么画得太快但画质崩坏,要么画质好但速度没提升。

3. MixCache 的解决方案:聪明的“混合双打”

MixCache 的核心思想是:不要死守一种方法,要根据情况灵活切换! 它像一个经验丰富的老管家,能实时判断画家现在的状态。

核心策略一:什么时候开始偷懒?(上下文感知触发)

  • 热身阶段(Warm-up):刚开始画画时,画面变化剧烈,这时候绝对不能偷懒,必须一笔一划认真画,否则画面就歪了。
  • 智能判断:MixCache 会盯着画家的笔触。当它发现画面变化已经很小、很稳定了(就像画背景时),它才会说:“好了,现在可以开始偷懒(开启缓存)了。”

核心策略二:怎么偷懒最划算?(自适应混合决策)

一旦进入“可以偷懒”的阶段,MixCache 会做一个实时选择题

  • 现在的画面是背景在变,还是光影在变?
  • 如果背景没变,就用Block 级缓存(复用轮廓);
  • 如果光影微调,就用Step 级缓存(复用上一笔);
  • 如果对比图很相似,就用CFG 级缓存

它不是随机选的,而是通过计算“偷懒带来的画质损失”和“节省的时间”的乘积,自动选出当下最优的那个偷懒方案。而且,它还会防止画家一直用同一种偷懒方式(引入“惩罚机制”),强迫他偶尔换个方式,保证画面细节丰富。

4. 效果如何?

实验结果显示,MixCache 就像给画家装上了“涡轮增压”:

  • 速度提升:在 Wan 14B 模型上,速度提升了 1.94 倍(几乎快了一倍);在 HunyuanVideo 上提升了 1.97 倍
  • 画质无损:虽然偷懒了,但画出来的视频和原本认真画的几乎一模一样,观众根本看不出区别。

5. 总结

MixCache 就是一个懂变通的智能助手。它不再让 AI 死板地重复劳动,而是像一位经验丰富的导演,告诉 AI:“这时候背景不用动,直接复用;那时候光影在变,赶紧算一下;那个时刻变化大,咱们认真画。”

通过这种动态混合的策略,它成功地在**“画得快”“画得好”**之间找到了完美的平衡点,让 AI 生成视频从“慢工出细活”变成了“既快又好”,让未来的视频创作更加流畅和普及。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →