PreciseCache: Precise Feature Caching for Efficient and High-fidelity Video Generation

本文提出了名为 PreciseCache 的即插即用框架,通过低频差异(LFD)度量实现步级缓存(LFCache)以及块级冗余检测(BlockCache),在显著加速视频生成推理的同时避免了以往方法因误判冗余而导致的画质下降问题。

Jiangshan Wang, Kang Zhao, Jiayi Guo, Jiayu Wang, Hang Guo, Chenyang Zhu, Xiu Li, Xiangyu Yue

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于如何让 AI 生成视频变得更快、更省钱,同时还不牺牲画质的论文。

想象一下,现在的 AI 生成视频(比如让一只猫在跳舞)就像是一个极其勤奋但有点死脑筋的画家

  • 现状:这个画家要画 50 笔才能完成一幅画。每一笔他都非常认真,哪怕最后几笔只是给画面加一点点高光,他也花同样的时间、用同样的力气去画。这就导致生成视频非常慢,而且消耗巨大的电力(算力)。
  • 旧方法的问题:以前的加速方法像是让画家“偷懒”。他们规定:“每隔 5 笔,你就直接照搬上一笔的画,别动了。”但这有个大问题:有时候画家正在画关键的轮廓(比如猫的眼睛),这时候偷懒照搬,猫的眼睛就画歪了,视频质量就崩了;有时候画家只是在画背景的一点点灰尘,这时候不偷懒又太浪费。

这篇论文提出的 PreciseCache(精准缓存),就是给这位画家配了一个超级聪明的“监工”。这个监工能精准地判断:“这一笔到底重不重要?如果重要,你就认真画;如果不重要,你就直接照搬上一笔的,别浪费力气!”


核心魔法:两个聪明的策略

PreciseCache 用了两个绝招,我们叫它们 “低通滤镜监工” (LFCache)“模块偷懒大师” (BlockCache)

1. 第一招:低通滤镜监工 (LFCache) —— 抓大放小

原理
画家在画画时,其实分两个阶段:

  • 前期(高噪点):这时候是在定大框架、画轮廓(比如猫在哪里、尾巴怎么甩)。这时候如果偷懒,猫就没了。
  • 后期(低噪点):这时候框架已经好了,只是在加细节(比如猫毛的光泽、背景的纹理)。这时候如果偷懒,人眼根本看不出来区别。

怎么做的?
以前的“监工”是看画家画得“像不像”,这很难判断。
PreciseCache 的监工戴了一副**“低通滤镜眼镜”**。这副眼镜能过滤掉那些细碎的“高频细节”(比如毛发的光泽),只让画家看“低频大轮廓”(比如猫的形状)。

  • 操作:在每一笔之前,监工先让画家在一张缩小版的草稿纸(下采样)上快速试画一下。
  • 判断:如果草稿纸上的“大轮廓”和上一笔的差不多,说明这一笔不需要大改,直接照搬上一笔的结果(跳过计算)。如果轮廓变了,那就认真画(全量计算)。
  • 效果:因为是在小草稿纸上试画,速度极快,几乎不花时间,但能精准抓住什么时候该偷懒,什么时候该努力。

2. 第二招:模块偷懒大师 (BlockCache) —— 内部优化

原理
即使到了需要“认真画”的那几笔,画家的大脑(神经网络)内部其实也有很多“摸鱼”的部门。
一个复杂的画家大脑由很多层(Transformer 块)组成。研究发现,只有少数几层在真正改变画面的内容(比如把直线变曲线),而大部分层其实只是在重复之前的操作,或者变化微乎其微。

怎么做的?

  • 操作:在必须认真画的那几笔里,监工还会检查画家大脑里的每一个部门。
  • 判断:如果某个部门输出的结果和输入几乎一样(变化很小),监工就会说:“这个部门今天不用干活了,直接复用上次的数据!”
  • 效果:这就像在一个大工厂里,发现流水线上的某些环节其实不需要重新加工,直接让工人把上次的成品传下去就行。这样连“认真画”的时候,也能省下一半的力气。

总结:它带来了什么?

如果把生成视频比作做一桌满汉全席

  • 以前的 AI:不管你是切菜、炒菜还是摆盘,每一道工序都请了最顶级的厨师,花最贵的时间,哪怕只是切个葱丝也动用了米其林大厨。
  • PreciseCache
    1. LFCache:告诉厨师,“切葱丝这种小事,不用大厨,让学徒快速切一下就行,或者直接拿上次切好的用,只要形状差不多就行。”
    2. BlockCache:告诉厨师,“炒这道菜时,有些调味步骤其实对味道影响不大,直接跳过,只保留关键的爆炒步骤。”

最终成果

  • 速度快了 2.6 倍:以前生成一个视频要 15 分钟,现在只要 6 分钟。
  • 画质没变:因为监工很精准,该认真的时候(画轮廓、关键步骤)绝对没偷懒,所以生成的视频依然清晰、流畅,看不出区别。
  • 不用重新训练:这个方法像是一个“插件”,直接插在现有的 AI 模型上就能用,不需要重新教 AI 画画,省去了巨大的训练成本。

一句话总结
PreciseCache 就像给 AI 视频生成装上了一个智能节能开关,它知道什么时候该“全速运转”,什么时候可以“省电模式”,从而让 AI 生成视频变得既快又好,还不费电。