Training-free Latent Inter-Frame Pruning with Attention Recovery

该论文提出了一种无需训练的 LIPAR 框架,通过利用视频潜在块的时间冗余性进行帧间剪枝,并引入注意力恢复机制以消除视觉伪影,从而在不牺牲生成质量的前提下显著提升了视频生成的推理速度。

Dennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你正在用 AI 制作一段视频。现在的 AI 视频生成模型就像是一个极其勤奋但有点“死脑筋”的画家

不管画面里是静止不动的蓝天,还是正在疯狂跳舞的小狗,这位画家对每一帧、每一个像素都一视同仁,都要从头到尾重新画一遍。这就导致了一个大问题:太慢了,而且太费电(显存)。就像你为了画一张静止的蓝天,却非要花时间和颜料去重新描绘每一片云彩,哪怕它们和上一秒完全一样。

这篇论文提出的 LIPAR 方法,就是给这位“死脑筋”的画家装上了一套**“智能偷懒系统”**。

1. 核心问题:为什么要“偷懒”?

在传统的视频压缩(比如你看的 MP4 文件)中,如果画面里有一块区域没动,电脑就不会重新传输那块数据,而是直接告诉播放器:“这块和上一帧一样,直接复用就行。”这大大节省了空间。

但是,现在的 AI 生成视频是在一个**“潜空间”(Latent Space)**里进行的。这是一个 AI 能看懂的、压缩过的抽象世界。以前的 AI 不知道这里也有“偷懒”的机会,它不管有没有变化,每次都把所有数据重新算一遍。

2. LIPAR 是怎么工作的?(三个步骤)

LIPAR 就像是一个聪明的**“视频剪辑助理”**,它分三步走:

第一步:发现“没动”的地方(潜空间帧间剪枝)

助理会拿着上一帧的画面和当前帧对比。

  • 比喻:就像你翻书,如果第 10 页和第 11 页的内容完全一样,助理就会说:“嘿,第 11 页不用重新写了,直接复印第 10 页就行!”
  • 技术点:它能在 AI 的“潜空间”里精准识别出哪些部分没变,然后把那些重复的“计算任务”直接砍掉(剪枝)。

第二步:修补“偷懒”带来的漏洞(注意力恢复)

这是最关键的一步。如果直接把没动的部分砍掉,AI 就会“懵圈”。

  • 比喻:想象你在听交响乐,如果突然把大提琴的声音完全删掉,音乐就会断掉,听起来很刺耳(这就是所谓的“视觉伪影”或画面闪烁)。
  • LIPAR 的绝招:它不会简单地“删掉”,而是**“智能复制”**。它会从上一帧的“干净录音”里,把大提琴的声音完美地“借”过来,填补到现在的空缺里。
  • 关键点:它非常小心,只复制“信号”(画面内容),不复制“噪音”(AI 生成时的随机干扰)。如果不小心把噪音也复制了,画面就会变得像老电视一样全是雪花点。LIPAR 专门设计了一套机制,确保只复制“干净”的部分。

第三步:还原画面(恢复)

最后,把那些被“借”来的部分填回去,让视频看起来和原来一样完整,但计算过程却快了很多。

3. 效果有多好?

  • 速度快:就像给跑车换了个涡轮增压。在同样的显卡上,生成速度提升了 1.45 倍(从每秒 8.4 帧提升到 12.2 帧)。
  • 省内存:就像给背包减重,显存占用减少了 29%。这意味着你不需要买最顶级的显卡也能跑起来。
  • 画质没变:这是最厉害的地方。通常“偷懒”都会导致画质下降(比如画面模糊、闪烁),但 LIPAR 通过上面的“智能复制”技术,让人眼几乎看不出区别,甚至因为减少了不必要的重新计算,画面反而更稳定了。
  • 不用重新训练:它不需要重新教 AI 怎么画画,而是直接给现有的 AI 模型加了一个“外挂”,即插即用。

总结

这就好比在繁忙的餐厅里,以前厨师不管客人点的是“白开水”还是“满汉全席”,都按做满汉全席的流程走一遍。
LIPAR 就是那个聪明的服务员,他告诉厨师:“这杯水上一杯刚倒过,不用重新烧,直接端上去就行;但如果是那杯需要加冰的,我们得重新做。”

结果就是:上菜更快了,省了燃料,而且客人喝到的水还是那么新鲜好喝。

这项技术让 AI 视频生成从“昂贵的实验室玩具”变得更接近“实时互动的日常工具”,让未来的实时视频编辑和生成变得更加流畅和普及。