Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

本文提出了无需训练的 Quant VideoGen 框架,通过语义感知平滑和渐进式残差量化技术,将自回归视频生成模型的 KV 缓存显存占用降低高达 7 倍,在几乎不增加延迟的情况下显著提升了长视频生成的质量与一致性。

Haocheng Xi, Shuo Yang, Yilong Zhao, Muyang Li, Han Cai, Xingyang Li, Yujun Lin, Zhuoyang Zhang, Jintao Zhang, Xiuyu Li, Zhiying Xu, Jun Wu, Chenfeng Xu, Ion Stoica, Song Han, Kurt Keutzer

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Quant VideoGen (QVG) 的新技术,它的核心目标是解决一个让 AI 视频生成“长不大”的难题:显存不够用

我们可以把生成视频的过程想象成拍一部超长的电影

1. 遇到的难题:大脑记不住那么多事

现在的 AI 视频模型(比如 LongCat-Video)在生成视频时,就像是一个正在写小说的作家

  • 以前的模式(双向注意力): 作家写完一章,要回头把前面所有写过的章节都重新读一遍,才能写下一章。这太慢了,而且如果电影要拍一小时,作家得把几千页的草稿全背在脑子里,脑子(显存)直接爆炸。
  • 现在的模式(自回归): 作家写完一章,只保留“记忆”(KV Cache),然后基于这个记忆接着写下一章。这快多了,也能写更长的故事。
  • 新问题: 随着故事越来越长,作家脑子里的“记忆”(KV Cache)也越来越大。
    • 生成 5 秒钟的视频,这个“记忆库”可能就要占用 34GB 的显存。
    • 这比很多顶级显卡(如 RTX 5090)的总内存还大!
    • 后果: 要么你的显卡根本跑不动(显存溢出),要么为了省内存,你被迫只让 AI 记住最近几秒的事。结果就是,AI 生成的视频时间一长,主角的脸就变了,场景就乱了,动作也接不上了(这就是“长程一致性”差)。

2. 解决方案:给记忆库做“压缩”

QVG 的核心思想就是:既然记不住那么多,那就把记忆“压缩”一下,用更小的空间存更多的信息。

这就好比你要把一屋子杂乱无章的旧衣服(原始数据)塞进一个小行李箱(显存)。

  • 普通压缩(直接量化): 就像把衣服胡乱塞进去。因为衣服大小不一、形状各异(数据分布不均匀),硬塞进去会压坏衣服(视频画质变差),或者根本塞不进去。
  • QVG 的聪明压缩法: 它用了两个绝招。

绝招一:语义感知平滑(Semantic-Aware Smoothing)—— “先分类,再打包”

视频里的画面是有规律的。比如,一个人走路,第 1 秒和第 2 秒的脸长得差不多;左边的树和右边的树纹理也相似。

  • 做法: QVG 先把这些“长得像”或“位置相邻”的记忆碎片(Token)找出来,把它们归类(就像把衣服按“上衣”、“裤子”分类)。
  • 去重: 对于每一类,它只记一个“平均样貌”(质心),然后只记录每一块衣服和这个“平均样貌”的微小差别(残差)。
  • 效果: 这些“微小差别”通常很小,很容易用很少的位数(比如 2 比特)来描述。这就好比把“一件红色 T 恤”记成“红色 T 恤(基准)+ 稍微偏橙一点(残差)”,后者只需要很少的空间就能存下。

绝招二:渐进式残差量化(Progressive Residual Quantization)—— “先画轮廓,再填细节”

这就好比画画。

  • 第一步(粗): 先画个大概的轮廓(粗粒度),这时候可能有点模糊,但大方向对了。
  • 第二步(细): 在轮廓的基础上,把刚才没画清楚的地方补上(细粒度残差)。
  • 第三步(更细): 继续补更细微的纹理。
  • 效果: 通过这种“由粗到细”的多层打包,QVG 能把数据压缩得极小(最高压缩 7 倍),同时还能把细节一点点还原回来,保证画质几乎不损失。

3. 成果:小显卡也能跑大电影

这项技术带来了惊人的效果:

  • 省空间: 把原本需要 34GB 显存的“记忆库”,压缩到了 5GB 左右。这意味着你甚至可以用一张消费级的 RTX 4090 显卡,流畅运行以前只能在顶级数据中心运行的 8B 大模型。
  • 画质好: 压缩后的视频,清晰度(PSNR)依然很高,主角的脸不会变,场景不会乱。
  • 速度快: 压缩和解压的过程非常快,只增加了不到 4% 的时间开销,几乎感觉不到变慢。

总结

Quant VideoGen (QVG) 就像是一个超级高效的记忆整理师。它发现视频里的记忆有很多重复和规律,于是通过“先分类去重”和“分层打包”的方法,把庞大的记忆库压缩得极小。

这让 AI 视频生成从“只能拍 5 秒短片”的瓶颈中解放出来,让在普通电脑上生成几分钟甚至更长的、高质量、剧情连贯的视频成为了可能。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →