DVD-Quant: Data-free Video Diffusion Transformers Quantization

本文提出了 DVD-Quant,一种针对视频扩散 Transformer 的新型无数据量化框架,通过引入 BGR、ARQ 和δ\delta-GBS 三项创新技术,在无需校准数据的情况下实现了 W4A4 量化,在保持视频质量的同时使推理速度提升约 2 倍。

Zhiteng Li, Hanxuan Li, Junyi Wu, Kai Liu, Haotong Qin, Linghe Kong, Guihai Chen, Yulun Zhang, Xiaokang Yang

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DVD-Quant 的新技术,它的目标是让生成高质量视频的人工智能(AI)模型变得更小、更快,而且不需要额外的训练数据。

为了让你更容易理解,我们可以把生成视频的 AI 模型想象成一位正在画长卷画的超级画家,而 DVD-Quant 就是给这位画家配备的一套**“超级压缩工具箱”**。

以下是用生活化的比喻对这篇论文核心内容的解读:

1. 背景:画家太“重”了,跑不动

现在的视频生成 AI(比如 Sora 或 HunyuanVideo)非常强大,能画出电影级别的视频。但它们有个大毛病:太笨重了

  • 问题:它们需要巨大的电脑内存(显存)和很长的计算时间。就像让一个背着 100 斤砖头的画家去跑马拉松,虽然画得好,但根本跑不动,普通人的电脑也带不动。
  • 现有方法的缺陷:以前有人试图给画家“减负”(量化技术),把画具从“全套专业工具”换成“简易工具”。但以前的方法有两个大问题:
    1. 需要“试错”校准:换工具前,得先拿一堆画稿去测试怎么换,这很费时间(依赖校准数据)。
    2. 画坏了:工具换得太狠,画出来的东西就糊了,甚至全是乱码(性能严重下降)。

2. DVD-Quant 的三大“独门秘籍”

为了解决这些问题,作者提出了 DVD-Quant,它包含三个聪明的策略:

秘籍一:BGR —— “精准裁剪的尺子” (针对权重)

  • 比喻:画家的颜料(权重)分布很不均匀,大部分颜料都集中在中间(像高斯分布),只有极少部分是极端的颜色(离群点)。
  • 旧方法:用一把固定的尺子去量,为了照顾那极少数的极端颜色,尺子的刻度分得太细,导致中间大部分常用颜料的刻度太粗糙,画不准。
  • DVD-Quant 的做法:它不直接用死板的尺子,而是先把尺子的范围缩小(只关注常用的颜料区域),然后反复微调尺子的刻度
  • 效果:就像把尺子专门定制给最常用的颜料,哪怕把工具压缩得很小,画出来的细节依然清晰,误差极小。

秘籍二:ARQ —— “自带动态调节的滤镜” (针对激活值)

  • 比喻:画家在画画的不同阶段(比如刚开始勾勒轮廓 vs 最后上色),用的力度和颜色深浅变化非常大。
  • 旧方法:以前的工具是“静态”的,要么一开始就设定好,要么需要拿一堆画稿去算出怎么设。但这就像用一张固定的滤镜去拍所有动态变化的场景,要么太亮要么太暗。
  • DVD-Quant 的做法:它给画家配了一个**“智能动态滤镜”**。这个滤镜不需要提前看画稿,而是在画画的过程中,实时自动调整(在线缩放),并且配合一种特殊的旋转技术(Hadamard 旋转),把那些特别刺眼的“噪点”分散掉。
  • 效果:无论画家画到哪个阶段,工具都能自动适应,既不需要提前测试,又能保证画面不崩坏。

秘籍三:δ-GBS —— “看菜下饭的配给制” (针对时间步)

  • 比喻:画长卷画时,有些步骤(比如中间过渡)变化很慢,不需要太精细;但有些关键步骤(比如人物表情突变)必须非常精细。
  • 旧方法:以前的做法是“一刀切”,要么全程用精细工具(太慢),要么全程用粗糙工具(太糊)。
  • DVD-Quant 的做法:它像一位精明的管家。管家会实时观察画家的进度:
    • 如果画家这一笔变化很小(特征变化小),管家就立刻换成4 位的简易工具(省资源)。
    • 如果画家这一笔变化很大(特征剧烈),管家马上切换回8 位的精细工具(保质量)。
  • 效果:在不需要精细的地方偷懒,在关键地方发力。既省了时间,又没牺牲画质。

3. 最终成果:又快又好,还能“极限压缩”

通过这三招组合拳,DVD-Quant 取得了惊人的效果:

  • 画质几乎无损:即使在W4A4(权重 4 位,激活值 4 位)这种极度压缩的“极限模式”下,它画出来的视频依然清晰、连贯。
    • 对比:其他方法在 4 位模式下,画出来的东西要么像乱码,要么糊成一团;而 DVD-Quant 依然能保持电影级质感。
  • 速度翻倍:在普通显卡上,它的运行速度比原来的全精度模型快了 2 倍 左右。
  • 无需训练:它不需要重新训练模型,直接拿来就能用(Post-Training),就像给旧手机装个新系统,立马变快。

总结

DVD-Quant 就像是给视频生成 AI 穿上了一套**“智能紧身衣”**。这套衣服不仅能根据身体(模型)的形状自动贴合(BGR),还能在运动时自动调节透气性(ARQ),甚至在跑步和走路时自动切换不同的面料厚度(δ-GBS)。

结果是:AI 模型变得更轻、更快,普通人的电脑也能跑得动,而且画出来的视频依然清晰、流畅,真正让高质量的视频生成技术从“实验室”走向了“大众”。