VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

本文提出了 VLMQ,一种针对视觉语言模型(VLM)的特定后训练量化框架,通过利用梯度驱动的显著性因子识别并优先保留关键令牌、抑制冗余视觉令牌,有效解决了视觉过度表征和模态分布差异导致的量化性能下降问题,从而在低比特设置下实现了显著的性能提升。

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 VLMQ 的新方法,专门用来解决“视觉 - 语言模型”(VLMs,即能看懂图又能聊天的 AI)在压缩时遇到的特殊难题。

为了让你更容易理解,我们可以把整个故事想象成**“给一个庞大的图书馆做精简,同时保留核心知识”**的过程。

1. 背景:为什么需要压缩?

现在的 AI 模型(比如 Qwen2-VL)非常聪明,能看图、能读文、能推理。但它们太“胖”了,占用的内存巨大,运行起来很慢,普通电脑甚至手机都跑不动。
量化(Quantization) 就像是一种“瘦身手术”:把模型里原本用高精度数字(比如 16 位浮点数)存储的信息,压缩成低精度数字(比如 4 位整数)。这能大幅减小体积、加快运行速度。

问题出在哪?
以前给纯文本模型(LLM)做瘦身很成功,但直接套用到“图文模型”上就翻车了。为什么?因为图文模型里有两个“隐形杀手”。

2. 两个“隐形杀手”

作者发现了图文模型特有的两个毛病:

  • 杀手一:视觉冗余(Visual Over-representation)

    • 比喻:想象你在描述一张照片。你只需要说“一只猫在睡觉”(这是关键信息,Token),但模型为了看清这张图,却生成了几千个关于猫毛纹理、光影细节的“废话”Token。
    • 后果:在压缩时,如果把这些“废话”和“关键信息”一视同仁地压缩,模型就会因为被大量无用的视觉噪音淹没,而忘记了怎么说话。就像你为了减肥,把营养品和垃圾食品混在一起扔了,结果身体垮了。
  • 杀手二:模态鸿沟(Modality Gap)

    • 比喻:文字和图像在模型的大脑里像是两种完全不同的语言。文字像“中文”,图像像“火星文”。它们分布的区域完全不同。
    • 后果:传统的压缩方法试图用一把尺子去量这两种完全不同的东西,结果导致压缩后的模型“精神分裂”,既看不懂图,也听不懂话。

3. 解决方案:VLMQ(智能筛选瘦身法)

为了解决这个问题,作者提出了 VLMQ。它的核心思想是:不要一视同仁,要“抓大放小”

核心步骤:

  1. 给每个“词”打分(重要性因子)

    • 在压缩前,VLMQ 会先快速“扫描”一遍模型,计算每个 Token(无论是文字还是图片片段)的重要性
    • 比喻:就像老师批改作业,它会发现:“这句话里的‘猫’字很重要,必须保留;但这张图里的‘背景树叶’太冗余了,可以随便压缩甚至忽略。”
    • 它通过一种**“梯度驱动”**的方法(简单说就是看哪个词对最终答案的“贡献度”最大)来自动打分,而不是靠人工猜测。
  2. 区别对待(有选择地压缩)

    • 对于重要的 Token(比如关键的文字指令、核心的图像特征),给它“高保真”待遇,尽量保留细节。
    • 对于不重要的 Token(比如冗余的视觉背景),就大胆地“狠压缩”,甚至允许它丢失一些信息。
    • 比喻:这就好比打包行李去旅行。重要的护照和衣服(关键 Token)用最好的箱子装,小心轻放;而多余的鞋带和废纸(冗余 Token)直接塞进最便宜的袋子,甚至扔掉也没关系。
  3. 高效执行

    • 为了不让这个过程太慢,作者设计了一种“轻量级”的扫描方法,只检查模型的一小部分(Block-wise),就像只抽查几个章节来评估整本书,既快又准。

4. 效果如何?

实验结果显示,VLMQ 非常厉害:

  • 在极低比特下(比如 2-bit,相当于把模型压缩到原来的 1/8 甚至更小),其他方法会让模型变“傻”,准确率暴跌;但 VLMQ 依然能保持很高的智商。
  • 具体案例:在 MME-RealWorld(一个很难的视觉问答测试)上,使用 2-bit 压缩时,VLMQ 比之前的最好方法提升了 16.45% 的准确率。这相当于在极度压缩的情况下,让模型从“只会点头”变成了“能流利对话”。

总结

VLMQ 就像是一位经验丰富的“图书管理员”
以前的压缩方法是把所有书(文字和图片)混在一起,不管内容重要与否,统统按同样的方式压缩,结果把精华也弄丢了。
VLMQ 懂得**“抓重点”**:它知道哪些是“核心剧情”(重要 Token),哪些是“注水剧情”(冗余视觉 Token)。它只把“注水”的部分狠狠压缩,把“核心”部分完好保留。

最终结果:让巨大的 AI 模型变得小巧玲珑,能在普通设备上飞快运行,同时还能保持“眼力”和“脑力”在线。这对于未来让 AI 在手机、汽车甚至眼镜上普及使用,具有非常重要的意义。