VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 VLMQ 的新方法，专门用来解决“视觉 - 语言模型”（VLMs，即能看懂图又能聊天的 AI）在压缩时遇到的特殊难题。

为了让你更容易理解，我们可以把整个故事想象成**“给一个庞大的图书馆做精简，同时保留核心知识”**的过程。

1. 背景：为什么需要压缩？

现在的 AI 模型（比如 Qwen2-VL）非常聪明，能看图、能读文、能推理。但它们太“胖”了，占用的内存巨大，运行起来很慢，普通电脑甚至手机都跑不动。
量化（Quantization） 就像是一种“瘦身手术”：把模型里原本用高精度数字（比如 16 位浮点数）存储的信息，压缩成低精度数字（比如 4 位整数）。这能大幅减小体积、加快运行速度。

问题出在哪？
以前给纯文本模型（LLM）做瘦身很成功，但直接套用到“图文模型”上就翻车了。为什么？因为图文模型里有两个“隐形杀手”。

2. 两个“隐形杀手”

作者发现了图文模型特有的两个毛病：

杀手一：视觉冗余（Visual Over-representation）
- 比喻：想象你在描述一张照片。你只需要说“一只猫在睡觉”（这是关键信息，Token），但模型为了看清这张图，却生成了几千个关于猫毛纹理、光影细节的“废话”Token。
- 后果：在压缩时，如果把这些“废话”和“关键信息”一视同仁地压缩，模型就会因为被大量无用的视觉噪音淹没，而忘记了怎么说话。就像你为了减肥，把营养品和垃圾食品混在一起扔了，结果身体垮了。
杀手二：模态鸿沟（Modality Gap）
- 比喻：文字和图像在模型的大脑里像是两种完全不同的语言。文字像“中文”，图像像“火星文”。它们分布的区域完全不同。
- 后果：传统的压缩方法试图用一把尺子去量这两种完全不同的东西，结果导致压缩后的模型“精神分裂”，既看不懂图，也听不懂话。

3. 解决方案：VLMQ（智能筛选瘦身法）

为了解决这个问题，作者提出了 VLMQ。它的核心思想是：不要一视同仁，要“抓大放小”。

核心步骤：

给每个“词”打分（重要性因子）：
- 在压缩前，VLMQ 会先快速“扫描”一遍模型，计算每个 Token（无论是文字还是图片片段）的重要性。
- 比喻：就像老师批改作业，它会发现：“这句话里的‘猫’字很重要，必须保留；但这张图里的‘背景树叶’太冗余了，可以随便压缩甚至忽略。”
- 它通过一种**“梯度驱动”**的方法（简单说就是看哪个词对最终答案的“贡献度”最大）来自动打分，而不是靠人工猜测。
区别对待（有选择地压缩）：
- 对于重要的 Token（比如关键的文字指令、核心的图像特征），给它“高保真”待遇，尽量保留细节。
- 对于不重要的 Token（比如冗余的视觉背景），就大胆地“狠压缩”，甚至允许它丢失一些信息。
- 比喻：这就好比打包行李去旅行。重要的护照和衣服（关键 Token）用最好的箱子装，小心轻放；而多余的鞋带和废纸（冗余 Token）直接塞进最便宜的袋子，甚至扔掉也没关系。
高效执行：
- 为了不让这个过程太慢，作者设计了一种“轻量级”的扫描方法，只检查模型的一小部分（Block-wise），就像只抽查几个章节来评估整本书，既快又准。

4. 效果如何？

实验结果显示，VLMQ 非常厉害：

在极低比特下（比如 2-bit，相当于把模型压缩到原来的 1/8 甚至更小），其他方法会让模型变“傻”，准确率暴跌；但 VLMQ 依然能保持很高的智商。
具体案例：在 MME-RealWorld（一个很难的视觉问答测试）上，使用 2-bit 压缩时，VLMQ 比之前的最好方法提升了 16.45% 的准确率。这相当于在极度压缩的情况下，让模型从“只会点头”变成了“能流利对话”。

总结

VLMQ 就像是一位经验丰富的“图书管理员”。
以前的压缩方法是把所有书（文字和图片）混在一起，不管内容重要与否，统统按同样的方式压缩，结果把精华也弄丢了。
而 VLMQ 懂得**“抓重点”**：它知道哪些是“核心剧情”（重要 Token），哪些是“注水剧情”（冗余视觉 Token）。它只把“注水”的部分狠狠压缩，把“核心”部分完好保留。

最终结果：让巨大的 AI 模型变得小巧玲珑，能在普通设备上飞快运行，同时还能保持“眼力”和“脑力”在线。这对于未来让 AI 在手机、汽车甚至眼镜上普及使用，具有非常重要的意义。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

背景：
随着视觉 - 语言模型（VLMs）在文本、图像和视频理解任务中的能力不断提升，其模型规模急剧扩大，导致在资源受限环境下的部署变得困难。后训练量化（Post-Training Quantization, PTQ）作为一种无需重新训练即可压缩模型、降低显存占用和加速推理的技术，在大语言模型（LLMs）中已取得显著成果。

核心问题：
现有的 PTQ 方法直接应用于 VLMs 时效果不佳，主要原因在于 VLMs 具有两个独特的内在特性，而现有方法（主要针对 LLM 设计）忽略了这些特性：

视觉过度表征 (Visual Over-representation)： VLM 的输入中包含大量冗余的视觉 Token（Vision Tokens），其数量往往远超文本 Token。现有方法通常对所有 Token 一视同仁（Token-agnostic），在最小化层重构误差时，会被大量冗余的视觉特征主导，导致重要信息被淹没。
模态间隙 (Modality Gap)： 在潜在特征空间中，文本 Token 和视觉 Token 的分布存在显著差异。现有的均匀量化策略无法适应这种分布偏差，导致校准过程偏向冗余的视觉特征，从而造成量化后模型性能大幅下降。

现有方法的局限：

部分方法（如 MBQ, MQuant）虽然关注模态不平衡，但往往需要昂贵的参数微调、推理时的特殊操作或次优的网格搜索，缺乏高效且通用的解决方案。
直接迁移 LLM 的 PTQ 方法（如 GPTQ, AWQ）到 VLMs 会导致严重的精度损失，特别是在低比特（如 2-bit, 3-bit）设置下。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 VLMQ，这是一个专为 VLM 设计的、基于 Token 显著性（Token Saliency）的后训练量化框架。其核心思想是在量化过程中有选择地优先保留重要 Token，同时抑制冗余 Token。

核心组件：

1. 梯度驱动的显著性因子 (Gradient-Driven Importance Factor)

理论依据： 作者通过理论分析（Theorem 1）建立了损失扰动（Loss Perturbation）与 Token 级量化误差之间的联系。发现损失扰动不仅取决于输出误差（ $\Delta z$ ），还取决于梯度（ $P$ ）。
发现： 虽然不同 Token 的量化误差幅度可能相似，但其对应的梯度差异巨大。冗余的视觉 Token 梯度较小，而重要的文本或关键视觉 Token 梯度较大。
实现： 定义了一个对角矩阵 $G$ 作为重要性因子。通过计算原始梯度的绝对值均值来构建 $G$ ，使得每个对角元素反映对应 Token 的重要性。
$G = \text{Diag}([ \overline{|P|}_0, \overline{|P|}_1, \dots, \overline{|P|}_{N-1} ])$

2. 高效的梯度获取 (Efficient Gradient Acquisition)

为了在不进行全量微调的情况下获取梯度，作者提出了一种**轻量级的块级反向传播（Block-wise Backpropagation）**策略。
机制： 在注意力模块（Attention Module）后设置断点，计算半量化模型与全精度模型之间的局部损失（Local Loss, $L_{Block}$ ），并触发一次局部的反向传播。
优势： 相比层级（Layer-wise）无法捕捉跨层依赖，相比网络级（Network-wise）计算成本过高且易过拟合，块级策略在效率和效果之间取得了最佳平衡。

3. 显著性感知优化目标 (Importance-Aware Objective)

传统的 PTQ 目标是最小化均方误差（MSE）： $\min ||\Delta W X||^2$ 。
VLMQ 将其重构为显著性感知形式，引入重要性因子 $G$ 对误差进行加权：
$\arg \min_{\hat{W}} || (\Delta W X - \Delta \hat{W} X) G ||_2^2$
该公式使得优化过程在量化时自动赋予重要 Token 更高的权重，同时降低冗余 Token 的影响，从而修正了由视觉过度表征引起的偏差。

4. 算法流程

基于 GPTAQ（一种先进的非对称 PTQ 算法）作为基础。
逐层进行量化：
1. 前向传播获取激活值。
2. 执行块级反向传播获取梯度，计算 Token 级重要性因子 $G$ 。
3. 利用 $G$ 构建“显著性感知海森矩阵（Hessian）”和残差，更新权重。
4. 对于非注意力投影层（如 MLP 层），使用标准方法处理。

3. 主要贡献 (Key Contributions)

揭示了根本性不匹配： 首次明确指出了 VLM 中固有的视觉冗余与现有主流 PTQ 方法（Token-agnostic）目标之间的不匹配，并验证了这种被忽视的冗余是导致 VLM 量化性能下降的关键原因。
提出了梯度驱动的重要性因子： 设计了一种基于梯度的 Token 级重要性因子 $G$ ，从理论和实验上证明了其能有效区分不同模态 Token 的信息量，并通过轻量级块级反向传播高效获取。
构建了 VLMQ 框架： 提出了一种无需微调的、即插即用的 PTQ 框架，通过显著性感知优化目标，在保持推理效率的同时，显著提升了量化 VLM 的性能。
实现了 SOTA 性能： 在 0.5B 到 32B 规模的多个 VLM 模型上，于 8 个基准测试中取得了最先进的性能，特别是在超低比特（Ultra-low-bit）设置下表现卓越。

4. 实验结果 (Results)

实验在 Qwen2-VL, Qwen2.5-VL, LLaVA-OneVision 等多个主流 VLM 上进行，涵盖了 ChartQA, DocVQA, MME-RealWorld, OCRBench 等 8 个基准。

INT3 量化表现：
- 在 Qwen2-VL-7B-Instruct 上，VLMQ 相比 GPTQ 和 GPTAQ 在多个任务上取得了提升，平均准确率提高了 0.72%。
- 在 MME-RealWorld (English) 等复杂任务上保持了竞争力。
INT2 量化表现（超低比特）：
- 这是 VLMQ 优势最明显的场景。在 Qwen2.5-VL-7B-Instruct-INT2 设置下，VLMQ 相比 GPTQ 在 MME-RealWorld (Chinese) 上取得了 16.45% 的惊人提升。
- 在 LLaVA-OneVision-7B-INT2 上，平均准确率提升了 0.66%。
- 相比之下，基于变换的方法（如 AWQ, MBQ）在 INT2 下完全失效，而 GPTAQ 在 INT2 下因误差累积导致性能严重下降，VLMQ 则有效缓解了这一问题。
消融实验 (Ablation Studies)：
- 重要性因子类型： 证明梯度驱动因子优于基于注意力分数（Attention Score）的因子（如 FastV, PACT）。
- 反向传播粒度： 证明块级（Block-wise）策略优于层级（Layer-wise）和网络级（Network-wise），在精度和效率上达到最佳平衡。
- 基线算法： VLMQ 作为插件，能显著提升 GPTQ 和 GPTAQ 两种基线算法的性能，证明其正交性和通用性。
效率分析：
- 量化时间： 相比 GPTQ，VLMQ 仅增加了极少量的量化时间（例如 7B 模型仅增加约 1.8 分钟）。
- 显存占用： 峰值显存增加可控（7B 模型增加约 4.29GB），完全在单卡 H100 80GB 的承受范围内。
- 推理速度： 由于保持了与 GPTQ 相同的量化格式，VLMQ 可以直接利用现有的硬件优化内核（如 Marlin, ExLLaMA），推理速度与 GPTQ 一致，无额外开销。

5. 意义与总结 (Significance)

VLMQ 的意义在于：

填补了空白： 它是首个专门针对 VLM 的“视觉过度表征”和“模态间隙”问题设计的 PTQ 框架，解决了将 LLM 量化技术直接迁移到 VLM 的痛点。
解锁超低比特部署： 使得在 2-bit 甚至更低比特下部署高性能 VLM 成为可能，极大地降低了多模态大模型在边缘设备（如手机、嵌入式设备）上的部署门槛。
高效且通用： 无需微调、无需特殊推理操作，且兼容现有硬件生态，具有极高的实用价值和推广潜力。

局限性：
目前评估主要集中在图像 - 文本任务上，虽然理论上可推广，但视频理解等长序列任务的具体表现仍有待进一步探索。

总结：
VLMQ 通过引入 Token 级的显著性感知机制，巧妙地利用梯度信息区分重要与冗余 Token，成功克服了 VLM 量化中的模态偏差问题。该方法在保持高效性的同时，显著提升了量化模型的精度，特别是为超低比特量化场景提供了强有力的解决方案。

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

1. 背景：为什么需要压缩？

2. 两个“隐形杀手”

3. 解决方案：VLMQ（智能筛选瘦身法）

核心步骤：

4. 效果如何？

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

核心组件：

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与总结 (Significance)

类似论文

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA