Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 PRUNESID 的新方法，旨在解决视觉 - 语言模型（VLM，比如能看图说话的 AI）“太笨重、太慢”的问题。

为了让你轻松理解，我们可以把 AI 看成一个正在努力阅读一本厚厚图画书的学生，而图片就是书里的插图。

1. 核心问题：学生被“信息过载”淹没了

现在的 AI 在看一张图时，会把图片切成几千个极小的方块（称为“视觉 Token"），每个方块都变成一段文字描述发给大脑（大语言模型）去处理。

现状：一张普通的图片，AI 可能会生成 576 个甚至 2880 个 这样的“小方块描述”。
问题：这就像学生手里拿着 2880 张便利贴，但其中 70% 都是废话（比如天空的一角、重复的草地纹理）。大脑处理这么多废话，既慢又容易累，导致反应迟钝。

2. 以前的方法有什么缺点？

以前的“删减员”（压缩方法）主要有两种，但都有缺陷：

方法 A（只看重点）：只保留那些“最显眼”的地方（比如人脸、汽车）。
- 比喻：就像只盯着主角看，完全忽略了背景。结果就是：学生知道那是个人，但不知道他站在图书馆还是公园，缺乏上下文。
方法 B（去重）：把长得一模一样的方块删掉，只留一个。
- 比喻：就像把重复的便利贴都扔了。但有时候，虽然两张便利贴长得像，但其中一张可能恰好包含了关键信息（比如文字的方向）。结果就是：误删了重要细节。

3. PRUNESID 是怎么做的？（两大绝招）

PRUNESID 像是一个聪明的图书管理员，它不盲目删减，而是分两步走：

第一步：按“主题”分组（PSCA）

管理员先把所有便利贴按“主题”分类。

怎么做：它利用一种数学技巧（主成分分析），把图片里的信息分成几个“语义组”。比如，一组全是“天空和云”，一组全是“草地”，一组全是“人物”。
比喻：就像把便利贴按“风景类”、“人物类”、“建筑类”分成了几个篮子。这样保证了每个重要的概念（篮子）都有代表，不会漏掉背景。

第二步：组内“优中选优”（NMS）

在每个篮子里，管理员再挑出最精华的一张。

怎么做：在“人物”这个篮子里，如果有 10 张都是“同一个人的脸”，管理员会保留那张最清晰、最关键的，把其他 9 张重复的扔掉。
比喻：这叫非极大值抑制（NMS）。就像在选代表时，如果一群人长得太像，只留一个“最佳代表”就够了，其他的都是冗余。

结果：既保留了所有重要的“主题”（多样性），又去掉了重复的废话（重要性）。

4. 还有一个“智能开关”：动态压缩率

以前的方法不管图片多复杂，都删掉固定比例（比如都删掉 90%）。

PRUNESID 的改进：它有一个智能开关。
- 如果图片很简单（比如一张白纸），它就狠心删，只留很少的 Token。
- 如果图片很复杂（比如一个拥挤的集市），它就手下留情，多留一些 Token。
比喻：就像你整理行李，如果是去海边度假（简单），带几件衣服就行；如果是去探险（复杂），你就得多带装备。PRUNESID 能根据“路况”自动调整行李量。

5. 效果有多好？

快：处理速度提升了 7.8 倍！以前 AI 看图要等很久，现在几乎是秒回。
准：在只保留 5.6% 的 Token（也就是把 2880 张便利贴删到只剩 160 张）的情况下，AI 的答题准确率依然高达 92.8%，甚至超过了之前最先进的方法。
通用：不管是看图片还是看视频，不管是哪种 AI 模型，这个方法都管用。

总结

PRUNESID 就像给 AI 装了一个智能过滤器。它不再把整张图一股脑塞给大脑，而是先帮大脑理清思路（分组），再提炼精华（去重），最后根据难度（动态调整） 决定给多少信息。

这让 AI 变得更聪明、更快速、更省资源，就像给一个背着 2880 斤石头走路的学生，卸下了 90% 的包袱，让他能轻装上阵，跑得更快、看得更准。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于视觉语言模型（VLM）中视觉 Token 压缩技术的论文，标题为《PRUNE REDUNDANCY, PRESERVE ESSENCE: VISION TOKEN COMPRESSION IN VLMS VIA SYNERGISTIC IMPORTANCE-DIVERSITY》（剪枝冗余，保留精华：通过协同重要性 - 多样性实现 VLM 中的视觉 Token 压缩）。该论文发表于 ICLR 2026。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

计算效率瓶颈：现有的视觉语言模型（如 LLaVA-1.5, LLaVA-NeXT）在推理过程中会生成大量的视觉 Token（例如 LLaVA-1.5 生成 576 个，LLaVA-NeXT 生成 2880 个）。研究表明，其中约 70% 的 Token 是冗余的，但现有的压缩方法难以在高压缩比下平衡“重要性保留”与“信息多样性”。
现有方法的局限性：
- 注意力引导法 (Attention-guided)：仅保留高注意力分数的 Token。虽然保留了显著区域，但往往忽略了背景上下文，且容易保留多个视觉上相似但语义重复的 Token（冗余），导致场景理解不完整。
- 去重/多样性法 (Duplication-aware)：基于相似度剪枝冗余 Token。虽然提高了多样性，但可能误删具有高注意力分数但语义关键的 Token，导致特征表示失真。
核心挑战：如何在大幅减少 Token 数量的同时，既保留关键的语义信息（重要性），又确保覆盖图像中的不同概念（多样性），且无需重新训练模型。

2. 方法论 (Methodology)

作者提出了 PRUNESID，一种无需训练 (Training-free) 的框架，采用两阶段流水线，并引入了动态压缩机制。

2.1 核心流程

主语义成分分析 (Principal Semantic Components Analysis, PSCA)：
- 目的：将视觉 Token 聚类为语义连贯的组。
- 机制：不同于传统 PCA 在特征维度操作，PSCA 在Token 维度上进行低秩分解。它分析 Token 间的变化，识别出代表全局语义方向（如物体、背景、纹理）的主成分。
- 分组：根据每个 Token 对主成分方向的贡献度，将其分配到 $K$ 个语义组中。这确保了每个组内部具有语义一致性，而组间具有多样性。
组内非极大值抑制 (Intra-group Non-Maximum Suppression, NMS)：
- 目的：在每个语义组内剪枝冗余 Token，保留最具代表性的 Token。
- 机制：
  - 计算每个 Token 的得分（基于其在主成分上的投影大小）。
  - 引入自适应的成对相似度阈值 $\tau$ 。该阈值基于图像的全局冗余度 $\rho$ 动态调整（ $\tau = \lambda \cdot \rho$ ）。
  - 在组内执行贪心 NMS：按得分排序，仅保留与已选 Token 相似度低于阈值的 Token。
- 结果：从每个组中选出最具代表性的 Token，形成最终的紧凑 Token 集。

2.2 信息感知的动态压缩比 (Information-Aware Dynamic Compression Ratio)

问题：传统方法对所有图像使用固定的 Token 保留数量，导致复杂场景信息丢失，简单场景冗余过多。
解决方案：计算图像的全局冗余度 $\rho$ ，定义信息得分 $\phi = 1 - \rho$ 。
机制：根据图像的信息得分动态分配 Token 预算。信息丰富的图像（如杂乱场景）分配更多 Token，简单图像（如纯色背景）分配更少 Token，从而在平均意义上最大化信息保留。

3. 主要贡献 (Key Contributions)

提出 PRUNESID 框架：首个通过“语义聚类 (PSCA)" + “组内剪枝 (NMS)"两阶段协同解决重要性 - 多样性权衡的无训练 VLM 压缩框架。
动态压缩机制：引入了基于图像内容复杂度的动态 Token 预算分配策略，显著提升了在不同场景下的平均信息保留能力。
理论分析：从包含 - 排除原理（Inclusion-Exclusion Principle）角度证明了该方法在最大化有效信息（保留重要性）和最小化冗余（保证多样性）方面的理论依据。

4. 实验结果 (Results)

实验在 LLaVA-1.5, LLaVA-NeXT, Mini-Gemini, Video-LLaVA 等多个模型和基准测试（GQA, MME, POPE, VQAv2, MMMU 等）上进行。

LLaVA-1.5：
- 在仅保留 11.1% (64 个) Token 的情况下，平均准确率达到 96.3%，优于之前的 SOTA 方法 VisionZip (92.5%) 和 HiRED (87.9%)。
- 在极端压缩（64 个 Token）下，性能提升显著。
LLaVA-NeXT：
- 在极端压缩率 5.6% (仅保留约 160 个 Token) 下，保持 92.8% 的准确率，比 prior 方法提升 2.5%。
视频理解 (Video-LLaVA)：
- 在仅保留 6.6% 的 Token 情况下，在多个视频问答基准上达到 SOTA，证明了方法在视频模态上的泛化性。
效率提升：
- 在 LLaVA-NeXT 上，预填充 (Prefilling) 时间从 218ms 降低至 27.8ms，加速了 7.8 倍，且推理总时间也大幅减少。
泛化性：在 Qwen-VL 等架构不同的模型上同样表现优异，证明了其通用性。

5. 意义与影响 (Significance)

解决核心矛盾：成功打破了现有压缩方法中“保留显著性”与“保持多样性”之间的权衡困境，通过语义分组和组内去重实现了两者的协同优化。
实际部署价值：作为一种无需训练、即插即用的方法，PRUNESID 能显著降低 VLM 的推理延迟和显存占用，使其更适用于资源受限的边缘设备或实时应用场景。
跨模态适用：不仅适用于静态图像，还有效扩展到了视频理解任务，展示了强大的跨模态适应能力。
动态适应性：提出的动态压缩机制为处理不同复杂度的视觉输入提供了新的思路，避免了固定压缩比带来的性能波动。

总结：PRUNESID 通过创新的“语义分组 + 组内剪枝”策略和动态资源分配机制，在大幅压缩视觉 Token 的同时，显著提升了 VLM 的推理效率和任务性能，为高效多模态大模型的部署提供了强有力的解决方案。