Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

本文提出了无需训练的 PruneSID 框架,通过协同重要性分析与多样性保持的两阶段策略及动态压缩机制,在显著降低视觉语言模型计算开销的同时实现了卓越的压缩性能与跨模态泛化能力。

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 PRUNESID 的新方法,旨在解决视觉 - 语言模型(VLM,比如能看图说话的 AI)“太笨重、太慢”的问题。

为了让你轻松理解,我们可以把 AI 看成一个正在努力阅读一本厚厚图画书的学生,而图片就是书里的插图。

1. 核心问题:学生被“信息过载”淹没了

现在的 AI 在看一张图时,会把图片切成几千个极小的方块(称为“视觉 Token"),每个方块都变成一段文字描述发给大脑(大语言模型)去处理。

  • 现状:一张普通的图片,AI 可能会生成 576 个甚至 2880 个 这样的“小方块描述”。
  • 问题:这就像学生手里拿着 2880 张便利贴,但其中 70% 都是废话(比如天空的一角、重复的草地纹理)。大脑处理这么多废话,既慢又容易累,导致反应迟钝。

2. 以前的方法有什么缺点?

以前的“删减员”(压缩方法)主要有两种,但都有缺陷:

  • 方法 A(只看重点):只保留那些“最显眼”的地方(比如人脸、汽车)。
    • 比喻:就像只盯着主角看,完全忽略了背景。结果就是:学生知道那是个人,但不知道他站在图书馆还是公园,缺乏上下文
  • 方法 B(去重):把长得一模一样的方块删掉,只留一个。
    • 比喻:就像把重复的便利贴都扔了。但有时候,虽然两张便利贴长得像,但其中一张可能恰好包含了关键信息(比如文字的方向)。结果就是:误删了重要细节

3. PRUNESID 是怎么做的?(两大绝招)

PRUNESID 像是一个聪明的图书管理员,它不盲目删减,而是分两步走:

第一步:按“主题”分组(PSCA)

管理员先把所有便利贴按“主题”分类。

  • 怎么做:它利用一种数学技巧(主成分分析),把图片里的信息分成几个“语义组”。比如,一组全是“天空和云”,一组全是“草地”,一组全是“人物”。
  • 比喻:就像把便利贴按“风景类”、“人物类”、“建筑类”分成了几个篮子。这样保证了每个重要的概念(篮子)都有代表,不会漏掉背景。

第二步:组内“优中选优”(NMS)

在每个篮子里,管理员再挑出最精华的一张。

  • 怎么做:在“人物”这个篮子里,如果有 10 张都是“同一个人的脸”,管理员会保留那张最清晰、最关键的,把其他 9 张重复的扔掉。
  • 比喻:这叫非极大值抑制(NMS)。就像在选代表时,如果一群人长得太像,只留一个“最佳代表”就够了,其他的都是冗余。

结果:既保留了所有重要的“主题”(多样性),又去掉了重复的废话(重要性)。

4. 还有一个“智能开关”:动态压缩率

以前的方法不管图片多复杂,都删掉固定比例(比如都删掉 90%)。

  • PRUNESID 的改进:它有一个智能开关
    • 如果图片很简单(比如一张白纸),它就狠心删,只留很少的 Token。
    • 如果图片很复杂(比如一个拥挤的集市),它就手下留情,多留一些 Token。
  • 比喻:就像你整理行李,如果是去海边度假(简单),带几件衣服就行;如果是去探险(复杂),你就得多带装备。PRUNESID 能根据“路况”自动调整行李量。

5. 效果有多好?

  • :处理速度提升了 7.8 倍!以前 AI 看图要等很久,现在几乎是秒回。
  • :在只保留 5.6% 的 Token(也就是把 2880 张便利贴删到只剩 160 张)的情况下,AI 的答题准确率依然高达 92.8%,甚至超过了之前最先进的方法。
  • 通用:不管是看图片还是看视频,不管是哪种 AI 模型,这个方法都管用。

总结

PRUNESID 就像给 AI 装了一个智能过滤器。它不再把整张图一股脑塞给大脑,而是先帮大脑理清思路(分组),再提炼精华(去重),最后根据难度(动态调整) 决定给多少信息。

这让 AI 变得更聪明、更快速、更省资源,就像给一个背着 2880 斤石头走路的学生,卸下了 90% 的包袱,让他能轻装上阵,跑得更快、看得更准。