VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

本文提出了 VLM-Pruner,一种无需训练的离心式令牌剪枝算法,通过引入空间稀疏缓冲(BSS)准则和并行贪婪策略,在平衡冗余度与空间分布的同时保留细粒度物体细节,从而在多个视觉语言模型上实现了高达 88.9% 的剪枝率并提升了端到端推理速度。

Zhenkai Wu, Xiaowen Ma, Zhenliang Ni, Dengming Zhang, Han Shu, Xin Jiang, Xinghao Chen

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 VLM-Pruner 的新方法,它的目的是让“视觉 - 语言大模型”(VLM)变得更轻、更快,同时还能保持“眼力”和“脑力”不掉线。

为了让你轻松理解,我们可以把整个过程想象成一位忙碌的图书管理员在整理一本巨大的、图文并茂的百科全书

1. 背景:为什么需要“修剪”?

现在的 AI 模型(VLM)非常聪明,能看图说话、回答问题。但是,当它看一张高清图片时,它会把图片切成几千个小方块(称为"Token",可以理解为小图片碎片)。

  • 问题:如果一张图有 1000 个碎片,AI 就要处理 1000 个信息点。这就像让图书管理员同时阅读 1000 页书,不仅累(计算成本高),而且很多页是重复的(比如蓝天背景),或者离重点太远。
  • 现状:以前的方法就像是一个只认“明星”的管理员(重要性驱动),或者一个只认“不同”的管理员(冗余减少)。
    • “只认明星”的管理员:只盯着最显眼的地方(比如人的脸),结果把脸周围的细节(比如衣服的纹理)也全选了,导致信息重复。
    • “只认不同”的管理员:为了找不同的,专门挑那些没人注意的角落(比如背景里的树叶),结果把主角(比如人)给漏掉了,或者选得七零八落,拼不出完整的图。

2. 核心创新:VLM-Pruner 的“离心式”整理法

VLM-Pruner 提出了一种全新的策略,叫**“离心式 Token 修剪”。我们可以把它想象成“从中心向外扩散的涟漪”**。

第一步:选几个“定海神针”(Pivot Initialization)

管理员先不急着看全图,而是先找出几个最关键、互不重叠的“核心碎片”(比如人的眼睛、手、车轮)。

  • 比喻:就像在地图上先标出几个主要城市,确保覆盖了不同的区域,而不是把所有标记都堆在同一个城市里。

第二步:由近及远的“涟漪扩散”(Centrifugal Selection & BSS)

这是最精彩的部分。选定了核心后,管理员开始向外扩展,但他有一个特殊的规则:“先选身边的,再选远处的”

  • 缓冲机制 (BSS):论文里提到的“空间稀疏缓冲”,就像是一个**“邻里优先原则”**。
    • 如果核心碎片旁边有个邻居(比如眼睛旁边的眉毛),管理员会优先选它,哪怕它看起来和眼睛有点像。因为这样能保留细节的完整性。
    • 如果有个碎片在很远的地方(比如背景里的云),管理员会暂时把它“缓冲”一下,先不选。除非身边的邻居都选完了,实在没得选了,才考虑它。
  • 比喻:这就像你在聚会上找人聊天。你会先和身边最熟的人(核心)聊,然后慢慢扩展到他们的朋友(邻居),最后才去和房间另一头的人聊天。这样你既能聊得深,又不会漏掉重要的小圈子。以前的方法容易让你直接跳到房间另一头,结果身边的人都忽略了。

第三步:把被扔掉的信息“回收”(Recovery via SWA)

有些碎片虽然因为离得远被“淘汰”了,但它们可能还藏着一点点有用的信息(比如远处的一行小字)。

  • 比喻:管理员把那些没被选中的碎片,**“打包”扔进一个回收站,然后看看它们和谁最像,就把它们的信息“融合”**进那个最像的保留碎片里。
  • 效果:就像把被丢弃的笔记内容,摘要后贴在了主笔记的旁边。这样既节省了空间,又没丢信息。

3. 结果:既快又准

通过这种“先选核心,再照顾邻居,最后回收信息”的方法,VLM-Pruner 取得了惊人的效果:

  • 砍掉 88.9% 的废话:它能把图片里的信息量减少近 90%,只留下最精华的 10%。
  • 速度提升:因为要处理的信息少了,AI 回答问题的速度变快了(就像图书管理员只读精华版,速度自然快)。
  • 细节不失:即使在这么极端的裁剪下,它在识别文字(OCR)、看清物体细节(比如车的轮胎、衣服的褶皱)方面,比以前的方法都要好。它没有像以前的方法那样,为了省空间把关键细节给“剪碎”了。

总结

VLM-Pruner 就像是一个聪明的“信息过滤器”
它不再盲目地抓取所有信息,也不盲目地追求“不同”。它懂得**“由近及远”**,先保证把主角和主角周围的细节照顾周全(像画同心圆一样),最后再把远处的边角料精华提取出来融合进去。

这让大模型在手机上也能跑得飞快,同时还能看清图片里的每一个微小细节,真正实现了**“少即是多”**。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →