AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

本文通过实证分析揭示了现有视觉 Token 剪枝方法在特征多样性保持与幻觉抑制方面的局限性,并据此提出了一种结合图像感知调整的自适应剪枝机制,显著提升了大型视觉语言模型在复杂场景下的性能与可靠性。

Changwoo Baek, Jouwon Song, Sohyeon Kim, Kyeongbo Kong

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要研究的是如何让大型视觉 - 语言模型(LVLMs)——也就是那些能“看图说话”的超级 AI——变得更聪明、更快速,同时减少它们“胡说八道”(幻觉)的情况。

为了让你更容易理解,我们可以把整个研究过程想象成一位大厨(AI 模型)。

1. 背景:大厨的烦恼

想象一下,你给大厨看一张照片,照片里有成百上千个细节(比如树叶的纹理、远处的云朵、桌上的杯子)。

  • 问题:如果大厨试图把照片里每一个像素点都当成一个“食材”来处理,他的脑子(计算资源)会瞬间爆炸,反应变得极慢。
  • 现状:以前的方法通常是让大厨只挑一部分食材(Token 剪枝)。
    • 方法 A(注意力机制):大厨只挑那些最显眼、最亮的食材(比如照片正中间的大苹果)。
    • 方法 B(多样性机制):大厨试图挑种类最丰富的食材(苹果、香蕉、桌子、背景),生怕漏掉什么。

2. 核心发现:没有“万能钥匙”

作者通过大量实验发现,这两种方法都有各自的“性格缺陷”,而且没有一种方法能通吃所有图片

  • 关于“胡说八道”(幻觉):

    • 挑“种类丰富”的大厨(多样性方法):因为想展示得全面,他容易过度发挥。比如照片里只有个苹果,他可能会说:“这里有个苹果,旁边还有只猫,甚至可能还有一辆自行车……"(实际上并没有)。他为了追求“多样性”,容易编造不存在的细节。
    • 挑“最显眼”的大厨(注意力方法):他非常保守。照片里只有苹果,他就只说苹果。虽然可能漏掉了一些小细节,但他很少胡说八道,非常靠谱。
  • 关于“图片复杂度”

    • 简单的图(比如一张白底红苹果):这时候,挑“最显眼”的大厨(注意力法)表现最好。因为重点很集中,不需要到处乱找。
    • 复杂的图(比如一个拥挤的集市):这时候,挑“种类丰富”的大厨(多样性法)表现更好。因为信息分散在四面八方,只盯着一个点看会漏掉很多重要信息。

结论:以前的大厨要么太保守(漏细节),要么太发散(爱瞎编)。而且他们不管遇到什么图,都用同一种挑菜方式,这显然不够聪明。

3. 解决方案:聪明的“自适应”大厨

作者提出了一个叫 AgilePruner(敏捷修剪者)的新方法。它的核心思想是:看菜下碟,灵活应变

  • 如何判断
    大厨在挑菜前,先快速扫一眼照片,计算一下这张图的“混乱程度”(论文里用了一个叫 erank 的指标,你可以理解为“信息密度”或“混乱指数”)。

    • 如果图很简单(混乱指数低):大厨会切换到“保守模式”。他主要盯着最显眼的地方挑,少挑一些,确保不瞎编,精准描述核心内容。
    • 如果图很复杂(混乱指数高):大厨会切换到“发散模式”。他会主动去挑那些分散在角落里的、种类多样的食材,确保不遗漏重要信息。
  • 怎么实现
    作者设计了一个简单的动态门槛

    • 对于简单的图,门槛设得很严,只允许最明显的“明星食材”留下。
    • 对于复杂的图,门槛放宽,允许更多样化的“配角食材”加入。

4. 最终效果

这个“自适应大厨”做到了两全其美:

  1. 更准:在简单的测试题上,它像保守派一样精准;在复杂的场景题上,它像发散派一样全面。
  2. 更稳:它大幅减少了“胡说八道”的情况。因为它知道什么时候该收敛,什么时候该发散。
  3. 更快:因为它只挑了必要的食材,计算速度大大提升,而且不需要重新训练模型,直接就能用。

总结

这篇论文就像是在告诉 AI 开发者:

“别再用一种死板的方法去处理所有图片了!简单的图要‘抓重点’,复杂的图要‘广撒网’。我们要教 AI 学会根据图片的复杂程度,自动切换‘保守’和‘发散’两种模式。这样,AI 既能看得全,又不会瞎编乱造,还能跑得飞快。”

这就是 AgilePruner 的精髓:灵活(Agile)。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →