Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

本文针对现有大视觉语言模型中基于文本引导的视觉 Token 剪枝方法因跨模态不对齐而失效的问题,提出了一种无需训练、仅依赖视觉模态内部注意力机制的 VisionDrop 框架,通过多阶段渐进式剪枝与融合策略,在显著降低推理延迟和计算量的同时保持了模型的高性能。

Rui Xu, Yunke Wang, Yong Luo, Bo Du

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个大模型(LVLM)“吃太多”的问题,并提出了一种聪明的“减肥”方案。

我们可以把这篇论文的核心思想想象成给一位正在“暴饮暴食”的超级大厨(大模型)制定一份科学的“轻断食”食谱

1. 背景:大厨为什么“吃撑”了?

现在的视觉 - 语言大模型(LVLM)非常聪明,能看图说话、回答问题。但是,它们看一张图片的方式很“笨拙”:

  • 现状:为了看清图片的每一个细节,它们把一张图片切成了成百上千个微小的“拼图块”(Token),每一个块都要像文字一样输入给大脑处理。
  • 问题:这就好比你要描述一张照片,却把照片里的每一粒灰尘、每一根草都单独列出来讲。这不仅让大脑(计算资源)累得半死,反应也变慢了,而且因为要处理的信息太多,反而容易“消化不良”。

2. 旧方法的误区:听“文字指挥”来挑重点

以前,人们想给模型“减肥”,方法是让模型根据问题(文字)来决定保留哪些图片块

  • 比喻:就像你问大厨:“这道菜里哪块肉最好吃?”然后大厨根据你问的这句话,去挑图片里的肉。
  • 论文发现的致命缺陷:作者发现,文字和图片在模型的大脑深处经常“对不上号”
    • 因果错位:模型是像讲故事一样,一个词接一个词生成的。它往往只关注“最近”看到的图片块,而忽略了远处的重要细节(就像听故事时只记得最后半句,忘了开头)。
    • 语义错位:随着信息在模型里传递,文字和图片的界限变得模糊。有时候你问“天空蓝不蓝”,模型可能因为文字和某些无关的绿色草地“纠缠”在一起,反而把蓝天给删掉了。
    • 空间错位:文字本身没有“位置感”。如果你问“左边的树”,模型可能因为文字和图片位置没对齐,把右边的树也删了。
  • 结论:靠“听文字指挥”来删减图片块,就像让一个有点耳背、记性又不好的人去挑菜,经常挑错,把重要的东西扔了,把没用的留着。

3. 新方案:VisionDrop(视觉“断舍离”)

作者提出了一个叫 VisionDrop 的新方法。它的核心思想是:别听文字指挥,让图片自己决定谁重要!

  • 核心策略:视觉自关注(Visual Self-Attention)

    • 比喻:不再问“文字觉得哪块重要”,而是让图片里的各个拼图块互相交流
    • 原理:如果图片里的某个树块,被其他很多树块都“盯着看”(注意力高),那它肯定很重要,必须保留。如果某个块没人理,那它可能就是背景里的杂草,可以删掉。
    • 好处:完全不受文字干扰,避免了“耳背”和“记性差”的问题,能更客观地保留图片的核心内容。
  • 进阶技巧:分层修剪 + 智能合并

    • 分层修剪:就像给大树修剪枝叶,不是一次性剪完,而是分阶段进行。先在“视觉编码器”(看图的初级阶段)剪掉明显的杂草,再在“大语言模型”(思考阶段)继续修剪。这样既稳定,又能保留细节。
    • 智能合并:对于那些不够重要、但又不能完全扔掉的信息(比如一些模糊的背景),不直接删掉,而是把它们**“打包合并”**。
    • 比喻:就像整理衣柜,重要的衣服(核心视觉信息)挂出来;不重要的衣服(冗余信息)折叠起来塞进一个箱子(合并),而不是直接扔掉。这样既省空间,又保留了万一需要时的线索。

4. 效果:吃得少,干得好

实验结果表明,这个新方法非常厉害:

  • 大幅瘦身:它能把图片的“信息量”减少到原来的 1/10 甚至更少(比如只保留 32 个关键块,而不是原来的 576 个)。
  • 速度飞起:因为要处理的信息少了,模型的反应速度提升了 2.7 倍,计算量减少了 6 倍
  • 能力不减:最神奇的是,虽然“吃”得少了,但它的“智商”(回答问题的准确率)依然保留了 95% 以上,甚至比以前的旧方法还要好。

总结

这篇论文告诉我们:在让 AI 看图时,不要盲目地听文字指挥去删减图片信息,因为文字和图片经常“吵架”或“对不上号”。

VisionDrop 就像一位高明的视觉整理师,它让图片自己说话,通过“互相交流”找出重点,分阶段地“去粗取精”并“打包合并”。结果就是:AI 变得更轻快、更聪明,处理图片的速度快如闪电,而且完全不需要重新训练,直接就能用。

这对于未来的应用(比如手机上的实时翻译、医疗影像分析)非常重要,因为它让大模型在资源有限的设备上也能跑得飞快。