When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

该论文揭示了视觉大语言模型深层中存在“信息视界”现象,即视觉令牌信息随层数加深而逐渐均匀化直至消失,导致深层训练无关剪枝效果不优于随机剪枝,进而提出在深层结合随机剪枝的策略,在大幅降低计算成本的同时保持了模型的高性能。

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个关于“视觉大语言模型”(VLLMs,即能看图说话的 AI)的有趣发现:有时候,为了加速 AI 思考而刻意“剪掉”一些图片信息,效果还不如直接“闭眼乱剪”。

为了让你更容易理解,我们可以把 AI 看图的過程想象成一位侦探在分析一张复杂的现场照片

1. 背景:侦探太累,需要“减负”

现在的 AI 侦探(VLLM)在看一张照片时,会把照片切成几百甚至上千个小碎片(称为"Token",就像拼图块)。每一个碎片都代表一部分视觉信息。

  • 问题:如果照片很清晰、碎片太多,AI 处理起来就像要读完一本厚厚的百科全书,速度很慢,计算成本很高。
  • 现有方案:为了快,研究人员发明了各种“剪枝”方法。就像侦探在分析前,先挑出“看起来最重要”的拼图块(比如人脸、关键物体),把那些“看起来不重要”的(比如背景里的草地、天空)扔掉,只保留精华。

2. 核心发现:越往后看,越像“乱猜”

研究人员发现了一个奇怪的现象:

  • 在分析的初期(浅层):AI 确实能分清哪些拼图块重要,哪些不重要。这时候用“智能筛选”确实比“瞎扔”要好。
  • 在分析的后期(深层):当 AI 已经思考了很多轮(比如第 20 层以后),那些“智能筛选”的方法突然失效了。它们挑出来的块,和闭着眼睛随机扔掉一些块的效果竟然一模一样,甚至更差!

这就像什么?
想象侦探已经看过了照片的前半部分,心里大概有了数。到了后半段,他手里剩下的那些拼图块,其实信息量都已经差不多被“榨干”了。这时候,无论你怎么挑,剩下的块都差不多是“废话”。既然大家都差不多,那还不如随机扔几个,反正结果都一样。

3. 关键概念:“信息地平线” (Information Horizon)

论文提出了一个很酷的概念叫**“信息地平线”**。

  • 比喻:想象你在海边看日出。一开始,你能看到很多细节(波浪、海鸥、云彩),信息量很大。但随着太阳越升越高(AI 层数越深),光线变得均匀,你再也分辨不出具体的细节了,眼前只剩下一片白茫茫的光。
  • 含义:在 AI 的神经网络中,存在一个特定的“层数”。在这个层数之前,图片里的 Token 还带着重要的信息;一旦超过这个层数(地平线),所有的视觉 Token 就都变成了“透明”的,它们不再包含任何对回答问题有用的新信息。
  • 结论:过了这个“地平线”,你完全可以把剩下的视觉信息全部扔掉,AI 依然能靠之前的记忆(文本信息)把题做对。

4. 为什么“地平线”的位置会变?

这个“地平线”不是固定的,它受两个因素影响:

  1. 任务难度(看什么图)
    • 如果是简单的“这是什么动物?”,AI 很快就能看懂,地平线来得早(比如第 15 层)。
    • 如果是复杂的“这张图里的文字是什么?(OCR)”或者“找细节”,AI 需要看得更深,地平线就会推后(比如第 27 层)。
    • 比喻:找猫(简单)和找藏在草丛里的猫(复杂),需要的观察深度不同。
  2. 模型能力(谁在看)
    • 能力强的 AI(如 Qwen2.5-VL)能利用更深层的信息,它的“地平线”更深。
    • 能力弱的 AI(如 LLaVA-1.5)看得浅,地平线来得早。

5. 最终方案:聪明地“乱剪”

既然知道了在深层“智能筛选”没用,那该怎么办?
论文给出的方案是**“混合双打”**:

  • 浅层(信息丰富时):用聪明的算法,精准地保留最重要的拼图块。
  • 深层(信息地平线之后):别费劲去挑了,直接随机扔掉一半,或者干脆把剩下的视觉信息全删掉,只留文本。

效果如何?

  • 这种“随机剪枝”不仅省去了计算“哪个重要”的时间(因为反正都一样),还能让 AI 跑得更快。
  • 实验证明,在 Qwen2.5-VL 模型上,用这种方法剪掉 50% 的视觉 Token,性能依然保留了 96.9%,几乎没损失。

总结

这篇论文告诉我们一个反直觉的道理:在 AI 思考的后期,过度追求“精准筛选”是徒劳的,因为信息已经耗尽了。

与其费力去计算哪块拼图重要,不如在后期直接“随机丢弃”甚至“全部丢弃”。这不仅让 AI 跑得更快,还省了算力,而且答案依然准确。这就好比侦探在案件基本水落石出后,不需要再拿着放大镜去研究每一粒灰尘,直接合上卷宗就能结案了。