When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个关于“视觉大语言模型”（VLLMs，即能看图说话的 AI）的有趣发现：有时候，为了加速 AI 思考而刻意“剪掉”一些图片信息，效果还不如直接“闭眼乱剪”。

为了让你更容易理解，我们可以把 AI 看图的過程想象成一位侦探在分析一张复杂的现场照片。

1. 背景：侦探太累，需要“减负”

现在的 AI 侦探（VLLM）在看一张照片时，会把照片切成几百甚至上千个小碎片（称为"Token"，就像拼图块）。每一个碎片都代表一部分视觉信息。

问题：如果照片很清晰、碎片太多，AI 处理起来就像要读完一本厚厚的百科全书，速度很慢，计算成本很高。
现有方案：为了快，研究人员发明了各种“剪枝”方法。就像侦探在分析前，先挑出“看起来最重要”的拼图块（比如人脸、关键物体），把那些“看起来不重要”的（比如背景里的草地、天空）扔掉，只保留精华。

2. 核心发现：越往后看，越像“乱猜”

研究人员发现了一个奇怪的现象：

在分析的初期（浅层）：AI 确实能分清哪些拼图块重要，哪些不重要。这时候用“智能筛选”确实比“瞎扔”要好。
在分析的后期（深层）：当 AI 已经思考了很多轮（比如第 20 层以后），那些“智能筛选”的方法突然失效了。它们挑出来的块，和闭着眼睛随机扔掉一些块的效果竟然一模一样，甚至更差！

这就像什么？
想象侦探已经看过了照片的前半部分，心里大概有了数。到了后半段，他手里剩下的那些拼图块，其实信息量都已经差不多被“榨干”了。这时候，无论你怎么挑，剩下的块都差不多是“废话”。既然大家都差不多，那还不如随机扔几个，反正结果都一样。

3. 关键概念：“信息地平线” (Information Horizon)

论文提出了一个很酷的概念叫**“信息地平线”**。

比喻：想象你在海边看日出。一开始，你能看到很多细节（波浪、海鸥、云彩），信息量很大。但随着太阳越升越高（AI 层数越深），光线变得均匀，你再也分辨不出具体的细节了，眼前只剩下一片白茫茫的光。
含义：在 AI 的神经网络中，存在一个特定的“层数”。在这个层数之前，图片里的 Token 还带着重要的信息；一旦超过这个层数（地平线），所有的视觉 Token 就都变成了“透明”的，它们不再包含任何对回答问题有用的新信息。
结论：过了这个“地平线”，你完全可以把剩下的视觉信息全部扔掉，AI 依然能靠之前的记忆（文本信息）把题做对。

4. 为什么“地平线”的位置会变？

这个“地平线”不是固定的，它受两个因素影响：

任务难度（看什么图）：
- 如果是简单的“这是什么动物？”，AI 很快就能看懂，地平线来得早（比如第 15 层）。
- 如果是复杂的“这张图里的文字是什么？（OCR）”或者“找细节”，AI 需要看得更深，地平线就会推后（比如第 27 层）。
- 比喻：找猫（简单）和找藏在草丛里的猫（复杂），需要的观察深度不同。
模型能力（谁在看）：
- 能力强的 AI（如 Qwen2.5-VL）能利用更深层的信息，它的“地平线”更深。
- 能力弱的 AI（如 LLaVA-1.5）看得浅，地平线来得早。

5. 最终方案：聪明地“乱剪”

既然知道了在深层“智能筛选”没用，那该怎么办？
论文给出的方案是**“混合双打”**：

浅层（信息丰富时）：用聪明的算法，精准地保留最重要的拼图块。
深层（信息地平线之后）：别费劲去挑了，直接随机扔掉一半，或者干脆把剩下的视觉信息全删掉，只留文本。

效果如何？

这种“随机剪枝”不仅省去了计算“哪个重要”的时间（因为反正都一样），还能让 AI 跑得更快。
实验证明，在 Qwen2.5-VL 模型上，用这种方法剪掉 50% 的视觉 Token，性能依然保留了 96.9%，几乎没损失。

总结

这篇论文告诉我们一个反直觉的道理：在 AI 思考的后期，过度追求“精准筛选”是徒劳的，因为信息已经耗尽了。

与其费力去计算哪块拼图重要，不如在后期直接“随机丢弃”甚至“全部丢弃”。这不仅让 AI 跑得更快，还省了算力，而且答案依然准确。这就好比侦探在案件基本水落石出后，不需要再拿着放大镜去研究每一粒灰尘，直接合上卷宗就能结案了。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于视觉大语言模型（VLLMs）中**视觉 Token 剪枝（Token Pruning）**的深入研究论文。论文的核心发现是：在模型的深层网络中，现有的无训练（training-free）剪枝方法表现并不优于随机剪枝，甚至更差。作者提出了“信息视界（Information Horizon）”的概念，并证明了在深层引入随机剪枝可以显著提升效率与性能的平衡。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：视觉大语言模型（VLLMs，如 LLaVA, Qwen-VL）通过将图像编码为数百甚至数千个视觉 Token 来处理多模态任务，这导致了巨大的计算开销和推理延迟。
现有方案：为了加速推理，研究者提出了多种无训练的 Token 剪枝策略，主要分为两类：
1. 基于重要性（Importance-based）：利用注意力权重（Attention weights）丢弃低权重的 Token。
2. 基于多样性（Diversity-based）：计算 Token 间的相似度，移除冗余 Token。
核心问题：作者观察到，在 VLLM 语言解码器的深层（例如第 20 层之后），现有的先进剪枝方法（如 FastV, DivPrune, DART 等）的表现与**随机剪枝（Random Pruning）**相当，甚至更差。这引发了一个关键疑问：这些方法在深层是否还能识别出包含必要信息的视觉 Token？

2. 方法论 (Methodology)

2.1 视觉 Token 信息量化 (Visual Token Information Quantification)

为了理解 Token 在深层的作用，作者提出了一种新的信息度量指标：

定义：一个视觉 Token 在特定层 $i$ 的信息量 $I_i(V_k)$ ，定义为移除该 Token 前后，模型输出概率的变化。
计算过程：
1. 在解码器的第 $i$ 层，保留目标 Token $V_k$ ，移除其他所有视觉 Token，计算模型对真实标签 $y$ 的预测概率 $p_k$ 。
2. 进一步移除 $V_k$ ，仅保留文本 Token，计算概率 $p_{text}$ 。
3. 信息量 $I_i(V_k) = p_k - p_{text}$ 。
验证：实验表明，根据此定义移除“低信息量”的 Token，确实能提升模型性能，证明该指标有效。

2.2 发现：信息视界 (Information Horizon)

通过测量各层视觉 Token 的信息量分布，作者发现了三个关键现象：

信息均匀化与消失：随着网络层数加深，视觉 Token 的信息量逐渐变得均匀，并在某一中间层后趋近于零。
信息视界（Information Horizon）：作者将 Token 信息量趋近于零的层定义为“信息视界”。在此层之后，视觉 Token 变得冗余，移除它们不会影响模型性能。
动态性：信息视界的位置不是固定的，受两个因素影响：
- 任务视觉复杂度：OCR（光学字符识别）等需要精细视觉细节的任务，其信息视界比 VQA（视觉问答）等任务更深。
- 模型视觉能力：更强的模型（如 Qwen2.5-VL）比弱模型（如 LLaVA-1.5）能利用更深层的视觉 Token，因此其信息视界更深。

2.3 解决方案：混合随机剪枝 (Hybrid Random Pruning)

基于上述发现，作者提出了一种简单的策略：

浅层：使用现有的剪枝方法（如 DivPrune 或 DART）保留高信息量的 Token。
深层（超过信息视界）：直接采用随机剪枝。因为在深层所有 Token 的信息量都极低且均匀，随机选择移除不会损失关键信息，且无需计算注意力权重，效率更高。

3. 主要贡献 (Key Contributions)

提出了视觉 Token 信息量化方法：通过测量移除 Token 后的输出概率变化来定义信息量，并证明移除低信息 Token 能提升性能。
揭示了“信息视界”现象：发现视觉 Token 信息在深层会均匀消失，导致现有剪枝方法在深层失效（表现等同于随机剪枝）。
阐明了影响视界位置的因素：证明了任务复杂度（如 OCR vs VQA）和模型能力决定了信息视界的具体位置。
提出了高效的混合剪枝策略：将随机剪枝与现有方法结合，在保持高性能的同时大幅降低计算成本。

4. 实验结果 (Results)

4.1 性能提升

Qwen2.5-VL-7B：结合随机剪枝的 DivPrune 方法（DivPrune+Random），在保留 50% 视觉 Token 的情况下，保持了 96.9% 的原始模型性能，在 OCRBench 等基准上表现优于纯剪枝方法。
LLaVA-1.5-7B：DivPrune+Random 在 MMBench 上的准确率比仅用 DivPrune 提高了 6.7%（从 54.6% 提升至 61.3%）。
对比 VTW (Visual Token Withdraw)：传统的“固定层后移除所有 Token"策略（VTW）在复杂任务上表现不佳，而随机剪枝策略在保持 Token 部分存在的情况下，性能显著优于 VTW。

4.2 效率分析

延迟与显存：在 LLaVA-1.5-7B 上，结合随机剪枝的 DART 方法将推理延迟降低至原始模型的 0.6 倍，同时保留了 91.6% 的性能。
FLOPs：在保留 64 个 Token 的情况下，DART+Random 的 FLOPs 从 2.44T 降至 2.36T，且准确率从 50.4% 提升至 53.4%。
兼容性：由于随机剪枝不需要访问注意力图，该方法可以无缝兼容 FlashAttention，进一步加速推理。

5. 意义与结论 (Significance & Conclusion)

理论意义：论文挑战了“剪枝必须基于复杂计算（如注意力权重）”的直觉，指出在深层网络中，由于信息视界的存在，简单的随机策略反而更优。这为理解 VLLM 内部视觉信息的传播机制提供了新视角。
实践价值：提供了一种简单、通用且高效的剪枝策略。无需重新训练模型，即可在多种架构（Qwen, LLaVA）和多种任务（VQA, OCR, 推理）上实现性能与效率的最佳平衡。
未来方向：提示未来的剪枝算法应动态感知“信息视界”，在浅层利用多样性/重要性剪枝，在深层利用随机剪枝，而非盲目地在所有层使用复杂的剪枝逻辑。

总结：这篇论文通过量化视觉 Token 的信息量，揭示了深层网络中视觉信息的“视界”现象，证明了在深层引入随机剪枝不仅不会损害性能，反而能超越复杂的现有剪枝方法，为 VLLM 的高效推理提供了新的范式。