Each language version is independently generated for its own context, not a direct translation.
这篇论文探讨了一个关于“视觉大语言模型”(VLLMs,即能看图说话的 AI)的有趣发现:有时候,为了加速 AI 思考而刻意“剪掉”一些图片信息,效果还不如直接“闭眼乱剪”。
为了让你更容易理解,我们可以把 AI 看图的過程想象成一位侦探在分析一张复杂的现场照片。
1. 背景:侦探太累,需要“减负”
现在的 AI 侦探(VLLM)在看一张照片时,会把照片切成几百甚至上千个小碎片(称为"Token",就像拼图块)。每一个碎片都代表一部分视觉信息。
- 问题:如果照片很清晰、碎片太多,AI 处理起来就像要读完一本厚厚的百科全书,速度很慢,计算成本很高。
- 现有方案:为了快,研究人员发明了各种“剪枝”方法。就像侦探在分析前,先挑出“看起来最重要”的拼图块(比如人脸、关键物体),把那些“看起来不重要”的(比如背景里的草地、天空)扔掉,只保留精华。
2. 核心发现:越往后看,越像“乱猜”
研究人员发现了一个奇怪的现象:
- 在分析的初期(浅层):AI 确实能分清哪些拼图块重要,哪些不重要。这时候用“智能筛选”确实比“瞎扔”要好。
- 在分析的后期(深层):当 AI 已经思考了很多轮(比如第 20 层以后),那些“智能筛选”的方法突然失效了。它们挑出来的块,和闭着眼睛随机扔掉一些块的效果竟然一模一样,甚至更差!
这就像什么?
想象侦探已经看过了照片的前半部分,心里大概有了数。到了后半段,他手里剩下的那些拼图块,其实信息量都已经差不多被“榨干”了。这时候,无论你怎么挑,剩下的块都差不多是“废话”。既然大家都差不多,那还不如随机扔几个,反正结果都一样。
3. 关键概念:“信息地平线” (Information Horizon)
论文提出了一个很酷的概念叫**“信息地平线”**。
- 比喻:想象你在海边看日出。一开始,你能看到很多细节(波浪、海鸥、云彩),信息量很大。但随着太阳越升越高(AI 层数越深),光线变得均匀,你再也分辨不出具体的细节了,眼前只剩下一片白茫茫的光。
- 含义:在 AI 的神经网络中,存在一个特定的“层数”。在这个层数之前,图片里的 Token 还带着重要的信息;一旦超过这个层数(地平线),所有的视觉 Token 就都变成了“透明”的,它们不再包含任何对回答问题有用的新信息。
- 结论:过了这个“地平线”,你完全可以把剩下的视觉信息全部扔掉,AI 依然能靠之前的记忆(文本信息)把题做对。
4. 为什么“地平线”的位置会变?
这个“地平线”不是固定的,它受两个因素影响:
- 任务难度(看什么图):
- 如果是简单的“这是什么动物?”,AI 很快就能看懂,地平线来得早(比如第 15 层)。
- 如果是复杂的“这张图里的文字是什么?(OCR)”或者“找细节”,AI 需要看得更深,地平线就会推后(比如第 27 层)。
- 比喻:找猫(简单)和找藏在草丛里的猫(复杂),需要的观察深度不同。
- 模型能力(谁在看):
- 能力强的 AI(如 Qwen2.5-VL)能利用更深层的信息,它的“地平线”更深。
- 能力弱的 AI(如 LLaVA-1.5)看得浅,地平线来得早。
5. 最终方案:聪明地“乱剪”
既然知道了在深层“智能筛选”没用,那该怎么办?
论文给出的方案是**“混合双打”**:
- 浅层(信息丰富时):用聪明的算法,精准地保留最重要的拼图块。
- 深层(信息地平线之后):别费劲去挑了,直接随机扔掉一半,或者干脆把剩下的视觉信息全删掉,只留文本。
效果如何?
- 这种“随机剪枝”不仅省去了计算“哪个重要”的时间(因为反正都一样),还能让 AI 跑得更快。
- 实验证明,在 Qwen2.5-VL 模型上,用这种方法剪掉 50% 的视觉 Token,性能依然保留了 96.9%,几乎没损失。
总结
这篇论文告诉我们一个反直觉的道理:在 AI 思考的后期,过度追求“精准筛选”是徒劳的,因为信息已经耗尽了。
与其费力去计算哪块拼图重要,不如在后期直接“随机丢弃”甚至“全部丢弃”。这不仅让 AI 跑得更快,还省了算力,而且答案依然准确。这就好比侦探在案件基本水落石出后,不需要再拿着放大镜去研究每一粒灰尘,直接合上卷宗就能结案了。
Each language version is independently generated for its own context, not a direct translation.
这是一篇关于视觉大语言模型(VLLMs)中**视觉 Token 剪枝(Token Pruning)**的深入研究论文。论文的核心发现是:在模型的深层网络中,现有的无训练(training-free)剪枝方法表现并不优于随机剪枝,甚至更差。作者提出了“信息视界(Information Horizon)”的概念,并证明了在深层引入随机剪枝可以显著提升效率与性能的平衡。
以下是该论文的详细技术总结:
1. 研究背景与问题 (Problem)
- 背景:视觉大语言模型(VLLMs,如 LLaVA, Qwen-VL)通过将图像编码为数百甚至数千个视觉 Token 来处理多模态任务,这导致了巨大的计算开销和推理延迟。
- 现有方案:为了加速推理,研究者提出了多种无训练的 Token 剪枝策略,主要分为两类:
- 基于重要性(Importance-based):利用注意力权重(Attention weights)丢弃低权重的 Token。
- 基于多样性(Diversity-based):计算 Token 间的相似度,移除冗余 Token。
- 核心问题:作者观察到,在 VLLM 语言解码器的深层(例如第 20 层之后),现有的先进剪枝方法(如 FastV, DivPrune, DART 等)的表现与**随机剪枝(Random Pruning)**相当,甚至更差。这引发了一个关键疑问:这些方法在深层是否还能识别出包含必要信息的视觉 Token?
2. 方法论 (Methodology)
2.1 视觉 Token 信息量化 (Visual Token Information Quantification)
为了理解 Token 在深层的作用,作者提出了一种新的信息度量指标:
- 定义:一个视觉 Token 在特定层 i 的信息量 Ii(Vk),定义为移除该 Token 前后,模型输出概率的变化。
- 计算过程:
- 在解码器的第 i 层,保留目标 Token Vk,移除其他所有视觉 Token,计算模型对真实标签 y 的预测概率 pk。
- 进一步移除 Vk,仅保留文本 Token,计算概率 ptext。
- 信息量 Ii(Vk)=pk−ptext。
- 验证:实验表明,根据此定义移除“低信息量”的 Token,确实能提升模型性能,证明该指标有效。
2.2 发现:信息视界 (Information Horizon)
通过测量各层视觉 Token 的信息量分布,作者发现了三个关键现象:
- 信息均匀化与消失:随着网络层数加深,视觉 Token 的信息量逐渐变得均匀,并在某一中间层后趋近于零。
- 信息视界(Information Horizon):作者将 Token 信息量趋近于零的层定义为“信息视界”。在此层之后,视觉 Token 变得冗余,移除它们不会影响模型性能。
- 动态性:信息视界的位置不是固定的,受两个因素影响:
- 任务视觉复杂度:OCR(光学字符识别)等需要精细视觉细节的任务,其信息视界比 VQA(视觉问答)等任务更深。
- 模型视觉能力:更强的模型(如 Qwen2.5-VL)比弱模型(如 LLaVA-1.5)能利用更深层的视觉 Token,因此其信息视界更深。
2.3 解决方案:混合随机剪枝 (Hybrid Random Pruning)
基于上述发现,作者提出了一种简单的策略:
- 浅层:使用现有的剪枝方法(如 DivPrune 或 DART)保留高信息量的 Token。
- 深层(超过信息视界):直接采用随机剪枝。因为在深层所有 Token 的信息量都极低且均匀,随机选择移除不会损失关键信息,且无需计算注意力权重,效率更高。
3. 主要贡献 (Key Contributions)
- 提出了视觉 Token 信息量化方法:通过测量移除 Token 后的输出概率变化来定义信息量,并证明移除低信息 Token 能提升性能。
- 揭示了“信息视界”现象:发现视觉 Token 信息在深层会均匀消失,导致现有剪枝方法在深层失效(表现等同于随机剪枝)。
- 阐明了影响视界位置的因素:证明了任务复杂度(如 OCR vs VQA)和模型能力决定了信息视界的具体位置。
- 提出了高效的混合剪枝策略:将随机剪枝与现有方法结合,在保持高性能的同时大幅降低计算成本。
4. 实验结果 (Results)
4.1 性能提升
- Qwen2.5-VL-7B:结合随机剪枝的 DivPrune 方法(DivPrune+Random),在保留 50% 视觉 Token 的情况下,保持了 96.9% 的原始模型性能,在 OCRBench 等基准上表现优于纯剪枝方法。
- LLaVA-1.5-7B:DivPrune+Random 在 MMBench 上的准确率比仅用 DivPrune 提高了 6.7%(从 54.6% 提升至 61.3%)。
- 对比 VTW (Visual Token Withdraw):传统的“固定层后移除所有 Token"策略(VTW)在复杂任务上表现不佳,而随机剪枝策略在保持 Token 部分存在的情况下,性能显著优于 VTW。
4.2 效率分析
- 延迟与显存:在 LLaVA-1.5-7B 上,结合随机剪枝的 DART 方法将推理延迟降低至原始模型的 0.6 倍,同时保留了 91.6% 的性能。
- FLOPs:在保留 64 个 Token 的情况下,DART+Random 的 FLOPs 从 2.44T 降至 2.36T,且准确率从 50.4% 提升至 53.4%。
- 兼容性:由于随机剪枝不需要访问注意力图,该方法可以无缝兼容 FlashAttention,进一步加速推理。
5. 意义与结论 (Significance & Conclusion)
- 理论意义:论文挑战了“剪枝必须基于复杂计算(如注意力权重)”的直觉,指出在深层网络中,由于信息视界的存在,简单的随机策略反而更优。这为理解 VLLM 内部视觉信息的传播机制提供了新视角。
- 实践价值:提供了一种简单、通用且高效的剪枝策略。无需重新训练模型,即可在多种架构(Qwen, LLaVA)和多种任务(VQA, OCR, 推理)上实现性能与效率的最佳平衡。
- 未来方向:提示未来的剪枝算法应动态感知“信息视界”,在浅层利用多样性/重要性剪枝,在深层利用随机剪枝,而非盲目地在所有层使用复杂的剪枝逻辑。
总结:这篇论文通过量化视觉 Token 的信息量,揭示了深层网络中视觉信息的“视界”现象,证明了在深层引入随机剪枝不仅不会损害性能,反而能超越复杂的现有剪枝方法,为 VLLM 的高效推理提供了新的范式。