EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 EvoPrune 的新方法，旨在让多模态大语言模型（MLLMs，即能看懂图、视频并回答问题的 AI）变得更聪明、更快速。

为了让你轻松理解，我们可以把整个 AI 处理图像和视频的过程想象成**“一位大厨（AI）在准备一场盛大的宴席（回答问题）”**。

1. 现在的困境：食材太多，厨房太乱

想象一下，当 AI 要处理一张高清图片或一段长视频时，它就像收到了一个巨大的、装满各种食材的仓库。

视觉 Token（Visual Tokens）：就是这些切好的“食材块”。图片分辨率越高、视频越长，食材块的数量就呈爆炸式增长（比如从 100 块变成 10,000 块）。
视觉编码器（Visual Encoder）：是切菜和初步处理食材的环节。
大语言模型（LLM）：是大厨炒菜和上菜（生成回答）的环节。

问题出在哪？
以前的方法（现有的剪枝技术）就像是在切菜和初步处理完之后，才让助手去挑拣哪些食材不重要并扔掉。

后果：虽然最后扔掉了不少，但切菜和初步处理（视觉编码）那一步已经把所有食材都切了一遍，浪费了巨大的时间和体力。这就好比你为了做一道简单的菜，先把整个仓库的土豆都削了皮，最后发现其实只用了一个，前面的功夫全白费了。
随着图片变清晰、视频变长，这个“切菜”的时间甚至超过了“炒菜”的时间，成了最大的瓶颈。

2. EvoPrune 的妙招：在进货时就“挑拣”

EvoPrune 的核心思想是：不要等切完菜再挑，要在食材刚进厨房、甚至还在传送带上时，就立刻把不重要的扔掉。

这就好比在食材刚运到厨房门口时，就有一个智能分拣员，根据三个标准迅速决定哪些食材可以“合并”或“丢弃”：

相似度（Similarity）：
- 比喻：如果传送带上有 10 块长得一模一样的土豆，没必要全留着。分拣员会把它们合并成一块代表性的土豆，既省空间又不影响味道。
多样性（Diversity）：
- 比喻：如果全是土豆，没有胡萝卜和牛肉，菜就不好吃。分拣员会确保留下的食材种类丰富，避免把独特的、有特色的食材（比如那块唯一的西兰花）误当成重复的土豆扔了。
注意力（Attention）：
- 比喻：有些食材是这道菜的“灵魂”（比如主菜里的牛排）。分拣员会识别出这些关键食材，给它们贴上“绝对保留”的标签，无论怎么挑都不能动它们。

3. 为什么这个方法很厉害？

早下手，早轻松：EvoPrune 是在“切菜”（视觉编码）的过程中就开始挑拣。这意味着，后续需要处理的食材数量大大减少了，切菜的速度（编码速度）和炒菜的速度（推理速度）都变快了。
不伤味道：通过精心设计的“合并”和“保留”策略，它扔掉的只是重复的、没用的“边角料”，保留了最核心的营养（关键信息）。
效果惊人：
- 在视频理解任务上，EvoPrune 能让 AI 的反应速度提升 2 倍（就像上菜快了一倍）。
- 同时，回答的准确率几乎没下降（损失不到 1%），就像虽然食材少了，但做出来的菜味道依然鲜美。

4. 总结

简单来说，以前的 AI 处理视频是**“先全盘接收，再慢慢筛选”，导致效率低下；而 EvoPrune 是“边接收边筛选，去粗取精”**。

它就像是一个超级高效的厨房管家，在食材进入核心处理区之前，就帮你把重复的、不重要的部分清理掉，只把最精华的部分交给大厨。这让 AI 在处理高清图片和长视频时，不再“手忙脚乱”，变得既快又准，非常适合需要实时反应的场景（比如实时监控、自动驾驶等）。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文 EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs 的详细技术总结。

1. 研究背景与问题 (Problem)

多模态大语言模型 (MLLMs) 在视觉 - 语言任务中表现优异，但在处理高分辨率图像和长视频时面临严重的推理效率瓶颈。

视觉 Token 爆炸：随着输入分辨率或视频帧数的增加，视觉 Token 数量呈指数级增长。
现有方法的局限性：
- 现有的视觉 Token 剪枝方法大多在视觉编码（Visual Encoding）完成后才进行剪枝。
- 如图 1 所示，随着输入规模从单帧增加到多帧（如 8 帧、64 帧），视觉编码器的计算成本急剧上升，甚至接近 LLM 主干网络的计算成本。
- 由于现有方法无法减少视觉编码器内部的计算量，仅减少了后续 LLM 的负载，导致在大规模输入下，加速比显著下降（例如，64 帧输入时，剩余推理时间仍占原始运行时间的 74%），存在可扩展性瓶颈。

2. 核心方法论 (Methodology)

为了解决上述问题，作者提出了 EvoPrune，一种**早期阶段（Early-Stage）**的视觉 Token 剪枝框架。其核心思想是在视觉编码过程中直接进行剪枝，而非编码完成后。

2.1 整体架构

EvoPrune 将剪枝操作直接集成到视觉编码器（Visual Encoder）的中间层中。通过在选择层上逐步合并冗余或低重要性的 Token，在昂贵的特征计算完成之前就减少 Token 数量，从而同时降低视觉编码器和下游 LLM 的计算开销。

2.2 分层剪枝预算分配 (Layer-wise Pruning Budget Allocation)

采用分层剪枝策略，将全局剪枝目标 $R$ 分配到选定的 $L$ 个编码器层中。
通过算法动态决定每一层合并多少个 Token。
实验表明，Skip 策略（每隔一层进行合并）在保持精度的同时提供了最佳的效率 - 精度权衡，避免了在单一阶段积累过大的剪枝误差。

2.3 基于分数的 Token 合并 (Score-Guided Token Merging)

EvoPrune 设计了一个复合分数矩阵来指导 Token 对的合并，该分数由三个互补的准则组成：

语义相似性 (Semantic Similarity)：
- 基于 Token 特征嵌入的余弦相似度。
- 鼓励合并视觉上或语义上冗余的 Token。
信息多样性 (Information Diversity)：
- 通过估计 Token 的局部密度（Local Density）来衡量独特性。
- 作为惩罚项，防止合并携带不同内容的 Token，以保持表征的丰富性。
基于注意力的重要性 (Attention-Based Importance)：
- 利用编码器学习到的注意力权重计算 Token 的重要性得分。
- 关键机制：定义“关键 Token 比率 (CTR)"，保护得分最高的 Token 不被合并（权重设为 $-\infty$ ），确保关键视觉和上下文信息在剪枝过程中完整保留。

合并流程：
将 Token 集合分为两组，计算跨组 Token 对的复合分数，选择分数最高的 Top- $r$ 对进行合并，并迭代至下一层。

3. 主要贡献 (Key Contributions)

提出早期剪枝范式：首次将剪枝操作前移至视觉编码阶段，解决了现有工作长期忽视的编码阶段计算开销问题。
多因素引导的分层剪枝：创新性地结合了相似性、多样性和注意力重要性三个维度来指导 Token 选择，在最大化信息保留的同时实现高效压缩。
广泛的实验验证：在图像和视频理解任务上进行了全面评估，证明了 EvoPrune 在推理效率上优于现有最先进方法，同时保持了具有竞争力的任务性能。

4. 实验结果 (Results)

实验在 LLaVA-1.5-7B（图像）和 LLaVA-Video-7B（视频）架构上进行，使用了 VQAv2, MME, MMBench, VideoMME 等多个基准测试。

4.1 图像理解任务

在保留 128 个 Token（减少 77.8%）的情况下，EvoPrune 在平均准确率上达到 74.9，相对性能保持 97.9%。
相比最强的竞争对手 CDPruner，准确率提高了 1.0 个百分点，且整体延迟降低了 7.7%。
即使在更激进的压缩（保留 32 个 Token）下，EvoPrune 依然保持了最快的推理速度。

4.2 视频理解任务 (VideoMME 等)

显著加速：在 VideoMME 数据集上，EvoPrune 实现了 2 倍 的推理加速（TTFT 降低 50%），而性能下降不到 1%。
端到端优化：与现有方法仅加速 LLM 部分不同，EvoPrune 将视觉编码器阶段的加速比提升至 1.8 倍，中间模块加速 5 倍，LLM 部分加速 2 倍。
鲁棒性：在极端剪枝（保留 16 个 Token，减少 90.5%）下，仍能保持 95.8% 的相对准确率，而基线方法在此设置下性能大幅下降。

4.3 消融实验

移除“注意力保护”或“多样性惩罚”均会导致性能下降，其中移除注意力保护影响更大，证明了在长视频理解中保留关键时空语义的重要性。

5. 意义与影响 (Significance)

突破效率瓶颈：EvoPrune 证明了在视觉编码早期进行剪枝是可行的且高效的，解决了 MLLM 在处理高分辨率图像和长视频时的可扩展性问题。
即插即用 (Plug-and-Play)：该方法无需重新训练模型，可直接集成到现有的 MLLM 架构中。
实际应用价值：显著降低了延迟和计算成本，使得 MLLM 能够部署在对延迟敏感的场景（如实时视频分析、边缘计算）中。
未来方向：为后续研究提供了新的思路，即通过结合时空感知策略进一步优化长序列视频的处理效率。

总结：EvoPrune 通过改变剪枝发生的时机（从编码后移至编码中）并引入多维度的 Token 评估机制，成功打破了 MLLM 在大规模视觉输入下的效率瓶颈，实现了速度与精度的最佳平衡。