EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 EntropyPrune（熵剪枝） 的新方法，旨在让“多模态大语言模型”（MLLM，即能看懂图、能聊天的 AI）跑得更快、更省电，同时还不掉链子。

为了让你轻松理解，我们可以把整个 AI 处理图片的过程想象成**“一位侦探在分析案发现场的照片”**。

1. 现状：侦探被“信息垃圾”淹没了

现在的 AI 侦探（比如 LLaVA 模型）在看一张照片时，会把照片切成几百甚至几千个小碎片（称为Token）。

问题：就像侦探拿到了一张照片，上面有 576 个碎片。其中大部分碎片可能只是“蓝天”、“草地”或者“模糊的背景”，对破案（回答问题）没啥用。但 AI 不得不把所有碎片都仔细分析一遍，这导致它算得慢、耗电多，就像侦探在毫无意义的细节上浪费了太多时间。
旧方法：以前的加速方法有点像“凭感觉剪”。比如，“我觉得第 3 层开始剪”或者“把相似度高的剪掉”。这就像侦探凭直觉说：“前 10 张图我不看了”，结果有时候剪错了，把关键线索（比如嫌疑人衣服的颜色）给剪掉了，导致破案失败（AI 产生幻觉或答错）。

2. 核心发现：寻找“信息崩塌点” (Entropy Collapse Layer)

作者发现了一个非常有趣的规律，就像侦探在分析线索时发现了**“信息密度”的突变**。

比喻：想象侦探刚拿到照片时，每个碎片都充满了新鲜信息（熵很高）。随着他一层层深入分析，大部分碎片的信息开始变得重复、冗余。
关键发现：作者发现，在某个特定的分析阶段（比如第 2 层），信息的丰富度会突然断崖式下跌。就像你喝第一口咖啡很香浓，喝到第二口突然变得全是水。
结论：这个“断崖点”被称为**“熵崩塌层” (ECL)**。作者认为，在这个点之后，剩下的碎片里大部分都是“水”（冗余信息），剪掉它们完全不影响破案！ 这不再是凭感觉，而是找到了一个科学的“最佳下手点”。

3. 新方法：EntropyPrune（熵剪枝）

基于这个发现，作者设计了一套智能筛选系统：

A. 什么时候剪？（When to Prune）

策略：不再随机选层，而是直接瞄准那个“信息断崖”（ECL）。
比喻：就像侦探在喝到第二口咖啡变淡时，立刻决定：“后面的水我不喝了，直接跳过，只保留最精华的几口。”

B. 剪什么？（What to Prune）

策略：在断崖点之后，给每个碎片打分。分数代表这个碎片包含多少“独特信息”（矩阵熵）。
比喻：侦探给每个碎片贴标签：
- 高熵（高分）：这是“嫌疑人手里的刀”、“地上的脚印” -> 保留！
- 低熵（低分）：这是“天空的一角”、“重复的草地纹理” -> 扔掉！
优势：以前的方法依赖“注意力图”（看 AI 盯着哪），但这种方法直接计算碎片的“信息含量”，不需要看 AI 的注意力，更纯粹、更通用。

C. 怎么算得快？（Spectral Acceleration）

痛点：计算每个碎片的“信息含量”本来很复杂，就像要解一道超级难的数学题，算起来比看照片还慢。
妙招：作者发现了一个数学上的“捷径”（利用对偶 Gram 矩阵）。
比喻：本来要数清一个巨大仓库里所有箱子的重量（复杂度 $O(d^3)$ ），作者发现只要数一下仓库门口的几把钥匙（复杂度 $O(h^3)$ ），就能推算出所有箱子的重量。
效果：计算速度理论上提升了 64 倍！这让这个方法在实际应用中完全可行。

4. 效果如何？

实验结果显示，EntropyPrune 简直是“瘦身专家”：

瘦身幅度：在 LLaVA-1.5-7B 模型上，它剪掉了 77.8% 的视觉碎片（只留 128 个）。
速度提升：计算量（FLOPs）减少了 68.2%，推理速度大幅提升。
智商不掉：最神奇的是，虽然剪掉了这么多，但 AI 的答题准确率依然保留了 96% 甚至更高！
通用性强：无论是看高清大图，还是看视频，它都能很好地工作。

总结

EntropyPrune 就像给 AI 侦探配备了一位**“超级信息筛选员”**：

它知道在哪个环节（熵崩塌层）开始，信息就变水了。
它能精准识别哪些是干货（高熵），哪些是水分（低熵）。
它用数学捷径（谱加速）瞬间完成筛选。

最终结果是：AI 看得更轻、跑得更快、更省电，但脑子依然很灵光，不会因为“少吃”而变笨。这对于让 AI 在手机、平板等小设备上流畅运行具有重大意义。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

多模态大语言模型 (MLLMs) 在处理图像时，通常会将图像编码为数百甚至数千个视觉 Token（例如 LLaVA-1.5 使用 576 个 Token，高分辨率模型可达数千个）。这导致了：

极高的推理成本：输入序列过长，计算量（FLOPs）巨大。
显存占用高：KV Cache 膨胀，限制了长序列或高分辨率图像的处理能力。

现有方法的局限性：
目前的视觉 Token 剪枝（Token Pruning）方法主要分为基于注意力（Attention-based）和基于多样性（Diversity-based）两类。然而，它们存在以下核心问题：

启发式选择剪枝层：大多数方法依赖人工经验或网格搜索来静态选择在哪一层开始剪枝，缺乏理论依据，可解释性差，且难以在不同模型间迁移。
依赖注意力图：基于注意力的方法需要访问注意力权重，这与高效的 FlashAttention 实现不兼容。
计算效率瓶颈：部分基于信息论的方法计算复杂度过高，难以在实际推理中应用。

核心问题：如何从理论上确定何时（哪一层）开始剪枝，以及如何高效地量化并剪除冗余 Token，同时保持模型性能？

2. 方法论 (Methodology)

作者提出了 EntropyPrune，一种无需训练（Training-free）、基于矩阵熵（Matrix Entropy）引导的视觉 Token 剪枝框架。

2.1 核心发现：熵坍塌层 (Entropy Collapse Layer, ECL)

理论观察：作者从信息论角度分析 MLLM 中视觉 Token 表示的信息密度。通过计算查询（Query）和键（Key）状态协方差矩阵的矩阵熵，发现了一个普遍现象：
- 在模型的前几层，视觉 Token 的矩阵熵保持较高水平。
- 在特定层（如 LLaVA-1.5 的第 2 层）之后，矩阵熵会出现急剧且一致的下降。
定义：将这种熵急剧下降的层定义为 “熵坍塌层” (ECL)。
意义：ECL 标志着视觉信息中冗余部分的快速压缩。在此层之后，许多 Token 携带的信息量显著降低。因此，ECL 提供了一个可解释的、 principled 的标准来确定最佳的剪枝起始层，无需人工调参。

2.2 剪枝策略：基于 Token 熵的评分

在确定 ECL 后，EntropyPrune 对每个视觉 Token 进行评分和剪枝：

头向重塑 (Head-wise Reshaping)：将每个 Token 的特征重塑为头（Head）维度的矩阵。
协方差矩阵计算：计算每个 Token 的迹归一化协方差矩阵（Trace-normalized covariance matrix）。
熵评分：计算该矩阵的冯·诺依曼熵（Von Neumann Entropy，即矩阵熵）。
- 高熵：表示 Token 包含丰富的信息分布，予以保留。
- 低熵：表示 Token 信息冗余，予以剪除。
- 注：此过程不依赖注意力图，因此兼容 FlashAttention。

2.3 加速策略：谱加速 (Spectral Acceleration)

直接计算矩阵熵需要对 $d_h \times d_h$ 的协方差矩阵进行特征分解，复杂度为 $O(d_h^3)$ ，在实际应用中（ $d_h$ 通常较大）计算代价过高。

解决方案：利用对偶 Gram 矩阵 (Dual Gram Matrices) 的谱等价性。
- 原始协方差矩阵 $\Sigma_i \in \mathbb{R}^{d_h \times d_h}$ 可以表示为 Gram 矩阵形式。
- 其对应的对偶矩阵 $\tilde{\Sigma}_i \in \mathbb{R}^{h \times h}$ （其中 $h$ 是注意力头数，通常 $h \ll d_h$ ）拥有相同的非零特征值。
效果：将计算复杂度从 $O(d_h^3)$ 降低到 $O(h^3)$ 。在典型设置下（如 $d_h=128, h=32$ ），实现了理论上的 64 倍加速，使得熵计算在推理中几乎可以忽略不计。

3. 主要贡献 (Key Contributions)

理论发现：首次揭示了 MLLM 中视觉 Token 表示的“熵坍塌”现象，提出了 ECL (Entropy Collapse Layer) 作为剪枝层选择的理论依据，解决了现有方法依赖启发式选择的问题。
新框架：提出了 EntropyPrune，一种基于矩阵熵的 Token 评分与剪枝框架。它不依赖注意力图，具有更好的通用性和兼容性。
高效算法：设计了基于对偶 Gram 矩阵的谱加速策略，将熵计算的复杂度降低了数个数量级，实现了理论上的 64 倍加速，确保了方法的实际可用性。
广泛验证：在图像理解（LLaVA-1.5, LLaVA-NeXT, Qwen2.5-VL）和视频理解（Video-LLaVA）等多个基准和模型架构上进行了验证，证明了其鲁棒性和可扩展性。

4. 实验结果 (Results)

实验在 LLaVA-1.5-7B、LLaVA-NeXT-7B、Qwen2.5-VL-7B 和 Video-LLaVA-7B 等多个模型上进行了广泛测试。

性能与效率的平衡 (LLaVA-1.5-7B)：
- 在保留 128 个 Token（剪枝率 77.8%）的情况下，EntropyPrune 保留了原始模型 96.0% 的性能（平均准确率）。
- 推理 FLOPs 减少了 68.2%。
- 相比其他 SOTA 方法（如 FastV, DART, CDPruner），在同等剪枝率下，EntropyPrune 的平均准确率更高，幻觉更少。
高分辨率与视频任务：
- 在 LLaVA-NeXT（高分辨率）上，仅保留 11.1% 的 Token 时，仍取得了 45.1% 的平均准确率，优于基线方法。
- 在 Video-LLaVA 上，剪枝 50% Token 后，性能甚至略优于原始模型（在 MSRVTT 基准上），证明了其能有效去除时空冗余。
效率提升：
- 在 LLaVA-1.5-7B 上，EntropyPrune 将预填充（Prefill）时间加速了 1.6 倍，延迟降低了 1.4 倍，同时显著减少了 KV Cache 显存占用。
消融实验：
- 验证了在 ECL (第 2 层) 进行剪枝是性能最佳的“甜点”位置。
- 验证了基于矩阵熵的 Token 选择策略优于基于注意力或多样性的策略。

5. 意义与影响 (Significance)

理论突破：将量子信息论中的冯·诺依曼熵引入 MLLM 的 Token 剪枝，为理解多模态表示的信息流提供了新的理论视角，使剪枝决策从“黑盒启发式”转向“白盒理论驱动”。
实际部署：通过极低的计算开销（64 倍加速的熵计算）和显著的 FLOPs 减少，使得在资源受限的边缘设备上部署高性能 MLLM 成为可能。
绿色 AI：大幅降低推理能耗和碳足迹，符合绿色 AI 的发展趋势。
通用性：该方法无需微调（Training-free），可即插即用，适用于各种架构的 MLLM（包括 Qwen、LLaVA 系列等），具有极强的推广价值。

总结：EntropyPrune 通过发现并利用视觉 Token 表示中的“熵坍塌”现象，提出了一种高效、可解释且无需训练的剪枝方案，在大幅降低计算成本的同时，极好地保持了多模态大模型的推理能力。