EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

本文提出了 EntropyPrune,一种基于矩阵熵视角的视觉 Token 剪枝框架,通过识别信息量骤降的“熵坍缩层”来 principled 地确定剪枝时机,并利用对偶 Gram 矩阵的谱等价性实现高效计算,从而在显著降低多模态大模型推理成本的同时保持其高性能。

Yahong Wang, Juncheng Wu, Zhangkai Ni, Chengmei Yang, Yihang Liu, Longzhen Yang, Yuyin Zhou, Ying Wen, Lianghua He

发布于 2026-02-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 EntropyPrune(熵剪枝) 的新方法,旨在让“多模态大语言模型”(MLLM,即能看懂图、能聊天的 AI)跑得更快、更省电,同时还不掉链子。

为了让你轻松理解,我们可以把整个 AI 处理图片的过程想象成**“一位侦探在分析案发现场的照片”**。

1. 现状:侦探被“信息垃圾”淹没了

现在的 AI 侦探(比如 LLaVA 模型)在看一张照片时,会把照片切成几百甚至几千个小碎片(称为Token)。

  • 问题:就像侦探拿到了一张照片,上面有 576 个碎片。其中大部分碎片可能只是“蓝天”、“草地”或者“模糊的背景”,对破案(回答问题)没啥用。但 AI 不得不把所有碎片都仔细分析一遍,这导致它算得慢、耗电多,就像侦探在毫无意义的细节上浪费了太多时间。
  • 旧方法:以前的加速方法有点像“凭感觉剪”。比如,“我觉得第 3 层开始剪”或者“把相似度高的剪掉”。这就像侦探凭直觉说:“前 10 张图我不看了”,结果有时候剪错了,把关键线索(比如嫌疑人衣服的颜色)给剪掉了,导致破案失败(AI 产生幻觉或答错)。

2. 核心发现:寻找“信息崩塌点” (Entropy Collapse Layer)

作者发现了一个非常有趣的规律,就像侦探在分析线索时发现了**“信息密度”的突变**。

  • 比喻:想象侦探刚拿到照片时,每个碎片都充满了新鲜信息(熵很高)。随着他一层层深入分析,大部分碎片的信息开始变得重复、冗余。
  • 关键发现:作者发现,在某个特定的分析阶段(比如第 2 层),信息的丰富度会突然断崖式下跌。就像你喝第一口咖啡很香浓,喝到第二口突然变得全是水。
  • 结论:这个“断崖点”被称为**“熵崩塌层” (ECL)**。作者认为,在这个点之后,剩下的碎片里大部分都是“水”(冗余信息),剪掉它们完全不影响破案! 这不再是凭感觉,而是找到了一个科学的“最佳下手点”。

3. 新方法:EntropyPrune(熵剪枝)

基于这个发现,作者设计了一套智能筛选系统:

A. 什么时候剪?(When to Prune)

  • 策略:不再随机选层,而是直接瞄准那个“信息断崖”(ECL)。
  • 比喻:就像侦探在喝到第二口咖啡变淡时,立刻决定:“后面的水我不喝了,直接跳过,只保留最精华的几口。”

B. 剪什么?(What to Prune)

  • 策略:在断崖点之后,给每个碎片打分。分数代表这个碎片包含多少“独特信息”(矩阵熵)。
  • 比喻:侦探给每个碎片贴标签:
    • 高熵(高分):这是“嫌疑人手里的刀”、“地上的脚印” -> 保留!
    • 低熵(低分):这是“天空的一角”、“重复的草地纹理” -> 扔掉!
  • 优势:以前的方法依赖“注意力图”(看 AI 盯着哪),但这种方法直接计算碎片的“信息含量”,不需要看 AI 的注意力,更纯粹、更通用。

C. 怎么算得快?(Spectral Acceleration)

  • 痛点:计算每个碎片的“信息含量”本来很复杂,就像要解一道超级难的数学题,算起来比看照片还慢。
  • 妙招:作者发现了一个数学上的“捷径”(利用对偶 Gram 矩阵)。
  • 比喻:本来要数清一个巨大仓库里所有箱子的重量(复杂度 O(d3)O(d^3)),作者发现只要数一下仓库门口的几把钥匙(复杂度 O(h3)O(h^3)),就能推算出所有箱子的重量。
  • 效果:计算速度理论上提升了 64 倍!这让这个方法在实际应用中完全可行。

4. 效果如何?

实验结果显示,EntropyPrune 简直是“瘦身专家”:

  • 瘦身幅度:在 LLaVA-1.5-7B 模型上,它剪掉了 77.8% 的视觉碎片(只留 128 个)。
  • 速度提升:计算量(FLOPs)减少了 68.2%,推理速度大幅提升。
  • 智商不掉:最神奇的是,虽然剪掉了这么多,但 AI 的答题准确率依然保留了 96% 甚至更高!
  • 通用性强:无论是看高清大图,还是看视频,它都能很好地工作。

总结

EntropyPrune 就像给 AI 侦探配备了一位**“超级信息筛选员”**:

  1. 它知道在哪个环节(熵崩塌层)开始,信息就变水了。
  2. 它能精准识别哪些是干货(高熵),哪些是水分(低熵)。
  3. 它用数学捷径(谱加速)瞬间完成筛选。

最终结果是:AI 看得更轻、跑得更快、更省电,但脑子依然很灵光,不会因为“少吃”而变笨。这对于让 AI 在手机、平板等小设备上流畅运行具有重大意义。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →