Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

本文提出了 E-AdaPrune,一种基于视觉特征奇异值谱能量驱动的自适应视觉 Token 剪枝框架,它无需额外参数即可根据图像信息密度动态分配 Token 预算,在保持极低延迟的同时显著提升了多模态大模型的性能。

Jialuo He, Huangxun Chen

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 E-AdaPrune 的新方法,旨在让“看图说话”的人工智能(视觉语言模型)变得更聪明、更快速。

为了让你轻松理解,我们可以把 AI 看成一个正在读图的学生,把图片里的细节看作成百上千个“信息碎片”(也就是论文里说的"Token")。

1. 现在的痛点:一刀切的“笨办法”

以前的 AI 在处理图片时,不管图片是一张只有几个苹果的简单图,还是一张密密麻麻全是字的复杂海报,它都采用**“一刀切”**的策略:

  • 固定预算:它规定自己只能看前 100 个碎片,或者只保留前 50% 的碎片。
  • 后果
    • 面对简单图(比如几个苹果):它保留了太多没用的碎片,浪费了大量脑细胞(计算资源),就像为了看几个苹果,却把整个超市的货架都搬进脑子里。
    • 面对复杂图(比如满是文字的菜单):它只看了前 100 个碎片,结果把后面关键的“价格”或“品牌名”给剪掉了,导致它答非所问,就像为了省事,只读了菜单的前半截,结果点错了菜。

2. 核心创新:像“能量计”一样智能分配

这篇论文提出的 E-AdaPrune,就像给这个学生装了一个**“智能能量计”**。

  • 原理(光谱能量)
    想象一下,图片里的信息就像不同频率的声波

    • 简单图片:大部分能量集中在几个主音上(比如几个苹果的形状),背景很安静。
    • 复杂图片:能量分散在很多个音上(密密麻麻的文字、复杂的纹理),需要更多声音才能听清全貌。

    这个方法不数“有多少个碎片”,而是计算**“保留了图片多少‘能量’"**。

    • 如果图片很简单,能量集中在前几个碎片,系统就果断剪掉后面没用的,只留很少的碎片。
    • 如果图片很复杂,能量分散,系统就自动保留更多碎片,直到攒够了 99% 的“信息能量”为止。
  • 比喻
    这就好比打包行李

    • 海边度假(简单图):你只需要带泳衣和墨镜,箱子很轻,系统自动帮你把多余的厚衣服扔掉。
    • 极地探险(复杂图):你需要带羽绒服、帐篷、指南针,系统发现能量不够,就自动把箱子撑大,确保带上所有保命的装备。
    • 关键点:它不需要重新训练学生(不需要额外学习参数),是一个即插即用的插件。

3. 怎么做到这么快?(随机魔法)

你可能会问:“计算能量会不会很慢?毕竟要分析几百个碎片。”
论文用了一个**“随机魔法”(随机奇异值分解,rSVD)**。

  • 传统做法:像把整个图书馆的书一本本翻一遍,太慢了。
  • E-AdaPrune 的做法:像随机抽查几本书的目录和摘要,就能大概猜出图书馆里哪类书最多、最重要。
  • 效果:这个“抽查”过程只需要 8 毫秒(比眨眼还快),几乎不耽误时间,但能精准判断这张图是“简单”还是“复杂”。

4. 实际效果:既快又准

研究人员在 9 个不同的测试任务上(比如看图回答问题、推理、找细节)做了实验:

  • 更聪明:在需要精细推理的任务(比如看懂复杂的图表)上,准确率提升了 5.1%。因为它在关键时刻保留了足够的细节。
  • 不浪费:在简单任务上,它自动减少计算量,省下了资源。
  • 通用性强:不管是大模型(LLaVA-1.5-7B)还是更大的模型,这个方法都管用。

总结

E-AdaPrune 就像给 AI 配了一个**“智能管家”
以前的 AI 是
“死板执行”:不管什么图,都剪掉一半。
现在的 AI 是
“量体裁衣”**:图简单就少看,图复杂就多看。
它不需要重新学习,加上去就能用,而且速度快到几乎感觉不到它的存在,却能让 AI 看得更准、想得更深。