EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

本文提出了 EvoPrune,一种在视觉编码阶段直接执行剪枝的早期视觉令牌剪枝方法,通过基于相似性、多样性和注意力重要性的分层策略,在显著降低多模态大模型推理延迟的同时保持了极低的性能损失。

Yuhao Chen, Bin Shan, Xin Ye, Cheng Chen

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 EvoPrune 的新方法,旨在让多模态大语言模型(MLLMs,即能看懂图、视频并回答问题的 AI)变得更聪明、更快速。

为了让你轻松理解,我们可以把整个 AI 处理图像和视频的过程想象成**“一位大厨(AI)在准备一场盛大的宴席(回答问题)”**。

1. 现在的困境:食材太多,厨房太乱

想象一下,当 AI 要处理一张高清图片或一段长视频时,它就像收到了一个巨大的、装满各种食材的仓库

  • 视觉 Token(Visual Tokens):就是这些切好的“食材块”。图片分辨率越高、视频越长,食材块的数量就呈爆炸式增长(比如从 100 块变成 10,000 块)。
  • 视觉编码器(Visual Encoder):是切菜和初步处理食材的环节
  • 大语言模型(LLM):是大厨炒菜和上菜(生成回答)的环节

问题出在哪?
以前的方法(现有的剪枝技术)就像是在切菜和初步处理完之后,才让助手去挑拣哪些食材不重要并扔掉。

  • 后果:虽然最后扔掉了不少,但切菜和初步处理(视觉编码)那一步已经把所有食材都切了一遍,浪费了巨大的时间和体力。这就好比你为了做一道简单的菜,先把整个仓库的土豆都削了皮,最后发现其实只用了一个,前面的功夫全白费了。
  • 随着图片变清晰、视频变长,这个“切菜”的时间甚至超过了“炒菜”的时间,成了最大的瓶颈。

2. EvoPrune 的妙招:在进货时就“挑拣”

EvoPrune 的核心思想是:不要等切完菜再挑,要在食材刚进厨房、甚至还在传送带上时,就立刻把不重要的扔掉。

这就好比在食材刚运到厨房门口时,就有一个智能分拣员,根据三个标准迅速决定哪些食材可以“合并”或“丢弃”:

  1. 相似度(Similarity)
    • 比喻:如果传送带上有 10 块长得一模一样的土豆,没必要全留着。分拣员会把它们合并成一块代表性的土豆,既省空间又不影响味道。
  2. 多样性(Diversity)
    • 比喻:如果全是土豆,没有胡萝卜和牛肉,菜就不好吃。分拣员会确保留下的食材种类丰富,避免把独特的、有特色的食材(比如那块唯一的西兰花)误当成重复的土豆扔了。
  3. 注意力(Attention)
    • 比喻:有些食材是这道菜的“灵魂”(比如主菜里的牛排)。分拣员会识别出这些关键食材,给它们贴上“绝对保留”的标签,无论怎么挑都不能动它们。

3. 为什么这个方法很厉害?

  • 早下手,早轻松:EvoPrune 是在“切菜”(视觉编码)的过程中就开始挑拣。这意味着,后续需要处理的食材数量大大减少了,切菜的速度(编码速度)和炒菜的速度(推理速度)都变快了
  • 不伤味道:通过精心设计的“合并”和“保留”策略,它扔掉的只是重复的、没用的“边角料”,保留了最核心的营养(关键信息)。
  • 效果惊人
    • 在视频理解任务上,EvoPrune 能让 AI 的反应速度提升 2 倍(就像上菜快了一倍)。
    • 同时,回答的准确率几乎没下降(损失不到 1%),就像虽然食材少了,但做出来的菜味道依然鲜美。

4. 总结

简单来说,以前的 AI 处理视频是**“先全盘接收,再慢慢筛选”,导致效率低下;而 EvoPrune“边接收边筛选,去粗取精”**。

它就像是一个超级高效的厨房管家,在食材进入核心处理区之前,就帮你把重复的、不重要的部分清理掉,只把最精华的部分交给大厨。这让 AI 在处理高清图片和长视频时,不再“手忙脚乱”,变得既,非常适合需要实时反应的场景(比如实时监控、自动驾驶等)。