Variation-aware Vision Token Dropping for Faster Large Vision-Language Models

该论文提出了变异性感知视觉令牌丢弃(V²Drop)方法,通过动态移除大视觉语言模型推理过程中变异最小的视觉令牌,在显著降低图像和视频任务推理延迟的同时,有效保持了原有的模型性能。

Junjie Chen, Xuyang Liu, Zichen Wen, Yiyu Wang, Siteng Huang, Honggang Chen

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 V2Drop 的新方法,旨在让大型“视觉 - 语言模型”(LVLM,比如能看图说话、看视频聊天的 AI)跑得更快、更省资源,同时还不怎么降低它的聪明程度。

为了让你更容易理解,我们可以把整个 AI 处理图片的过程想象成**“一位超级大厨在准备一道复杂的菜肴”**。

1. 背景:大厨的烦恼(为什么需要加速?)

现在的 AI 模型(大厨)非常聪明,但有个大问题:它太“贪吃”了

  • 高分辨率图片/长视频:就像给大厨端上来一整头牛(高分辨率图片)或者一整年的食材清单(长视频)。
  • Token(令牌):AI 把图片切成很多小块,每一块就是一个“令牌”(Token)。图片越清晰,切出来的块就越多。
  • 后果:大厨要处理成千上万个“肉块”,计算量巨大,导致上菜(生成回答)速度极慢,甚至把厨房(显存)都塞爆了。

2. 旧方法的缺陷:只看“座位号”

以前,为了加快上菜速度,人们尝试**“扔掉一些肉块”**(Token 压缩)。

  • 旧方法(基于注意力机制):就像一位死板的领位员。他不管肉块好不好吃,只根据**“座位号”**来决定扔掉谁。
    • 他有个怪癖:“越靠后的座位越重要”。不管前面的肉块是不是顶级的和牛,只要它在后面,他就留着;不管前面的肉块是不是关键的香料,只要它在前面,他就扔掉。
    • 结果:大厨扔掉了很多真正重要的“香料”(关键信息),却留着很多没用的“边角料”(无关信息)。这导致 AI 开始**“胡说八道”**(幻觉),比如把图片里的狗看成猫,或者漏掉关键细节。而且,这种检查座位号的过程本身就很慢,没法用最新的“极速厨房设备”(FlashAttention)。

3. V2Drop 的新思路:看“变化量”

这篇论文的作者发现了一个有趣的规律:真正重要的肉块,在厨师处理过程中会“动”得很厉害;而不重要的肉块,就像死鱼一样,怎么折腾都没反应。

  • 核心洞察

    • 重要 Token(关键信息):在 AI 的深层网络中,它们的数值会发生剧烈的变化(比如从“生肉”变成了“熟肉”,或者从“红色”变成了“棕色”)。因为它们被反复加工、提炼了信息。
    • 不重要 Token(冗余信息):它们在每一层网络中几乎纹丝不动(变化很小)。它们就是那些“懒惰”的 Token,留着它们纯属浪费。
  • V2Drop 的做法

    • 不再看“座位号”,而是给每个肉块测一下**“活跃度”**(变化量)。
    • 扔掉那些“懒惰”的:如果某个肉块在加工过程中几乎没变,说明它没啥用,直接扔掉!
    • 保留那些“活跃”的:如果某个肉块变化剧烈,说明它在被深度加工,必须留着。

4. 为什么 V2Drop 更牛?(三大优势)

  1. 公平且精准(没有位置偏见)
    • 不管肉块在图片的左上角还是右下角,只要它“动”得厉害,就留着。这解决了旧方法“只留后面、扔掉前面”的毛病,让 AI 看得更准。
  2. 极速且省电(兼容高效工具)
    • 计算“变化量”(比如算两个数字的差)非常简单,就像拿尺子量一下长度。
    • 而旧方法需要计算复杂的“注意力分数”,就像要算出每块肉和所有其他肉的关系,既慢又费电。
    • V2Drop 可以直接使用最新的“极速厨房设备”(FlashAttention),让上菜速度飞起。
  3. 循序渐进(渐进式丢弃)
    • 它不是一次性把肉全扔了,而是像剥洋葱一样,一层一层地剥。
    • 在浅层网络剥掉一点,在深层网络再剥掉一点。这样能确保在剥的过程中,不会误伤到那些还没完全“成熟”的重要信息。

5. 实际效果:快如闪电,聪明依旧

论文做了大量实验,结果非常惊人:

  • 图片理解:速度提升了 1.3 倍,但准确率只下降了不到 6%(保留了 94% 的聪明度)。
  • 视频理解:速度提升了 1.87 倍,准确率保留了 98.6%
  • 内存占用:不仅没增加,反而因为扔掉了很多数据,让厨房(显存)更宽敞了。

总结

简单来说,V2Drop 就像是一位经验丰富的老练厨师
他不再死板地按“座位号”挑拣食材,而是通过观察食材在烹饪过程中的**“变化”来判断其价值。他把那些“死气沉沉、毫无变化”的废料扔掉,只保留那些“正在发生质变、充满信息”**的精华。

这样做,既让 AI 跑得飞快(省去了处理废料的麻烦),又让它看得更准(没扔掉关键信息),是未来让大型 AI 模型真正落地应用的一把“快刀”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →