ApET: Approximation-Error Guided Token Compression for Efficient VLMs

本文提出了 ApET 框架,通过从信息论视角出发、利用线性近似误差而非注意力机制来识别并压缩冗余视觉令牌,在大幅降低计算开销的同时实现了与 FlashAttention 的无缝集成,并显著提升了视觉语言模型在图像和视频理解任务上的效率与性能。

Qiankun Ma, Ziyao Zhang, Haofei Wang, Jie Chen, Zhen Song, Hairong Zheng

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ApET 的新方法,旨在让“视觉 - 语言模型”(VLM,即能看懂图并回答问题的 AI)变得更聪明、更快速、更省钱。

为了让你轻松理解,我们可以把 AI 处理图片的过程想象成一位正在准备做报告的“超级翻译官”

1. 现在的困境:信息过载的“翻译官”

想象一下,你给这位翻译官看一张高清大图(比如一张有 1000 个细节的复杂街景)。

  • 传统做法:AI 会把这张图切成几千个小碎片(Token),每一个碎片都变成一行文字输入给大脑。这就像翻译官面前堆了几千张写满字的纸条
  • 问题
    1. 太慢了:大脑要处理几千张纸条,读起来非常累,反应很慢。
    2. 有偏见:以前的 AI 为了决定哪些纸条重要,会看“注意力机制”(Attention)。这就像翻译官有个坏习惯:只关注最后递上来的纸条,或者只关注那些“看起来像是在盯着你”的纸条,而忽略了真正重要的细节(比如图片中间的一只猫,如果它没在最后出现,就被忽略了)。
    3. 不兼容:现在的电脑硬件(FlashAttention)为了加速,像是一个“高速流水线”,它不给你看具体的“注意力分数”,所以以前的那些“挑纸条”的方法根本没法用,导致加速效果大打折扣。

2. ApET 的解决方案:用“还原度”来挑重点

ApET 的作者换了一种思路,不再依赖那个有偏见的“注意力”,而是从信息论的角度出发,提出了一个更聪明的策略:“如果你能轻松猜出这张纸条的内容,那它就不重要;如果你猜不到,那它一定很重要。”

核心比喻:拼图与“猜谜游戏”

ApET 的工作流程就像是一个拼图还原游戏

  1. 选几个“样板” (Basis Tokens)
    ApET 先从几千张纸条里,随机挑出几十个最有代表性的“样板纸条”(比如挑出天空、草地、主要建筑的样本)。

  2. 尝试“还原” (Linear Approximation)
    然后,它尝试用这几个“样板”去拼凑剩下的每一张纸条。

    • 如果有一张纸条是“蓝色的天空”,而“样板”里已经有“天空”了,那么用样板就能完美还原它。
    • 如果有一张纸条是“一只罕见的紫色鹦鹉”,而“样板”里只有鸟和树,用样板怎么拼都拼不像,还原出来的样子和原图差距很大。
  3. 计算“误差” (Approximation Error)

    • 误差小 = 这张纸条的内容很普通,容易被替代,不重要(可以扔掉)。
    • 误差大 = 这张纸条的内容很独特,样板拼不出来,非常重要(必须保留)。
  4. 扔掉不重要的
    ApET 直接把那些“误差小”的纸条扔掉,只保留那些“误差大”的、独特的纸条。

3. 为什么 ApET 这么厉害?

  • 没有偏见 (No Bias)
    以前的方法喜欢“看位置”(越靠后的越重要),而 ApET 只看“内容本身”。不管这张纸条在图片的哪个角落,只要它独特、无法被替代,就会被保留。就像你不管鹦鹉站在树的左边还是右边,只要它是紫色的,你就一定会注意到它。

  • 完美兼容“高速公路” (FlashAttention)
    因为 ApET 不需要去查那些复杂的“注意力分数”,它只算简单的数学还原误差。这让它能无缝接入现在最快的硬件加速技术(FlashAttention)。

    • 比喻:以前的方法像是在高速公路上还要停下来查地图(查注意力),导致堵车;ApET 则是直接顺着车流跑,速度飞快。
  • 效果惊人

    • 图片理解:即使把 100% 的纸条扔掉 88%(只留 12%),AI 的答题准确率依然保持在 95% 以上,甚至和没压缩时一样好。
    • 视频理解:效果更明显!因为视频里有很多重复的、没用的帧(比如背景不动的几秒)。ApET 把这些“废话”全删了,结果 AI 反而答得更准了(准确率甚至超过了 100%,因为去掉了干扰项)。

4. 总结

这篇论文的核心思想就是:不要盲目地看谁“受关注”,要看谁“不可替代”。

ApET 就像一位精明的图书管理员

  • 以前的管理员:只把最后拿出来的书放在显眼位置,不管书里写什么。
  • ApET 管理员:拿出一本“百科全书”(样板),看看哪本书的内容是百科全书里没有的。如果是独一无二的,就把它留下来;如果是随处可见的,就把它归档到仓库里(压缩掉)。

结果:AI 变得更轻、更快、更聪明,而且能完美利用现有的最强硬件,让未来的 AI 应用(如手机上的实时视频分析)变得真正可行。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →