The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

该论文提出了 AutoSelect 方法,通过将视觉 Token 剪枝重构为容量受限的通信问题,利用噪声门控机制在无需辅助目标的情况下自动筛选关键 Token,从而在显著降低推理成本的同时保持了视觉语言模型的高精度。

Landi He, Xiaoyu Yang, Lijian Xu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 AutoSelect 的新方法,旨在解决当前人工智能(特别是“视觉 - 语言模型”)在处理图片时“太贪吃、太慢”的问题。

为了让你轻松理解,我们可以把整个系统想象成一家繁忙的高级餐厅,而这张论文就是给这家餐厅设计的一套智能点餐优化方案

1. 背景:餐厅为什么“堵车”了?

现在的 AI 模型(比如 LLaVA)在看图回答问题时,会把一张图片切成几百甚至几千个小方块(就像把披萨切成无数小块),每一个小方块就是一个“视觉令牌”(Token)。

  • 现状:AI 会把这成百上千个“小方块”全部端给后面的“大厨师”(语言模型 LLM)去处理。
  • 问题
    1. 大部分是废话:就像披萨上,只有几块有肉和芝士(重要信息),剩下的全是饼底(背景、天空、重复的纹理)。但厨师不得不把每一块都尝一遍,浪费了大量时间。
    2. 厨房太挤:厨师处理得越慢,顾客等待的时间就越长,餐厅(服务器)的算力成本也越高。

2. 旧方法:粗暴的“扔盘子”

以前的方法(如 Token Pruning)就像是一个粗心的服务员

  • 做法:服务员看一眼,觉得这块饼底不重要,直接扔掉,只把剩下的肉块端给厨师。
  • 缺点
    • 容易扔错:有时候服务员判断不准,把重要的肉也扔了。
    • 训练难:因为“扔”这个动作是突变的(要么全有,要么全无),就像在走钢丝,很难通过试错来慢慢改进(数学上叫“不可微”),导致很难训练出完美的服务员。

3. 新方法 (AutoSelect):聪明的“降噪过滤器”

这篇论文提出了一个更聪明的思路:不要直接扔掉盘子,而是给盘子“加噪音”或“调音量”。

这就好比餐厅引入了一个智能点餐系统,包含两个核心角色:

角色 A:打分员 (The Scorer)

  • 任务:给每一块披萨打分。
  • 创新点:它不再做“留”或“扔”的选择题,而是给每一块披萨分配一个**“信息带宽”**。
    • 高分(重要):比如那块带肉的,给它满格信号,原汁原味端上去。
    • 低分(不重要):比如那块纯饼底,给它加满噪音(就像在信号里混入杂音),让它变得模糊不清。

角色 B:降噪员 (The Denoiser)

  • 任务:在训练阶段,因为低分块被加了噪音,变得很难懂。这时候,降噪员会把这些被“污染”的信号重新整理,试图还原成厨师能看懂的样子。
  • 关键点:降噪员非常守规矩,它只处理自己面前的那一块,绝不偷看旁边高分的披萨(这叫“对角线注意力”)。这防止了低分块通过“偷看”高分块来作弊,强迫系统必须学会真正识别哪些是重要的。

4. 训练过程:在“噪音”中进化

  • 训练时:所有的披萨(Token)都还在,但低分的被加了噪音。系统通过“猜下一个词”(预测答案)来学习。如果系统猜错了,它就会知道:“哎呀,刚才那块被加噪音的饼底其实很重要,下次得给它少加点噪音(提高分数)!”
  • 结果:经过训练,打分员变得火眼金睛,知道哪些是肉,哪些是饼底。

5. 实际使用:极速“硬筛选”

当餐厅真正开始接待顾客(推理/使用阶段)时:

  • 降噪员和加噪音的环节直接关闭(因为它们只在训练时用来“教学”)。
  • 打分员直接选出分数最高的前 K 块(比如只留 64 块最重要的)。
  • 结果:厨师只处理这 64 块,速度飞快,而且因为选的都是精华,味道(准确率)几乎没有损失。

6. 核心比喻总结

概念 传统方法 (粗暴) AutoSelect (聪明)
处理图片 把不重要的直接扔掉 给不重要的加杂音,让信号变弱
训练难度 像走钢丝,很难微调 像调音量旋钮,可以平滑调整,容易学习
最终效果 可能扔错东西,或者为了速度牺牲质量 智能过滤器,只保留最清晰的信号,速度极快
额外开销 计算扔掉的逻辑可能很慢 筛选过程极快(仅 0.69 毫秒),几乎感觉不到

7. 论文的成果

  • 速度快:在 LLaVA-1.5 模型上,把处理速度提升了 2.85 倍
  • 准度高:即使把图片信息压缩了 88.9%(只留 11% 的令牌),准确率依然保留了 96.5%
  • 通用性强:这套方法不需要针对不同的模型重新设计,像“万能插头”一样,换到 LLaVA-Next 或 Qwen2.5-VL 等新模型上也能直接用。

一句话总结
AutoSelect 不再粗暴地“扔掉”图片中不重要的部分,而是通过一种巧妙的“加噪音”训练法,教会 AI 自动识别并只保留最精华的信息,从而在不牺牲智能的前提下,让 AI 看图的速度快了好几倍