What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

该论文提出了名为 EmbedLens 的分析框架,揭示了多模态大语言模型中视觉输入存在显著的语义稀疏性(仅约 60% 的“存活”令牌携带核心信息)及内部计算的冗余性,并据此提出通过令牌剪枝和中间层注入来构建更高效、可解释的模型架构。

Yingqi Fan, Junlong Tong, Anhao Zhao, Xiaoyu Shen

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次对多模态大模型(MLLM)(也就是那些能“看”图又能“说话”的 AI)内部大脑的CT 扫描

研究人员发现,当我们把一张图片“喂”给 AI 时,AI 并不是平等地对待图片里的每一个像素块。相反,它把图片切成了很多小碎片(称为“视觉 Token"),而这些碎片里,大部分其实是“水货”或“陪跑”的,只有少部分是真正的“干货”

为了让你更容易理解,我们可以把 AI 处理图片的过程想象成一家繁忙的餐厅后厨

1. 视觉 Token 的“三大类”:后厨里的三种员工

当图片进入 AI 的“后厨”(语言模型)时,所有的图片碎片(Token)被分成了三类:

  • 🗑️ 死员工 (Dead Tokens) - 占 30%

    • 比喻:这些是后厨里完全没干活的实习生。他们站在角落里,既不切菜也不端盘子,甚至老板(AI 的注意力机制)都懒得看他们一眼。
    • 真相:他们只是重复出现的“背景噪音”,没有任何实际意义。
    • 发现:如果把这些人直接开除(从输入中删除),餐厅的出餐速度反而更快,菜的味道(模型性能)甚至更好,因为没人来捣乱了。
  • 🪑 沉没员工 (Sink Tokens) - 占 10%

    • 比喻:这些是专门负责“镇场子”的保安。他们不管图片里是猫还是狗,他们的表情和动作永远一模一样。他们存在的唯一作用就是维持后厨的秩序(稳定注意力分布),防止系统崩溃。
    • 真相:他们虽然占位置,但不携带任何关于图片的具体信息(比如“这是一只猫”)。
    • 发现:把他们请走,餐厅照样运转,因为老板会把注意力转移到真正的菜单(文字提示)上。
  • 💡 活员工 (Alive Tokens) - 占 60%

    • 比喻:这才是真正的厨师和传菜员。只有他们手里拿着真正的食材(图片里的物体、颜色、文字)。
    • 真相:虽然他们只占一半多一点,但他们极其高效。一个“活员工”往往同时打包了多个信息(比如一个 Token 既包含了“猫”,又包含了“黑色”,还包含了“在沙发上”)。
    • 发现:这些“活员工”在刚进后厨时,就已经把菜切好、洗好、甚至摆盘好了(信息非常密集),不需要后厨再花太多力气去处理。

2. 后厨的“过度加工”问题

研究发现,AI 的后厨里有一个奇怪的流程:

  • 浅层加工是多余的
    以前大家以为,图片进来后,需要经过后厨最前面的几道工序(浅层神经网络)慢慢加工,才能变成语言模型能懂的话。
    但论文发现:这完全是多此一举!因为“活员工”进厨房时,菜已经是半成品了。如果在最前面强行让他们再切一遍,反而可能把菜切坏了(引入噪音,比如把背景的颜色误认为是物体的颜色)。

  • 直接“空降”到中层
    最好的做法是,跳过最前面的几道工序,直接把“活员工”送到后厨的中层(中间层)。那里才是真正开始把“视觉语言”翻译成“人类语言”的地方。

    • 比喻:就像你不需要让一个已经做好的汉堡在传送带上再滚三圈,直接把它送到最后打包的窗口(中层)效率最高。

3. 一个有趣的“颜色错觉”

论文还发现了一个 AI 的“脑回路”问题:

  • 现象:如果图片里有一只红色的猫,但背景是绿色的。AI 有时候会回答“猫是绿色的”。
  • 原因:AI 太依赖周围环境的统计规律了。它看到一大片绿色,就以为那个东西也是绿色的,而不是真正去“看”猫本身。这就像一个人走进一个全是蓝墙的房间里,看到一只白猫,却觉得猫是蓝色的,因为他被环境“洗脑”了。

总结:这篇论文告诉我们什么?

  1. 去粗取精:AI 处理图片时,60% 的信息是核心,40% 是垃圾。我们可以大胆地把那 40% 的垃圾(死员工和沉没员工)扔掉,模型会跑得更快、更准。
  2. 少即是多:不需要让 AI 在浅层做太多复杂的计算,直接让核心信息进入中层处理,效果反而更好。
  3. 未来方向:未来的 AI 架构应该更聪明,学会自动筛选哪些图片碎片重要,直接跳过无用的步骤,让 AI 变得更轻、更快、更懂我们。

一句话总结
现在的 AI 看图片有点“大材小用”且“拖泥带水”,这篇论文教我们如何精简流程、剔除废话、直击核心,让 AI 看得更准、算得更快。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →