What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次对多模态大模型（MLLM）（也就是那些能“看”图又能“说话”的 AI）内部大脑的CT 扫描。

研究人员发现，当我们把一张图片“喂”给 AI 时，AI 并不是平等地对待图片里的每一个像素块。相反，它把图片切成了很多小碎片（称为“视觉 Token"），而这些碎片里，大部分其实是“水货”或“陪跑”的，只有少部分是真正的“干货”。

为了让你更容易理解，我们可以把 AI 处理图片的过程想象成一家繁忙的餐厅后厨：

1. 视觉 Token 的“三大类”：后厨里的三种员工

当图片进入 AI 的“后厨”（语言模型）时，所有的图片碎片（Token）被分成了三类：

🗑️ 死员工 (Dead Tokens) - 占 30%
- 比喻：这些是后厨里完全没干活的实习生。他们站在角落里，既不切菜也不端盘子，甚至老板（AI 的注意力机制）都懒得看他们一眼。
- 真相：他们只是重复出现的“背景噪音”，没有任何实际意义。
- 发现：如果把这些人直接开除（从输入中删除），餐厅的出餐速度反而更快，菜的味道（模型性能）甚至更好，因为没人来捣乱了。
🪑 沉没员工 (Sink Tokens) - 占 10%
- 比喻：这些是专门负责“镇场子”的保安。他们不管图片里是猫还是狗，他们的表情和动作永远一模一样。他们存在的唯一作用就是维持后厨的秩序（稳定注意力分布），防止系统崩溃。
- 真相：他们虽然占位置，但不携带任何关于图片的具体信息（比如“这是一只猫”）。
- 发现：把他们请走，餐厅照样运转，因为老板会把注意力转移到真正的菜单（文字提示）上。
💡 活员工 (Alive Tokens) - 占 60%
- 比喻：这才是真正的厨师和传菜员。只有他们手里拿着真正的食材（图片里的物体、颜色、文字）。
- 真相：虽然他们只占一半多一点，但他们极其高效。一个“活员工”往往同时打包了多个信息（比如一个 Token 既包含了“猫”，又包含了“黑色”，还包含了“在沙发上”）。
- 发现：这些“活员工”在刚进后厨时，就已经把菜切好、洗好、甚至摆盘好了（信息非常密集），不需要后厨再花太多力气去处理。

2. 后厨的“过度加工”问题

研究发现，AI 的后厨里有一个奇怪的流程：

浅层加工是多余的：
以前大家以为，图片进来后，需要经过后厨最前面的几道工序（浅层神经网络）慢慢加工，才能变成语言模型能懂的话。
但论文发现：这完全是多此一举！因为“活员工”进厨房时，菜已经是半成品了。如果在最前面强行让他们再切一遍，反而可能把菜切坏了（引入噪音，比如把背景的颜色误认为是物体的颜色）。
直接“空降”到中层：
最好的做法是，跳过最前面的几道工序，直接把“活员工”送到后厨的中层（中间层）。那里才是真正开始把“视觉语言”翻译成“人类语言”的地方。
- 比喻：就像你不需要让一个已经做好的汉堡在传送带上再滚三圈，直接把它送到最后打包的窗口（中层）效率最高。

3. 一个有趣的“颜色错觉”

论文还发现了一个 AI 的“脑回路”问题：

现象：如果图片里有一只红色的猫，但背景是绿色的。AI 有时候会回答“猫是绿色的”。
原因：AI 太依赖周围环境的统计规律了。它看到一大片绿色，就以为那个东西也是绿色的，而不是真正去“看”猫本身。这就像一个人走进一个全是蓝墙的房间里，看到一只白猫，却觉得猫是蓝色的，因为他被环境“洗脑”了。

总结：这篇论文告诉我们什么？

去粗取精：AI 处理图片时，60% 的信息是核心，40% 是垃圾。我们可以大胆地把那 40% 的垃圾（死员工和沉没员工）扔掉，模型会跑得更快、更准。
少即是多：不需要让 AI 在浅层做太多复杂的计算，直接让核心信息进入中层处理，效果反而更好。
未来方向：未来的 AI 架构应该更聪明，学会自动筛选哪些图片碎片重要，直接跳过无用的步骤，让 AI 变得更轻、更快、更懂我们。

一句话总结：
现在的 AI 看图片有点“大材小用”且“拖泥带水”，这篇论文教我们如何精简流程、剔除废话、直击核心，让 AI 看得更准、算得更快。

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

1. 视觉 Token 的“三大类”：后厨里的三种员工

2. 后厨的“过度加工”问题

3. 一个有趣的“颜色错觉”

总结：这篇论文告诉我们什么？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 核心发现与贡献 (Key Contributions & Findings)

A. 视觉 Token 的三元划分 (Tri-partition of Visual Tokens)

B. 显著的语义稀疏性 (Semantic Sparsity)

C. “前语言”对齐与内部计算的冗余 (Pre-linguistic Alignment & Redundancy)

D. 浅层处理的非必要性 (Unnecessity of Shallow Processing)

4. 实验结果 (Results)

5. 意义与展望 (Significance)

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

1. 视觉 Token 的“三大类”：后厨里的三种员工

2. 后厨的“过度加工”问题

3. 一个有趣的“颜色错觉”

总结：这篇论文告诉我们什么？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 核心发现与贡献 (Key Contributions & Findings)

A. 视觉 Token 的三元划分 (Tri-partition of Visual Tokens)

B. 显著的语义稀疏性 (Semantic Sparsity)

C. “前语言”对齐与内部计算的冗余 (Pre-linguistic Alignment & Redundancy)

D. 浅层处理的非必要性 (Unnecessity of Shallow Processing)

4. 实验结果 (Results)

5. 意义与展望 (Significance)

类似论文

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks