Each language version is independently generated for its own context, not a direct translation.
这篇论文就像是一次对多模态大模型(MLLM)(也就是那些能“看”图又能“说话”的 AI)内部大脑的CT 扫描。
研究人员发现,当我们把一张图片“喂”给 AI 时,AI 并不是平等地对待图片里的每一个像素块。相反,它把图片切成了很多小碎片(称为“视觉 Token"),而这些碎片里,大部分其实是“水货”或“陪跑”的,只有少部分是真正的“干货”。
为了让你更容易理解,我们可以把 AI 处理图片的过程想象成一家繁忙的餐厅后厨:
1. 视觉 Token 的“三大类”:后厨里的三种员工
当图片进入 AI 的“后厨”(语言模型)时,所有的图片碎片(Token)被分成了三类:
🗑️ 死员工 (Dead Tokens) - 占 30%
- 比喻:这些是后厨里完全没干活的实习生。他们站在角落里,既不切菜也不端盘子,甚至老板(AI 的注意力机制)都懒得看他们一眼。
- 真相:他们只是重复出现的“背景噪音”,没有任何实际意义。
- 发现:如果把这些人直接开除(从输入中删除),餐厅的出餐速度反而更快,菜的味道(模型性能)甚至更好,因为没人来捣乱了。
🪑 沉没员工 (Sink Tokens) - 占 10%
- 比喻:这些是专门负责“镇场子”的保安。他们不管图片里是猫还是狗,他们的表情和动作永远一模一样。他们存在的唯一作用就是维持后厨的秩序(稳定注意力分布),防止系统崩溃。
- 真相:他们虽然占位置,但不携带任何关于图片的具体信息(比如“这是一只猫”)。
- 发现:把他们请走,餐厅照样运转,因为老板会把注意力转移到真正的菜单(文字提示)上。
💡 活员工 (Alive Tokens) - 占 60%
- 比喻:这才是真正的厨师和传菜员。只有他们手里拿着真正的食材(图片里的物体、颜色、文字)。
- 真相:虽然他们只占一半多一点,但他们极其高效。一个“活员工”往往同时打包了多个信息(比如一个 Token 既包含了“猫”,又包含了“黑色”,还包含了“在沙发上”)。
- 发现:这些“活员工”在刚进后厨时,就已经把菜切好、洗好、甚至摆盘好了(信息非常密集),不需要后厨再花太多力气去处理。
2. 后厨的“过度加工”问题
研究发现,AI 的后厨里有一个奇怪的流程:
浅层加工是多余的:
以前大家以为,图片进来后,需要经过后厨最前面的几道工序(浅层神经网络)慢慢加工,才能变成语言模型能懂的话。
但论文发现:这完全是多此一举!因为“活员工”进厨房时,菜已经是半成品了。如果在最前面强行让他们再切一遍,反而可能把菜切坏了(引入噪音,比如把背景的颜色误认为是物体的颜色)。
直接“空降”到中层:
最好的做法是,跳过最前面的几道工序,直接把“活员工”送到后厨的中层(中间层)。那里才是真正开始把“视觉语言”翻译成“人类语言”的地方。
- 比喻:就像你不需要让一个已经做好的汉堡在传送带上再滚三圈,直接把它送到最后打包的窗口(中层)效率最高。
3. 一个有趣的“颜色错觉”
论文还发现了一个 AI 的“脑回路”问题:
- 现象:如果图片里有一只红色的猫,但背景是绿色的。AI 有时候会回答“猫是绿色的”。
- 原因:AI 太依赖周围环境的统计规律了。它看到一大片绿色,就以为那个东西也是绿色的,而不是真正去“看”猫本身。这就像一个人走进一个全是蓝墙的房间里,看到一只白猫,却觉得猫是蓝色的,因为他被环境“洗脑”了。
总结:这篇论文告诉我们什么?
- 去粗取精:AI 处理图片时,60% 的信息是核心,40% 是垃圾。我们可以大胆地把那 40% 的垃圾(死员工和沉没员工)扔掉,模型会跑得更快、更准。
- 少即是多:不需要让 AI 在浅层做太多复杂的计算,直接让核心信息进入中层处理,效果反而更好。
- 未来方向:未来的 AI 架构应该更聪明,学会自动筛选哪些图片碎片重要,直接跳过无用的步骤,让 AI 变得更轻、更快、更懂我们。
一句话总结:
现在的 AI 看图片有点“大材小用”且“拖泥带水”,这篇论文教我们如何精简流程、剔除废话、直击核心,让 AI 看得更准、算得更快。
Each language version is independently generated for its own context, not a direct translation.
这篇论文《Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models》(视觉 Token 到底编码了什么?揭示多模态大模型中的稀疏性与冗余性)深入探讨了多模态大语言模型(MLLMs)中视觉 Token 的内部结构、语义分布及其处理机制。
以下是该论文的详细技术总结:
1. 研究背景与问题 (Problem)
多模态大语言模型(MLLMs)通常通过投影层将视觉编码器(如 CLIP)生成的图像块(Patch)嵌入映射到语言模型的嵌入空间。然而,这种设计存在一个核心矛盾:
- 全局对齐 vs. 局部处理:视觉编码器倾向于生成全局对齐的语义,而 LLM 以局部、离散的 Token 序列方式处理信息。
- 认知缺口:目前尚不清楚全局语义是如何分布到局部 Token 中的。是否所有图像块都携带有意义的语义?视觉 Token 在进入 LLM 之前是否已经包含了“前语言”(pre-linguistic)的离散概念,还是完全依赖 LLM 进行深度处理?
2. 方法论 (Methodology)
为了细粒度地分析视觉 Token 的语义结构,作者提出了一个双重分析框架,并开发了一个名为 EmbedLens 的新型探测工具。
- EmbedLens 工具:
- 原理:直接在输入嵌入空间中测量目标表示(如投影后的视觉 Token)与模型词汇表中所有 Token 嵌入的余弦相似度。
- 功能:通过检索 Top-K 最相似的文本 Token,为视觉 Token 或聚类分配可解释的文本标签,从而揭示其内在语义。
- 分析流程:
- 宏观聚类:基于相似度对视觉 Token 进行聚类,观察其宏观结构。
- 微观语义探测:利用 EmbedLens 分析每个聚类和 Token 的具体语义属性。
- 控制实验:
- 剪枝实验:移除特定类型的 Token(如 Sink 或 Dead Token),观察性能变化。
- 压缩基准:构建特定基准,将物体或 OCR 信息压缩到单个 Patch 中,测试 Token 的信息密度。
- 层跳跃与解耦:跳过浅层视觉处理或禁用特定的视觉子层(如视觉 Self-Attention 或 FFN),评估内部计算的必要性。
3. 核心发现与贡献 (Key Contributions & Findings)
A. 视觉 Token 的三元划分 (Tri-partition of Visual Tokens)
研究发现,进入 LLM 的视觉 Token 并非同质化,而是稳定地分为三类:
- Sink Tokens (汇 Token):
- 特征:与输入图像内容无关,跨图像高度一致(余弦相似度>0.99)。
- 来源:部分源自 ViT 的高范值激活(ViT Sinks),部分在 LLM 中形成(LLM Sinks),通常与
<bos> 或特定结构 Token 对齐。
- 作用:主要起结构稳定作用(如稳定注意力分布),不携带图像特定语义。
- Dead Tokens (死 Token):
- 特征:同样与图像内容无关,但在嵌入空间中远离文本中心,且获得的注意力极低。
- 作用:既无结构作用也无上下文作用,是语义空洞的冗余表示。
- Alive Tokens (活 Token):
- 特征:聚类在文本语义中心附近,携带图像特定的语义信息。
- 占比:仅占总输入 Token 的约 60%,其余约 40% 为 Sink 或 Dead Token。
B. 显著的语义稀疏性 (Semantic Sparsity)
- 发现:约 40% 的视觉 Token 是冗余的(Sink + Dead)。
- 验证:移除这些 Token 不仅不会降低模型性能,在某些情况下(如减少干扰)甚至能提升性能。
- 含义:视觉 Token 的语义分布极度稀疏,只有少数 Token 真正承载了物体、颜色、OCR 等关键信息。
C. “前语言”对齐与内部计算的冗余 (Pre-linguistic Alignment & Redundancy)
- 高信息密度:Alive Token 在进入 LLM 之前已经编码了丰富的细粒度线索(如物体身份、颜色、形状、OCR 字符)。它们表现为高度密集的“前语言”信息单元。
- 内部计算冗余:
- 对于大多数标准任务(通用 VQA、OCR、幻觉抑制),跳过 LLM 内部的视觉专用层(Visual Self-Attention 和 Visual FFN)对性能影响微乎其微,甚至有时能提升性能。
- 内部处理反而可能引入偏差(例如使颜色预测过度依赖背景)。
- 结论:投影层(Projector)已经有效地将 Alive Token 对齐到了 LLM 的语义空间,无需 LLM 进行额外的视觉转换。
D. 浅层处理的非必要性 (Unnecessity of Shallow Processing)
- 发现:Alive Token 的向量范数(Norm)自然对齐于 LLM 的中间层,而非初始嵌入空间。
- 机制:投影层故意放大了视觉 Token 的范数,使其绕过浅层处理,直接匹配中间层的表示。
- 实验:强制让视觉 Token 经过浅层处理(或缩小范数)反而会破坏性能。
- 结论:直接将视觉 Token 注入 LLM 的中间层(Mid-layer Injection)是充分且高效的,浅层处理往往是多余甚至有害的。
4. 实验结果 (Results)
- 剪枝效果:在 LLaVA-1.5、Qwen-VL、InternVL 等多个模型上,移除 Sink 和 Dead Token 后,General VQA、OCR、CV 核心任务及幻觉指标均保持稳定或略有提升。
- 层跳跃效果:跳过前 6 层视觉处理(Shallow Layers Skipping)在通用任务上保持性能,甚至在 CV 核心任务上因去除了浅层噪声而提升性能。
- 多语义解码:单个 Alive Token 能够同时编码多个语义轨迹(如物体、颜色、计数),模型具备从单个 Patch 中推理多重属性的能力。
- 颜色偏差:模型在颜色识别上存在上下文偏差,倾向于根据背景色而非物体本身颜色进行预测,这进一步证明了视觉 Token 的语义对齐在投影阶段已基本完成,后续处理可能引入统计偏差。
5. 意义与展望 (Significance)
这项研究为理解 MLLM 中的视觉语义处理提供了统一的机械视角,具有重大的工程指导意义:
- 高效架构设计:证明了可以通过选择性 Token 剪枝(移除 Sink/Dead Token)来显著减少计算量而不损失性能。
- 简化模型:揭示了大多数任务不需要复杂的内部视觉计算(Visual-only Attention/FFN),为构建更轻量级的 MLLM 提供了理论依据。
- 中间层注入:提出了Mid-layer Injection(直接将视觉 Token 注入中间层)作为一种更优的架构策略,避免了浅层处理的冗余和潜在干扰。
- 可解释性:通过 EmbedLens 工具,使得视觉 Token 的语义分布变得可追踪、可解释,有助于诊断模型幻觉和推理错误。
总结:该论文打破了“视觉 Token 需要 LLM 深度加工”的迷思,揭示了视觉信息在输入端已高度稀疏且富含语义,且大部分内部视觉计算是冗余的。这一发现为下一代高效、可解释的多模态大模型架构设计指明了方向。