One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种巧妙的方法，用来解决多模态大模型（MLLM）的一个致命弱点：“幻觉”。

简单来说，就是这些模型有时候看图说话，会“一本正经地胡说八道”。比如你给它看一张猫的照片，它可能会说：“这只猫正在开飞机。”

为了解决这个问题，以前的方法通常是“头痛医头，脚痛医脚”：要么拼命加强模型对图片的注意力（让它更看清图），要么拼命压制模型脑子里的固有文字套路（让它别瞎编）。但作者发现，这两种方法单独用都不够好，硬把它们拼在一起效果反而更差。

于是，作者提出了一个**“一石二鸟”的统一框架**，核心思想是**“操纵视觉令牌（Vision Token）”**。

为了让你更容易理解，我们可以把多模态大模型想象成一个正在写游记的“导游”，而图片就是**“风景照”**。

1. 问题出在哪？（失衡的导游）

现状：这个导游刚开始看照片时很认真，但写着写着，随着文字越来越多，他看照片的注意力就越来越弱（视觉信号衰减）。
后果：这时候，他脑子里的**“老套路”**（语言惯性）开始占上风。比如他脑子里总想着“猫很可爱”，就算照片里是只老虎，他也可能顺着老套路瞎编成“可爱的猫咪在开飞机”。
旧方法的失败：
- 方法 A（加强看图）：就像给导游戴个放大镜，让他更用力地看照片。但如果他脑子里的“老套路”太顽固，放大镜也没用，他还是会顺着老套路编。
- 方法 B（压制瞎编）：就像给导游吃“禁言药”，让他别乱说话。但为了让他闭嘴，以前的方法往往是把照片涂黑、打马赛克（破坏图片），这导致导游看到的是一片混乱的噪点，反而让他更糊涂，编出的东西更不可信。

2. 作者的新招：一石二鸟（统一框架）

作者发现，手里握着的**“视觉令牌”（也就是代表图片信息的数字代码块）是个宝贝，可以同时**干两件事。他们设计了一个系统，让同一个“视觉令牌”扮演两个角色：

角色一：Synergistic Visual Calibration (SVC) —— “找帮手”

比喻：导游看照片看累了，眼神涣散。作者不仅让他看原图，还让他看一张**“经过特殊处理的相似照片”**（比如把照片左右翻转一下，或者加点模糊噪点）。
原理：这两张照片虽然有点不一样，但它们描述的是同一个东西。把这两张图的“信息”融合在一起，就像给导游找了个**“搭档”**，两人互相补充细节。
效果：即使导游看原图累了，搭档提供的补充信息也能帮他重新聚焦，确保他描述的是照片里的真实内容，而不是脑子里的幻想。

角色二：Causal Representation Calibration (CRC) —— “找替身”

比喻：为了知道导游脑子里有多少“老套路”在作祟，我们需要一个**“替身”**。
以前的做法：把照片涂黑（像素级破坏）。这就像把导游的眼睛蒙上，还给他戴个眼罩，他看到的是一片漆黑，这完全不是正常情况，测出来的“瞎编”数据全是噪音。
作者的做法：从代表图片的“令牌”里，随机扔掉大部分，只留下很少几个（比如 5 个）。
- 这就像给导游看一张**“极度模糊、只剩轮廓”**的照片。
- 因为照片信息太少，导游被迫只能靠脑子里的“老套路”来瞎编。
- 这时候，我们对比“看清晰照片的导游”和“看模糊照片的导游”写的东西，就能精准地提取出“瞎编的方向”。
效果：一旦知道了“瞎编的方向”，我们就可以在导游写正文字时，反向抵消这个方向，就像在导航时自动修正偏航，让他回到正确的轨道上。

3. 为什么这个方法牛？

不用重新训练：就像给导游配了个“智能眼镜”和“修正指南”，不需要重新教他说话（训练-free），直接就能用。
速度快：这个修正过程非常快，只增加了 6% 的时间成本，几乎感觉不到。
效果好：在多个测试中，它把模型“胡说八道”的概率降低了，同时还能保持模型正常的聪明才智（比如还能回答复杂的推理问题）。

总结

这篇论文的核心就是：别把“加强看图”和“压制瞎编”分开做。

作者发现，只要巧妙地操作代表图片的“令牌”：

一方面，用**“增强版”的令牌给模型加料**，让它看得更清；
另一方面，用**“残缺版”的令牌给模型做减法**，精准地找出并剔除它脑子里的“瞎编惯性”。

这就好比既给导游配了高清望远镜，又给他装了自动纠偏仪，让他既能看清风景，又不会顺着老套路乱编故事。这就是所谓的“一个令牌，两种命运”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心问题：多模态大模型（MLLMs）的幻觉现象
MLLMs 在生成文本时，常出现与视觉证据不符的“幻觉”（Hallucination），即生成流畅但错误的描述。这严重阻碍了其在现实场景中的应用。

现有方法的局限性
目前的免训练（Training-free）去幻觉方法主要分为两类，但都存在明显的权衡缺陷，且简单的组合往往无效：

视觉增强类（Visual Enhancement）： 试图通过增强视觉信号（如提高注意力权重）来对抗语言惯性。
- 缺陷： 仅增强视觉信号往往不足以完全压制模型内部强大的语言先验（Text Inertia），尤其是在生成长文本时，视觉信号会逐渐衰减。
文本抑制类（Text Suppression）： 试图通过对比解码（Contrastive Decoding）在输出 logits 层面抑制语言惯性。
- 缺陷： 这类方法通常依赖对输入图像进行扭曲（如 Masking）来构建“负样本”。这种模态间隙（Modality-gap） 引入了不相关的噪声，导致负样本不稳定且不可靠，反而引入了额外的干扰。

核心洞察
作者发现，现有的“视觉增强”和“文本抑制”是割裂的（Disjoint），且简单的叠加（Naive Combination）会导致性能下降。幻觉的本质是视觉信号随时间衰减与语言先验主导之间的系统性失衡。因此，需要一个统一的框架，在中间表示层（Intermediate Representation） 进行操作，而非仅在注意力层或输出层。

2. 方法论 (Methodology)

作者提出了一个统一的、免训练的框架，核心思想是操纵视觉 Token（Vision Token），使其同时承担“增强”和“校准”两种角色。该框架包含两个核心模块：

2.1 核心发现 (Key Findings)

在提出方法前，作者通过系统分析得出了三个关键发现：

F1 (失衡诊断)： 随着生成的进行，视觉注意力急剧衰减，而幻觉频率在视觉 grounding 最弱时飙升。
F2 (语义互补性)： 原始图像与增强图像（Augmented Image）的注意力图呈现互补性，结合两者可构建更丰富的视觉锚点。
F3 (信息间隙优势)： 在潜在空间（Latent Space）中移除 Token（信息间隙，Information-gap）比在像素级扭曲图像（模态间隙，Modality-gap）更能生成稳定、分布内（In-distribution）的负样本，从而更精准地探测模型偏差。

2.2 统一框架架构

框架完全在中间层表示（Hidden States）上操作，不改变解码过程，分为两个并行模块：

A. 协同视觉校准模块 (Synergistic Visual Calibration, SVC)

目标： 对抗视觉信号衰减（Visual Fading）。
机制： 基于 F2 (语义互补性)。
1. 对输入图像进行增强（翻转、高斯模糊、椒盐噪声），生成增强图像 $I_{aug}$ 。
2. 提取原始 Token ( $V$ ) 和增强 Token ( $V_{aug}$ )，拼接成协同视觉记忆库 $V_{syn}$ 。
3. 在特定的中间层（如第 16 层），利用 $V_{syn}$ 作为 Key 和 Value，通过注意力机制注入协同视觉上下文到隐藏状态中。
4. 通过插值融合原始隐藏状态与注入的上下文，增强视觉 grounding。

B. 因果表示校准模块 (Causal Representation Calibration, CRC)

目标： 抑制语言惯性，净化内部偏差。
机制： 基于 F3 (信息间隙)。
1. 构建负样本： 不扭曲图像，而是直接在潜在空间随机剪枝（Pruning） 视觉 Token，仅保留少量 Token（如 5 个）。这模拟了“信息缺失”而非“图像扭曲”。
2. 探测幻觉方向： 并行运行原始输入和剪枝后的负样本输入，计算两者在隐藏状态上的差异向量 $\Delta H$ 。
3. 提取偏差向量： 对多个负样本的差异向量取平均，得到稳定的“幻觉方向向量” $v_{crc}$ 。
4. 因果校准： 在生成过程中，从原始隐藏状态中减去该偏差向量（在归一化空间中进行），将表示拉回“视觉真理”方向，从而消除内部偏见。

3. 主要贡献 (Key Contributions)

范式重构： 将去幻觉问题重新定义为“视觉 - 语言平衡”问题，揭示了现有割裂方法的局限性，并证明了简单组合的失败，提出了基于视觉 Token 双重角色的统一视角。
首个统一框架： 提出了第一个在中间表示层操作的统一免训练框架，利用视觉 Token 同时实现视觉增强（SVC）和偏差抑制（CRC）。
创新模块设计：
- SVC： 利用增强图像的语义互补性，有效对抗视觉衰减。
- CRC： 提出基于“信息间隙”的 Token 剪枝策略构建负样本，比传统的图像扭曲更纯净、更稳定。
理论支撑： 基于结构因果模型（SCM）解释了 CRC 模块如何通过差分向量隔离纯视觉信号，从而抵消文本先验和内部偏差。

4. 实验结果 (Results)

作者在多个主流 MLLM 架构（LLaVA-1.5, MiniGPT-4, Shikra, InstructBLIP）和多个基准测试上进行了验证：

物体幻觉消除 (POPE Benchmark)：
- 在最具挑战性的 GQA 分割上，LLaVA-1.5 的准确率从 Vanilla 的 78.76% 提升至 81.54%。
- 在多个模型上平均提升了 2% 的绝对准确率。
开放域描述幻觉 (CHAIR Benchmark)：
- 在 CHAIRI（实例级）和 CHAIRS（句子级）指标上均取得了 SOTA 性能（分数越低越好）。例如，LLaVA-1.5 在 64 tokens 设置下 CHAIRI 降至 18.1。
综合能力保持 (MME & MMHal-Bench)：
- 在 MME 基准（感知与认知能力）上，该方法不仅消除了幻觉，还提升了模型的通用感知和认知能力（例如 LLaVA-1.5 感知分提升至 1456.28）。
- 在 MMHal-Bench 的 8 个类别中，全面优于 Vanilla、PAI 和 VISTA 等方法。
效率与开销：
- 推理延迟： 仅增加 1.06 倍 的延迟（相比 Greedy 解码），远优于 VCD (2.4 倍) 和 VISTA (1.1 倍)。
- 显存占用： 峰值显存占用低于 VCD 和 VISTA。

5. 意义与总结 (Significance)

理论突破： 该工作打破了以往“增强视觉”或“抑制文本”的二元对立，证明了通过操纵核心跨模态桥梁（视觉 Token）可以统一解决幻觉问题。
技术优势：
- 无需训练： 适用于任何预训练的 MLLM，部署成本低。
- 高能效： 在显著提升去幻觉效果的同时，保持了极低的推理开销。
- 鲁棒性： 对超参数（如剪枝数量 $N_h$ 、校准强度 $\lambda$ ）不敏感，且在不同架构上表现一致。
应用价值： 为构建更可靠、更可信的多模态大模型提供了一套高效、可解释的解决方案，特别是在需要高精度视觉描述的医疗、安防等关键领域具有潜在应用价值。

总结一句话： 该论文通过巧妙利用视觉 Token 的“双重命运”（既作为增强视觉的互补源，又作为探测偏差的剪枝负样本），构建了一个统一、高效且无需训练的框架，成功解决了 MLLM 中视觉信号衰减与语言惯性主导的失衡问题。

One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

1. 问题出在哪？（失衡的导游）

2. 作者的新招：一石二鸟（统一框架）

角色一：Synergistic Visual Calibration (SVC) —— “找帮手”

角色二：Causal Representation Calibration (CRC) —— “找替身”

3. 为什么这个方法牛？

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 核心发现 (Key Findings)

2.2 统一框架架构

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与总结 (Significance)

类似论文

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers