Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 CoCoA 的新方法，旨在解决大型语言模型（LLM）最让人头疼的问题：“一本正经地胡说八道”（也就是我们常说的“幻觉”）。

想象一下，你问一个博学的教授一个问题，他回答得流利顺畅，但内容却是错的。CoCoA 就是给这位教授装上了一个“内部自检系统”，让他能在开口说话前，先听听自己脑子里的“不同声音”，从而避免胡说八道。

下面我用几个简单的比喻来解释这项技术：

1. 核心问题：为什么 AI 会“幻觉”？

现在的 AI 模型像是一个由成千上万个“思考层”堆叠而成的超级大脑。

正常情况：当它知道一个事实（比如“乔治亚州桃子最多”），这些“思考层”会像一支训练有素的合唱团，层层递进，声音整齐划一，最终唱出正确的歌词。
幻觉情况：当它不知道答案或编造答案时（比如瞎编“加利福尼亚州桃子最多”），这些“思考层”就开始“吵架”了。有的层觉得是加州，有的层觉得是德州，有的层甚至觉得没有这个事实。这种内部的混乱和分歧，就是幻觉的根源。

2. 核心发现：听“中间层”的争吵

以前的方法要么是把 AI 重新训练（像给学生补课），要么是去查外部资料（像让学生查字典）。
但这篇论文的作者发现了一个更聪明的办法：直接听 AI 大脑“中间层”的争吵声。

研究发现，AI 处理事实知识的关键区域就在中间层。如果 AI 在生成某个词时，中间层的“想法”前后不一致、互相打架，那就说明它对这个词心里没底，很可能在撒谎。

3. 解决方案：CoCoA 解码器（“内部调解员”）

作者设计了一个叫 CoCoA 的“解码器”，它就像一个聪明的调解员，在 AI 生成每一个词的时候，做两件事：

测量“混乱度”：它检查 AI 中间层对这个词的看法是否统一。
- 比喻：就像在问：“你们中间层的人，对这个答案达成一致了吗？”如果大家都在摇头、互相反对，这就叫“高混乱度”。
施加“惩罚”：如果 AI 想选一个“高混乱度”的词（也就是它自己都很纠结的词），CoCoA 就会给它扣分，强行压低它的得分。
- 比喻：就像老师告诉学生：“如果你自己都觉得答案很可疑，那就别选这个，换个你更有把握的。”

4. 升级版：CoCoA-SIG（“智能惩罚”）

作者还做了一个升级版，叫 CoCoA-SIG。它更聪明，懂得“看人下菜碟”。

普通版：不管什么词，只要混乱就扣分。
升级版：它会结合“惊讶程度”。如果 AI 本来就不太确定（概率低），这时候如果还发现它内部很混乱，那就加倍惩罚；如果 AI 本来就很确定（概率高），那就算有点小混乱，也稍微宽容一点。
比喻：这就像考试，如果你本来就不太会做这道题，结果还瞎蒙了一个答案，老师会严厉批评；但如果你本来就很擅长，只是偶尔手滑，老师可能只会轻轻提醒。

5. 效果如何？

作者在数学题、代码生成、新闻摘要、问答等多个领域做了测试。

结果：使用 CoCoA 后，AI 说错话的情况大幅减少，而且不需要重新训练模型（不需要给 AI 补课），也不需要联网查资料（不需要查字典）。
代价：速度稍微慢了一点点（大概慢了 1.3 倍），但为了准确性，这点代价是值得的。

总结

这就好比给 AI 装了一个**“良心探测器”。
以前 AI 生成文字是“想说什么就说什么”（贪婪解码）；
现在有了 CoCoA，AI 在说话前会先“听听自己内心的不同声音”**。如果发现自己内部在打架、很混乱，它就会停下来，换个更靠谱、更一致的说法。

这种方法简单、通用，而且不需要给 AI 重新上课，就能让它在关键时刻变得更诚实、更可靠。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心问题：预训练的大型语言模型（LLM）虽然能生成流畅的文本，但经常产生事实性错误，这种现象被称为**“幻觉”（Hallucination）**。这严重削弱了 LLM 在下游任务（如关键应用、代理系统）中的可靠性和实用性。
现有挑战：
- 现有的缓解方法主要分为三类：基于训练的方法（如微调、知识编辑）、基于检索的方法（RAG）以及基于推理时的解码方法。
- 许多推理时解码方法将模型视为黑盒，依赖不确定性量化（UQ）或对比不同模型版本（如 DoLa, DeCoRe），往往计算成本高或需要额外的模型修改。
- 缺乏一种无需重新训练、能直接利用模型内部状态来检测并抑制幻觉的轻量级方法。

2. 核心假设 (Hypothesis)

作者基于机械可解释性（Mechanistic Interpretability）的现有研究提出假设：

事实性知识的分布：LLM 中的事实性知识并非均匀分布，主要集中在中间层（Middle Layers）。
稳定性与事实性的关联：如果一个文本片段（Span）在中间层的表示是稳定且一致的，那么它更可能是事实正确的；反之，如果中间层之间存在**表示的不稳定性（Representational Instability）**或语义分歧，则表明模型在该处存在“困惑”，极可能产生幻觉。

3. 方法论 (Methodology)

论文提出了一种名为 CoCoA (Confusion and Consistency Aware) 的解码器，这是一种**无需训练（Training-free）**的推理时算法。

3.1 核心指标：层间分歧分数 (MLDS)

为了量化中间层的表示不稳定性，作者定义了两个指标，用于衡量候选文本片段 $S$ 在中间层 $m$ 到 $n$ 之间的表示差异：

连续中间层分歧分数 (ConMLDS)：
- 计算相邻中间层之间表示向量的余弦距离之和。
- 公式： $conMLDS(S) = \frac{1}{N} \sum_{j=m}^{n-1} (1 - SC(H_{S,j}, H_{S,j+1}))$
- 含义：衡量信息在逐层传递过程中的累积变化。
相对中间层分歧分数 (fMLDS)：
- 计算每个中间层表示与最终层（Final Layer）表示之间的余弦距离。
- 公式： $fMLDS(S) = \frac{1}{N} \sum_{j=m}^{n} (1 - SC(H_{S,j}, H_{S,L}))$
- 含义：以最终层为参考点，衡量中间层的“困惑”程度。

注： $H_{S,l}$ 是通过均值池化得到的第 $l$ 层中片段 $S$ 的聚合表示向量。

3.2 CoCoA 解码器

标准贪婪解码选择概率最高的 token。CoCoA 通过引入惩罚项来修改解码过程：

基本 CoCoA：在计算候选片段的得分时，从对数概率中减去加权后的 MLDS 分数。
- 公式： $\text{Score}(S) = \log p_S - \alpha \times MLDS(S)$
- 逻辑：MLDS 越高（表示中间层越混乱），该片段的得分越低，从而被抑制。

3.3 CoCoA-SIG (自信息门控变体)

为了更精准地打击幻觉，作者提出了 CoCoA-SIG。

动机：幻觉通常发生在模型内部知识边界，即模型对某些内容感到“惊讶”（高自信息/低概率）的时候。
机制：将惩罚项与片段的自信息（Self-Information, $-\log p_S$ $- lo g p_{S}$ ）相乘。
- 公式： $\text{Score}(S) = \log p_S \times [1 + \alpha \times MLDS(S)]$
- 逻辑：对于低概率（高自信息）的片段，如果其 MLDS 也高，则施加更严厉的惩罚；对于高概率片段，惩罚较小，避免过度干扰流畅性。

3.4 实施策略

分歧点检测 (Divergence Points)：仅在模型预测存在不确定性（即多个 token 概率接近）的分歧点处应用 CoCoA 解码，其他情况仍使用贪婪解码，以平衡效率。
中间层选择：基于先验研究，选取模型总层数的 $1/3 $到$ 2/3$ 作为中间层范围。

4. 主要贡献 (Key Contributions)

提出了新的度量指标：定义了 ConMLDS 和 fMLDS 两个指标，用于量化 LLM 中间层的表示不稳定性，作为幻觉的内在信号。
设计了 CoCoA 解码器：提出了一种无需训练、基于层间分歧信号的解码算法，能够动态调整候选片段的排序，引导模型生成更一致、更事实正确的内容。
提出了 CoCoA-SIG 变体：引入自信息门控机制，使惩罚更具针对性，专门针对高不确定性、高混乱度的生成进行抑制。
广泛的实验验证：在多个任务（问答、摘要、数学推理、代码生成）和多个模型家族（Llama-3, Mistral, Qwen）上进行了验证，证明了其通用性和有效性。

5. 实验结果 (Results)

实验在 TruthfulQA, Natural Questions (NQ), SAMSum, XSum, MBPP (代码), GSM8K (数学) 等基准测试上进行。

事实性提升：
- 在 TruthfulQA 上，CoCoA-SIG (ConMLDS) 使 Llama-3-8b 的 $T \times I$ （真实性 $\times$ 信息量）得分提升了 12.39%（相比贪婪解码），并优于 DoLa、DeCoRe 等强基线。
- 在 NQ 和 NQ-Swap 任务中，CoCoA-SIG 在精确匹配（EM）和 F1 分数上均取得了最佳或极具竞争力的结果，特别是在事实性评估（Truthfulness）上表现突出。
多任务泛化：
- 摘要任务 (SAMSum/XSum)：在保持 ROUGE-L 分数竞争力的同时，显著提高了摘要的事实准确性（FActScore）。
- 代码与数学 (MBPP/GSM8K)：在 Pass@1 和准确率上均有提升（代码任务提升约 6.73%，数学任务提升约 1.21%），证明了该方法不仅适用于事实检索，也适用于逻辑推理。
效率分析：
- CoCoA 的延迟开销约为贪婪解码的 1.3 倍，远低于 Diver (6.2 倍) 和 DeCoRe (2.16 倍)，具有较好的实用性。
统计显著性：通过 Wilcoxon 符号秩检验，证明了 CoCoA 指标在区分幻觉与非幻觉生成上具有极强的统计显著性 ( $p < 10^{-14}$ )。

6. 意义与结论 (Significance)

无需训练 (Training-free)：该方法不需要修改模型权重或进行额外的微调，直接作为推理时的插件使用，降低了部署成本。
可解释性 (Interpretability)：通过直接探测模型内部负责事实处理的中间层，揭示了幻觉产生的内在机制（即层间表示的不一致），为理解 LLM 的“思考”过程提供了新视角。
通用性 (Broad Applicability)：适用于不同规模、不同架构的模型，且在不同任务类型（从开放域问答到代码生成）中均有效。
提升信任度：为构建更可靠、更值得信赖的 LLM 应用提供了一种高效、低成本的解决方案，特别是在对事实准确性要求严格的场景中。

总结：这篇论文通过“聆听”模型中间层的“分歧”声音，成功地将内部表示的不稳定性转化为抑制幻觉的信号。CoCoA 及其变体 CoCoA-SIG 证明了利用模型内在机制进行推理时优化是缓解大模型幻觉的一条极具潜力的路径。