Each language version is independently generated for its own context, not a direct translation.
1. 研究背景与问题 (Problem)
- 核心问题:预训练的大型语言模型(LLM)虽然能生成流畅的文本,但经常产生事实性错误,这种现象被称为**“幻觉”(Hallucination)**。这严重削弱了 LLM 在下游任务(如关键应用、代理系统)中的可靠性和实用性。
- 现有挑战:
- 现有的缓解方法主要分为三类:基于训练的方法(如微调、知识编辑)、基于检索的方法(RAG)以及基于推理时的解码方法。
- 许多推理时解码方法将模型视为黑盒,依赖不确定性量化(UQ)或对比不同模型版本(如 DoLa, DeCoRe),往往计算成本高或需要额外的模型修改。
- 缺乏一种无需重新训练、能直接利用模型内部状态来检测并抑制幻觉的轻量级方法。
2. 核心假设 (Hypothesis)
作者基于机械可解释性(Mechanistic Interpretability)的现有研究提出假设:
- 事实性知识的分布:LLM 中的事实性知识并非均匀分布,主要集中在中间层(Middle Layers)。
- 稳定性与事实性的关联:如果一个文本片段(Span)在中间层的表示是稳定且一致的,那么它更可能是事实正确的;反之,如果中间层之间存在**表示的不稳定性(Representational Instability)**或语义分歧,则表明模型在该处存在“困惑”,极可能产生幻觉。
3. 方法论 (Methodology)
论文提出了一种名为 CoCoA (Confusion and Consistency Aware) 的解码器,这是一种**无需训练(Training-free)**的推理时算法。
3.1 核心指标:层间分歧分数 (MLDS)
为了量化中间层的表示不稳定性,作者定义了两个指标,用于衡量候选文本片段 S 在中间层 m 到 n 之间的表示差异:
连续中间层分歧分数 (ConMLDS):
- 计算相邻中间层之间表示向量的余弦距离之和。
- 公式:conMLDS(S)=N1∑j=mn−1(1−SC(HS,j,HS,j+1))
- 含义:衡量信息在逐层传递过程中的累积变化。
相对中间层分歧分数 (fMLDS):
- 计算每个中间层表示与最终层(Final Layer)表示之间的余弦距离。
- 公式:fMLDS(S)=N1∑j=mn(1−SC(HS,j,HS,L))
- 含义:以最终层为参考点,衡量中间层的“困惑”程度。
注:HS,l 是通过均值池化得到的第 l 层中片段 S 的聚合表示向量。
3.2 CoCoA 解码器
标准贪婪解码选择概率最高的 token。CoCoA 通过引入惩罚项来修改解码过程:
- 基本 CoCoA:在计算候选片段的得分时,从对数概率中减去加权后的 MLDS 分数。
- 公式:Score(S)=logpS−α×MLDS(S)
- 逻辑:MLDS 越高(表示中间层越混乱),该片段的得分越低,从而被抑制。
3.3 CoCoA-SIG (自信息门控变体)
为了更精准地打击幻觉,作者提出了 CoCoA-SIG。
- 动机:幻觉通常发生在模型内部知识边界,即模型对某些内容感到“惊讶”(高自信息/低概率)的时候。
- 机制:将惩罚项与片段的自信息(Self-Information, −logpS)相乘。
- 公式:Score(S)=logpS×[1+α×MLDS(S)]
- 逻辑:对于低概率(高自信息)的片段,如果其 MLDS 也高,则施加更严厉的惩罚;对于高概率片段,惩罚较小,避免过度干扰流畅性。
3.4 实施策略
- 分歧点检测 (Divergence Points):仅在模型预测存在不确定性(即多个 token 概率接近)的分歧点处应用 CoCoA 解码,其他情况仍使用贪婪解码,以平衡效率。
- 中间层选择:基于先验研究,选取模型总层数的 $1/3到2/3$ 作为中间层范围。
4. 主要贡献 (Key Contributions)
- 提出了新的度量指标:定义了 ConMLDS 和 fMLDS 两个指标,用于量化 LLM 中间层的表示不稳定性,作为幻觉的内在信号。
- 设计了 CoCoA 解码器:提出了一种无需训练、基于层间分歧信号的解码算法,能够动态调整候选片段的排序,引导模型生成更一致、更事实正确的内容。
- 提出了 CoCoA-SIG 变体:引入自信息门控机制,使惩罚更具针对性,专门针对高不确定性、高混乱度的生成进行抑制。
- 广泛的实验验证:在多个任务(问答、摘要、数学推理、代码生成)和多个模型家族(Llama-3, Mistral, Qwen)上进行了验证,证明了其通用性和有效性。
5. 实验结果 (Results)
实验在 TruthfulQA, Natural Questions (NQ), SAMSum, XSum, MBPP (代码), GSM8K (数学) 等基准测试上进行。
- 事实性提升:
- 在 TruthfulQA 上,CoCoA-SIG (ConMLDS) 使 Llama-3-8b 的 T×I(真实性 × 信息量)得分提升了 12.39%(相比贪婪解码),并优于 DoLa、DeCoRe 等强基线。
- 在 NQ 和 NQ-Swap 任务中,CoCoA-SIG 在精确匹配(EM)和 F1 分数上均取得了最佳或极具竞争力的结果,特别是在事实性评估(Truthfulness)上表现突出。
- 多任务泛化:
- 摘要任务 (SAMSum/XSum):在保持 ROUGE-L 分数竞争力的同时,显著提高了摘要的事实准确性(FActScore)。
- 代码与数学 (MBPP/GSM8K):在 Pass@1 和准确率上均有提升(代码任务提升约 6.73%,数学任务提升约 1.21%),证明了该方法不仅适用于事实检索,也适用于逻辑推理。
- 效率分析:
- CoCoA 的延迟开销约为贪婪解码的 1.3 倍,远低于 Diver (6.2 倍) 和 DeCoRe (2.16 倍),具有较好的实用性。
- 统计显著性:通过 Wilcoxon 符号秩检验,证明了 CoCoA 指标在区分幻觉与非幻觉生成上具有极强的统计显著性 (p<10−14)。
6. 意义与结论 (Significance)
- 无需训练 (Training-free):该方法不需要修改模型权重或进行额外的微调,直接作为推理时的插件使用,降低了部署成本。
- 可解释性 (Interpretability):通过直接探测模型内部负责事实处理的中间层,揭示了幻觉产生的内在机制(即层间表示的不一致),为理解 LLM 的“思考”过程提供了新视角。
- 通用性 (Broad Applicability):适用于不同规模、不同架构的模型,且在不同任务类型(从开放域问答到代码生成)中均有效。
- 提升信任度:为构建更可靠、更值得信赖的 LLM 应用提供了一种高效、低成本的解决方案,特别是在对事实准确性要求严格的场景中。
总结:这篇论文通过“聆听”模型中间层的“分歧”声音,成功地将内部表示的不稳定性转化为抑制幻觉的信号。CoCoA 及其变体 CoCoA-SIG 证明了利用模型内在机制进行推理时优化是缓解大模型幻觉的一条极具潜力的路径。