Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

该论文提出了一种名为 CoCoA 的免训练解码算法,通过利用大语言模型中间层表征的不一致性信号来识别并抑制幻觉,从而在不重新训练模型的情况下显著提升其在问答、摘要、推理及代码生成等任务中的事实准确性。

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour Soofi

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 CoCoA 的新方法,旨在解决大型语言模型(LLM)最让人头疼的问题:“一本正经地胡说八道”(也就是我们常说的“幻觉”)。

想象一下,你问一个博学的教授一个问题,他回答得流利顺畅,但内容却是错的。CoCoA 就是给这位教授装上了一个“内部自检系统”,让他能在开口说话前,先听听自己脑子里的“不同声音”,从而避免胡说八道。

下面我用几个简单的比喻来解释这项技术:

1. 核心问题:为什么 AI 会“幻觉”?

现在的 AI 模型像是一个由成千上万个“思考层”堆叠而成的超级大脑。

  • 正常情况:当它知道一个事实(比如“乔治亚州桃子最多”),这些“思考层”会像一支训练有素的合唱团,层层递进,声音整齐划一,最终唱出正确的歌词。
  • 幻觉情况:当它不知道答案或编造答案时(比如瞎编“加利福尼亚州桃子最多”),这些“思考层”就开始“吵架”了。有的层觉得是加州,有的层觉得是德州,有的层甚至觉得没有这个事实。这种内部的混乱和分歧,就是幻觉的根源。

2. 核心发现:听“中间层”的争吵

以前的方法要么是把 AI 重新训练(像给学生补课),要么是去查外部资料(像让学生查字典)。
但这篇论文的作者发现了一个更聪明的办法:直接听 AI 大脑“中间层”的争吵声。

研究发现,AI 处理事实知识的关键区域就在中间层。如果 AI 在生成某个词时,中间层的“想法”前后不一致、互相打架,那就说明它对这个词心里没底,很可能在撒谎。

3. 解决方案:CoCoA 解码器(“内部调解员”)

作者设计了一个叫 CoCoA 的“解码器”,它就像一个聪明的调解员,在 AI 生成每一个词的时候,做两件事:

  1. 测量“混乱度”:它检查 AI 中间层对这个词的看法是否统一。
    • 比喻:就像在问:“你们中间层的人,对这个答案达成一致了吗?”如果大家都在摇头、互相反对,这就叫“高混乱度”。
  2. 施加“惩罚”:如果 AI 想选一个“高混乱度”的词(也就是它自己都很纠结的词),CoCoA 就会给它扣分,强行压低它的得分。
    • 比喻:就像老师告诉学生:“如果你自己都觉得答案很可疑,那就别选这个,换个你更有把握的。”

4. 升级版:CoCoA-SIG(“智能惩罚”)

作者还做了一个升级版,叫 CoCoA-SIG。它更聪明,懂得“看人下菜碟”。

  • 普通版:不管什么词,只要混乱就扣分。
  • 升级版:它会结合“惊讶程度”。如果 AI 本来就不太确定(概率低),这时候如果还发现它内部很混乱,那就加倍惩罚;如果 AI 本来就很确定(概率高),那就算有点小混乱,也稍微宽容一点。
  • 比喻:这就像考试,如果你本来就不太会做这道题,结果还瞎蒙了一个答案,老师会严厉批评;但如果你本来就很擅长,只是偶尔手滑,老师可能只会轻轻提醒。

5. 效果如何?

作者在数学题、代码生成、新闻摘要、问答等多个领域做了测试。

  • 结果:使用 CoCoA 后,AI 说错话的情况大幅减少,而且不需要重新训练模型(不需要给 AI 补课),也不需要联网查资料(不需要查字典)。
  • 代价:速度稍微慢了一点点(大概慢了 1.3 倍),但为了准确性,这点代价是值得的。

总结

这就好比给 AI 装了一个**“良心探测器”
以前 AI 生成文字是“想说什么就说什么”(贪婪解码);
现在有了 CoCoA,AI 在说话前会先
“听听自己内心的不同声音”**。如果发现自己内部在打架、很混乱,它就会停下来,换个更靠谱、更一致的说法。

这种方法简单、通用,而且不需要给 AI 重新上课,就能让它在关键时刻变得更诚实、更可靠。