Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

该论文指出,在缺乏外部验证的领域,通过增加推理计算量(如多数投票或集成策略)无法提升大语言模型的真实性,因为模型间的错误高度相关且自我置信度不可靠,导致聚合结果往往只是强化了共同的误解而非验证真理。

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文的核心观点可以用一句话概括:在缺乏“标准答案”的世界里,仅仅把很多大模型聚在一起投票,并不能让他们变得更聪明或更诚实;相反,他们可能会一起犯同样的错误,并且越投票越自信。

为了让你更容易理解,我们可以用几个生活中的比喻来拆解这篇论文:

1. 核心比喻:一群“同班同学”的考试

想象一下,你有一群学生(大语言模型)在参加考试。

  • 有标准答案的科目(如数学、编程): 如果题目是"1+1 等于几?”,你可以让每个学生都写答案,然后拿一个“老师”(外部验证器)去批改。写错的学生会被淘汰,最后剩下的就是对的。这时候,人多确实力量大,因为老师能帮你过滤掉错误。
  • 没有标准答案的科目(如常识、未来预测、事实判断): 如果题目是“明天会下雨吗?”或者“某件历史事实是真的吗?”,没有老师能立刻告诉你谁对谁错。这时候,大家想出一个办法:“既然我们不确定,那就让全班 100 个人都写答案,谁写得最多,我们就信谁(投票机制)。”

这篇论文发现了一个残酷的真相:
这群学生并不是来自不同的学校、有着不同的人生经历。相反,他们都在同一本教科书(重叠的训练数据)上学习,被同一个老师(相似的优化目标)教导,甚至穿着同样的校服(相似的架构)。

结果就是:他们不仅会做对题,更会一起做错同样的题。
如果全班 100 个人都因为“记错了”而选了错误的答案 C,那么投票结果就是 100% 选 C。这时候,投票不仅没有纠正错误,反而放大了错误,让大家觉得“既然 100 个人都选 C,那 C 肯定是对的”,从而产生了一种虚假的自信

2. 为什么“自信”没用?

论文里还测试了另一种方法:让学生自己打分,“我有多确定这个答案是对的?”(置信度)。

  • 直觉: 我们以为,如果一个学生非常自信,那他大概率是对的。
  • 现实: 论文发现,这些模型越自信,往往只是意味着“我和其他同学想得越一样”。
    • 比喻: 就像一个人在聚会上大声说:“我觉得大家都觉得这道题选 A!”他其实不是在说“我知道 A 是对的”,而是在说“我知道大家都会选 A"。
    • 模型非常擅长预测别人会说什么(社交预测),但非常不擅长判断什么是真理(真理验证)。当大家都错了,那个声音最大、最自信的人,往往就是错的领头人。

3. 最有趣的实验:乱码测试

为了证明这种“一起犯错”不是因为大家背了同样的书(共享知识),研究者做了一个疯狂的实验:

  • 实验: 给模型看一串毫无意义的乱码(比如 gP%!mdq4k!'q=T/rp˜j),然后问他们:“这串乱码代表 A、B、C 还是 D?”
  • 结果: 既然题目本身没有正确答案,大家的回答应该是随机的。但研究发现,不同的模型在面对这些乱码时,竟然也倾向于选同一个字母
  • 含义: 这说明模型之间的“同步”不是因为记住了知识,而是因为他们的大脑结构(权重)和思维方式(归纳偏差)太像了。就像一群长得一模一样的双胞胎,即使面对完全陌生的情况,他们的第一反应也是一样的。

4. 结论:投票不能代替“验钞机”

这篇论文给现在的 AI 发展划了一条清晰的界限:

  • 在有“验钞机”(外部验证器)的地方: 比如写代码、做数学题,我们可以让 AI 多试几次,然后让机器去检查哪次是对的。这时候,增加算力(多试几次)非常有用。
  • 在没有“验钞机”的地方: 比如判断新闻真假、预测未来、回答常识问题,单纯地让 AI 多试几次、多投票,是行不通的。
    • 如果你没有外部工具(比如搜索互联网、调用数据库、让人类专家确认)来打破这种“集体幻觉”,那么无论让多少个模型聚在一起,他们只会互相强化彼此的偏见和错误

总结

这就好比你想判断一个谣言是不是真的。

  • 错误的做法: 找 100 个朋友,问他们“这谣言是真的吗?”,然后看谁说得最多就信谁。如果这 100 个朋友都听信了同一个错误的源头,那结果就是 100% 的人相信谣言。
  • 正确的做法: 去找一个能查证的渠道(比如官方通报、原始数据),或者找一群完全不懂这个圈子、信息来源完全不同的人来交叉验证。

这篇论文告诉我们:在 AI 的世界里,人多不一定力量大,除非大家能互相“纠错”而不是互相“附和”。如果没有外部的“真理检验器”,AI 的集体智慧可能只是一场集体幻觉。