Failing to Falsify: Evaluating and Mitigating Confirmation Bias in Language Models

该论文通过 Wason 选择任务变体证实大语言模型存在确认偏误,并发现通过提示引导考虑反例及行为蒸馏等干预手段能有效缓解该偏误,显著提升规则发现率并泛化至新任务。

Ayush Rajesh Jhaveri, Anthony GX-Chen, Ilia Sucholutsky, Eunsol Choi

发布于 2026-04-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题:大型语言模型(LLM,也就是现在的 AI)会不会像人类一样,犯“确认偏误”(Confirmation Bias)的错误?

简单来说,就是 AI 是不是也只会找那些“支持自己观点”的证据,而故意忽略那些“能推翻自己观点”的证据?

为了让你更容易理解,我们可以把这篇论文的研究过程想象成一场**“猜数字游戏”“侦探破案”**。

1. 核心概念:什么是“确认偏误”?

想象一下,你正在玩一个猜谜游戏。

  • 规则:我脑子里想了一个关于数字的规律(比如“数字必须是偶数”或者“数字必须越来越大”)。
  • 你的任务:你每次猜三个数字,我会告诉你“对”或“错”。你要猜出我脑子里的规律是什么。

人类(和 AI)容易犯的错误:
如果你猜“规律是偶数”,然后你试了 [2, 4, 6],我说“对”。
这时候,确认偏误就出现了:你会想“看!我就知道是偶数!”然后继续试 [8, 10, 12],我说“对”。你越试越觉得“没错,肯定是偶数”。
但真相可能是:规律其实是“数字必须越来越大”。[2, 4, 6][8, 10, 12] 既符合“偶数”也符合“越来越大”。你一直在找支持“偶数”的证据,却不敢去试 [1, 2, 3](这是奇数,但符合“越来越大”)。如果你试了 [1, 2, 3] 我说“对”,你就知道“偶数”这个猜测是错的,从而能更快找到真相。

结论:只找支持自己的证据(确认),就像戴着眼罩开车;去找能推翻自己的证据(证伪),才是真正聪明的侦探。

2. 研究发现:AI 也会“戴眼罩”

研究人员让 11 种不同的 AI 模型玩这个“猜数字游戏”。

  • 结果:AI 果然像人类一样,陷入了确认偏误。它们倾向于不断提出符合自己当前猜测的数字组合,而很少去尝试那些能“打脸”自己猜测的组合。
  • 后果:因为不敢“证伪”,AI 猜对规则的速度很慢,甚至经常猜错。
  • 好消息:那些拥有“思考模式”(能像人类一样一步步推理)的 AI,表现更好,偏误更少。

3. 如何治疗 AI 的“偏执”?(干预策略)

既然知道 AI 病了,研究人员就开出了两剂从人类心理学中学来的“药方”:

  • 药方一:反向思考(Think-in-Opposites)

    • 比喻:就像教练对侦探说:“别光想怎么证明你的嫌疑人有罪,专门想想怎么证明他是无辜的,或者找一些完全相反的特征去测试。”
    • 效果:给 AI 加上这个指令后,它们开始主动尝试那些“反直觉”的数字组合。结果,猜对规则的概率从 42% 提升到了 56%
  • 药方二:双重目标(Dual-Goal)

    • 比喻:让侦探同时猜两个规则:一个是“真规则”,另一个是“假规则”(即真规则的反面)。
    • 效果:这迫使 AI 必须同时考虑正反两方面的证据,从而减少了盲目确认。

4. 终极方案:把“药”吃进肚子里(蒸馏)

上面的药方虽然有效,但每次都要给 AI 读一遍指令(Prompt),有点麻烦。研究人员想:能不能让 AI 把这种“反向思考”的能力直接学进脑子里,以后不用提醒也能做到?

  • 方法:他们让一个聪明的 AI(老师)在“反向思考”指令下玩游戏,然后把它的解题过程(包括它如何提出反例)记录下来,用来训练一个普通的 AI(学生)。这叫做**“知识蒸馏”**。
  • 结果
    1. 被训练过的 AI,即使不再给指令,也学会了主动寻找“反例”。
    2. 举一反三:最神奇的是,当把这些在“数字游戏”中学会了“不偏执”的 AI,放到一个全新的**“物体探测游戏”**(Blicket Test,比如判断哪些积木能让机器启动)中时,它们依然表现得更好!
    3. 这说明,AI 真的学会了“如何科学地思考”,而不仅仅是记住了答案。

5. 总结与启示

这篇论文告诉我们:

  1. AI 不是完美的:它们也会像人类一样,陷入“只听好话”的思维陷阱,导致推理能力下降。
  2. 心理学的力量:人类心理学中用来克服偏见的老办法(比如“试着反驳自己”),对 AI 同样有效。
  3. 未来的方向:我们可以通过训练,让 AI 内化这种“批判性思维”,让它们在未来的科学发现、逻辑推理等任务中,变得更像真正的“科学家”,而不是只会附和的“应声虫”。

一句话总结
研究人员发现 AI 也会“固执己见”,于是教它们学会“自我打脸”(主动寻找反例)。结果证明,这种“自我纠错”的能力不仅能让 AI 在猜谜游戏中获胜,还能让它们在面对全新挑战时,变得更聪明、更灵活。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →