Do LLMs Share Human-Like Biases? Causal Reasoning Under Prior Knowledge, Irrelevant Context, and Varying Compute Budgets

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一场**“人类直觉 vs. AI 逻辑”的侦探大赛**。

想象一下，你正在玩一个**“找原因”的侦探游戏**。游戏里有一个简单的规则：两个独立的因素（比如“下雨”和“洒水器开了”）都会导致同一个结果（比如“草地湿了”）。

这篇论文研究了当人类和大型语言模型（LLM，也就是现在的 AI）面对这种侦探游戏时，它们是怎么思考的？它们会犯同样的错误吗？当游戏变得混乱或模糊时，它们还能保持理智吗？

以下是用大白话和生动的比喻对这篇论文的解读：

1. 核心实验：侦探游戏（Collider 结构）

研究人员设计了一个经典的逻辑陷阱，叫做**“对撞机结构”**。

场景：草地湿了（结果 E）。
原因：可能是下雨了（C1），也可能是洒水器开了（C2）。
规则：下雨和开洒水器本来是互不相关的（独立事件）。
陷阱：如果你发现草地湿了，而且你确定是下雨了，那么洒水器开着的概率就会降低（因为不需要洒水器也能解释草地湿了）。这在逻辑上叫“解释消除”（Explaining Away）。

人类通常怎么想？
人类侦探往往不完美。我们容易犯两个错：

解释消除太弱：即使知道下雨了，我们还是会觉得“也许洒水器也开了”，很难完全排除另一个原因。
乱关联（马尔可夫违规）：我们会莫名其妙地觉得，如果下雨了，洒水器就“可能”也开了，仿佛这两个原因之间有某种神秘的联系，尽管它们本来没关系。

2. AI 的表现：像“死板”的优等生

研究人员测试了 20 多个不同的 AI 模型，发现它们的表现非常有趣：

AI 不像人类，它们更像“规则机器”：
人类会想：“虽然规则这么说，但现实中可能还有别的未知因素（比如有人泼水）。”所以人类会留有余地。
但 AI 更像是一个严格遵守说明书的机器人。如果规则说“只有这两个原因”，AI 就只考虑这两个。它们很少像人类那样去猜测“没提到的背景因素”。
- 比喻：人类是**“老练的侦探”，会怀疑“是不是还有第三个嫌疑人没被提到？”；AI 是“刚入职的实习生”**，只敢按手头的线索办事，不敢越雷池一步。
AI 没有人类的“老毛病”：
令人惊讶的是，虽然 AI 是在人类写的书上训练的，但它们并没有染上人类那种“乱猜”的毛病。
- 在“解释消除”上，AI 做得比人类更彻底、更理性（一旦确定是下雨，就坚决认为洒水器没开）。
- 在“乱关联”上，AI 严格遵守逻辑，不会因为下雨就瞎猜洒水器也开了。

3. 当游戏变难时：AI 会晕吗？

研究人员给 AI 出了两道难题，看看它们会不会“翻车”：

抽象化：把“下雨”、“洒水器”换成一堆乱码（比如"u8jzPde0Ig"）。
信息过载：在题目里塞进一堆无关的废话（比如把天气故事和经济学故事混在一起）。

结果发现：

有些 AI 会晕：当题目变得抽象或充满噪音时，很多 AI 的逻辑就乱了，开始胡言乱语。
有些 AI 很稳：比如最新的 Gemini-2.5-pro，不管题目怎么变，它都能稳如泰山，像个**“超级冷静的外科医生”**，不受干扰。
人类 vs. AI 的互补性：如果我们需要一个不受偏见干扰、严格按规则办事的助手，AI 很棒；但如果我们需要一个能在信息不全时灵活猜测的助手，人类可能更擅长。

4. 神奇的“思维链”（Chain-of-Thought）

研究人员发现了一个让 AI 变聪明的秘诀：让 AI 先“思考”再回答。

直接问：AI 可能直接蹦出一个数字，容易出错。
让 AI 一步步推理（CoT）：当要求 AI 写出“因为 A，所以 B，因此 C"的过程时，它的表现会大幅提升，变得更像人类，也更稳健，甚至能抵抗那些无关废话的干扰。
比喻：这就像让一个**“直觉型选手”（直接回答）变成“深思熟虑的学者”**（一步步推导），后者显然更靠谱。

5. 总结：这对我们意味着什么？

AI 不是人类的克隆体：虽然 AI 读了人类写的书，但它们的“大脑”运作方式和我们不同。它们更像一个逻辑严密的计算器，而不是一个充满直觉和偏见的普通人。
AI 的优缺点：
- 优点：在需要严格遵守规则、不受情绪和偏见影响的场景（比如法律初审、医疗数据筛查），AI 可能比人类更可靠。
- 缺点：在现实世界中，情况往往很模糊，充满了“没提到的因素”。这时候，AI 那种“死板”的逻辑可能会失效，因为它不懂得像人类那样去“脑补”那些未知的可能性。
未来的方向：我们需要了解 AI 到底是怎么思考的，才能安全地把它们用在关键领域。最好的模式可能是**“人类 + AI"搭档**：人类负责处理模糊和直觉，AI 负责处理逻辑和规则。

一句话总结：
这篇论文告诉我们，AI 在逻辑推理上是个**“死板但聪明”的优等生**，它不会像人类那样犯直觉错误，但也缺乏人类那种在混乱中灵活变通的“街头智慧”。要想用好它，得学会怎么引导它（比如让它多思考几步），并知道什么时候该让它上场，什么时候该自己来。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 研讨会（HCAIR）的论文，题为《大语言模型是否共享人类般的偏见？基于先验知识、无关上下文和不同计算预算的因果推理》（Do LLMs Share Human-like Biases? Causal Reasoning Under Prior Knowledge, Irrelevant Context, and Varying Compute Budgets）。

以下是对该论文的详细技术总结：

1. 研究问题 (Problem)

随着大语言模型（LLMs）在法律、医疗等需要因果推理的高风险领域的应用日益广泛，核心问题在于：LLMs 的因果判断是反映了规范的因果计算、人类式的启发式捷径（偏见），还是脆弱的模式匹配？

具体而言，研究旨在回答：

人类对比： LLMs 是否会重现人类在因果推理中特有的系统性偏差（如“解释消除”效应弱、违反马尔可夫条件）？
机制分析： LLMs 的推理行为能否被小型的、可解释的规范因果模型（如因果贝叶斯网络）所压缩和解释？
鲁棒性： 在语义抽象（去除先验知识）和提示过载（注入无关文本）等干扰下，LLMs 的因果推理是否稳健？

2. 方法论 (Methodology)

2.1 基准任务与人类基线

任务结构： 基于经典的对撞机（Collider）结构 $C1 \rightarrow E \leftarrow C2$ 。变量为二值，原因 $C1$ 和 $C2$ 相互独立，共同影响结果 $E$ 。
数据来源： 复现了 Rehder & Waldmann (2017) 的实验，包含 11 个不同的条件概率推理任务（I-XI），涵盖社会学、天气、经济三个领域。
人类基线： 使用 48 名纽约大学本科生的数据作为基准。由于任务未指定具体的先验概率和因果强度，因此没有唯一的“正确答案”，重点在于评估推理策略的一致性和定性模式。

2.2 实验设置

模型范围： 评估了 20+ 个 LLMs（包括 GPT 系列、Claude 系列、Gemini 系列等）。
提示策略：
- 直接提示 (Direct Prompting)： 直接要求输出 0-100 的概率数值。
- 思维链 (Chain-of-Thought, CoT)： 要求模型先“逐步思考”再输出数值。
鲁棒性测试条件 (2x2x2 设计)：
1. 先验知识： 原始故事（RW17）vs. 抽象变体（变量名替换为随机字符串，消除现实世界知识依赖）。
2. 信息负载： 原始提示 vs. 过载提示 (Overloaded)（在提示中注入无关文本，降低信噪比，模拟干扰）。
3. 提示方式： 直接 vs. CoT。
- 共形成 8 种实验条件。

2.3 分析指标

可解释模型拟合： 使用带有泄漏噪声或门（Leaky Noisy-OR）参数化的因果贝叶斯网络 (CBN) 来拟合 LLMs 的概率判断。
关键指标：
- 背景调整因果强度 (BACS)： 衡量模型是严格遵循给定的因果规则（高 BACS），还是倾向于归因于未提及的潜在因素（低 BACS）。
- 解释消除 (Explaining Away, EA)： 衡量当已知一个原因存在时，对另一个原因信念的降低程度。
- 马尔可夫违规 (Markov Violation, MV)： 衡量在没有结果证据时，对原因的信念是否错误地依赖于另一个原因（人类常犯此错误）。
- 泛化能力： 使用留一交叉验证 (LOOCV) 的 $R^2$ 评估 CBN 模型在未见任务上的拟合度。

3. 主要结果 (Key Results)

3.1 人类与 LLM 的对齐与合理性

合理性： LLMs 和人类都能做出合理的判断（即原因越多，结果发生的概率越高）。
对齐度： 在直接提示下，部分模型与人类对齐度较低；引入 CoT 后，许多模型与人类判断的对齐度（Spearman $\rho$ ）显著提升，最高可达 0.85。

3.2 可解释模型拟合 (Q2)

高度可压缩： 大多数 LLMs 的因果判断可以被小型的 CBN 模型很好地拟合（低 MAE）。
CoT 的作用： CoT 提示显著降低了拟合误差，并提高了 CBN 在未见任务上的泛化能力（LOOCV $R^2$ 提升），特别是在噪声干扰条件下。这表明 CoT 有助于模型应用更一致的因果推理策略。

3.3 规则遵循 vs. 潜在因素归因 (Q3)

更严格的规则遵循者： 大多数 LLMs 表现出比人类更高的因果规则忠实度（高 BACS）。它们倾向于严格依赖给定的因果链接，较少考虑未提及的潜在背景因素。
人类特征： 人类更倾向于“开放世界”假设，认为给定的原因可能不足以解释结果，从而归因于潜在因素（低 BACS）。
CoT 的影响： CoT 有时会使模型更严格地遵循规则，但在某些情况下也会使模型向人类基准靠拢。

3.4 偏见特征：解释消除与马尔可夫违规 (Q4)

这是本研究最显著的发现，LLMs 并未重现人类典型的对撞机偏见：

解释消除 (EA)： 人类通常表现出弱解释消除（即知道一个原因后，对另一个原因的信念降低不明显）。相反，大多数 LLMs 表现出强解释消除，符合规范因果推理。
马尔可夫违规 (MV)： 人类经常违反马尔可夫条件（即原因之间表现出错误的依赖）。大多数 LLMs 表现出马尔可夫合规性（原因之间保持独立），只有少数模型在过载条件下表现出类似人类的偏差。
结论： 尽管 LLMs 在人类文本上训练，但它们并未继承人类在因果推理中的特定启发式偏差。

3.5 鲁棒性 (Q5)

模型依赖性： 鲁棒性高度依赖于具体模型。
- Gemini-2.5-pro 在所有 8 种条件下表现出极高的稳定性（聚类紧密），几乎不受内容抽象或无关文本干扰。
- 较小/较旧的模型（如 Gemini-2.5-flash-lite）对提示变化敏感，但在 CoT 提示下，其内容不变性（Robustness）显著增强，聚类更紧密。
CoT 的稳健性提升： CoT 通常能减少模型在不同实验条件下的行为差异，使其推理更加稳定。

4. 主要贡献 (Contributions)

大规模基准评估： 在 20+ 个 LLMs 上进行了基于人类基线的因果推理评估，超越了以往仅评估少数模型的研究。
发现偏差差异： 明确指出了 LLMs 与人类在因果推理上的关键差异——LLMs 更倾向于规范的、规则式的推理，而缺乏人类特有的“弱解释消除”和“马尔可夫违规”等启发式偏差。
可解释性分析： 证明了 LLMs 的复杂推理行为可以被小型的、基于贝叶斯的因果模型有效压缩和解释。
鲁棒性洞察： 揭示了 CoT 提示在提升 LLMs 抗干扰能力和推理一致性方面的作用，并展示了不同模型在内容抽象和噪声下的表现差异。
开源资源： 发布了 LLM 友好的因果推理基准（包含人类基线）以及支持结构匹配提示和内容操纵的软件包 CAUSAIIGN。

5. 意义与启示 (Significance)

互补性： 由于 LLMs 不复制人类的特定认知偏差，它们在需要避免人类启发式错误的场景（如法律判决、医疗诊断）中可以作为人类的有力补充。
局限性警示： LLMs 的“规则式”推理在不确定性固有（即现实世界中存在大量未提及因素）的场景下可能过于僵化，导致失败。
部署建议： 在将 LLMs 部署到高风险领域前，必须深入表征其推理策略。CoT 提示是一种有效的工具，可以增强推理的稳健性和一致性。
理论价值： 该研究展示了贝叶斯认知模型与大规模神经网络模型的互补性，前者可作为后者的计算级目标，帮助诊断和理解神经网络的智能行为。

总结： 该论文表明，LLMs 在因果推理中表现出比人类更“规范”和“规则化”的特征，缺乏人类常见的认知偏差。虽然这使其在某些任务上更可靠，但也意味着它们在处理开放世界的不确定性时可能缺乏灵活性。CoT 提示是提升其推理鲁棒性的关键手段。