Believing vs. Achieving -- The Disconnect between Efficacy Beliefs and Collaborative Outcomes

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣且普遍的现象：当我们和人工智能（AI）一起工作时，我们“心里怎么想”和“实际怎么做”之间往往存在巨大的脱节。

简单来说，就是**“相信”与“做到”之间的错位**。

为了让你更容易理解，我们可以把这篇研究想象成一场**“人类与 AI 的篮球比赛”**。

1. 核心故事：我们以为我们懂，其实我们没懂

想象一下，你（人类）和一个超级厉害的 AI 教练组队打篮球。比赛规则很简单：每遇到一个对手，你们俩必须决定**“谁来投这个球”**。是你自己投，还是把球传给 AI 投？

赛前（一般效能信念）： 比赛开始前，你会对自己说：“我觉得我投篮挺准的（自我效能）”，也会觉得"AI 教练虽然强，但也不是万能的（AI 效能）”。这是你的**“总体印象”**。
赛中（实例判断）： 比赛开始了，面对每一个具体的对手（比如一个矮个子防守者），你需要瞬间决定：“这次我能投进吗？”或者“这次 AI 投更稳吗？”这是你的**“临场判断”**。

研究发现了一个惊人的现象：
虽然你在赛前对自己和 AI 有清晰的“总体印象”，但在面对每一个具体的球时，你的临场判断完全变了样：

对自己： 你觉得自己“临场”的表现和“总体”印象差不多，很稳定。
对 AI： 你发现了一个奇怪的**"AI 乐观主义”。每当面对具体的球时，你总觉得“这次 AI 肯定能投进！”**，哪怕你之前觉得 AI 也就那样。你总是高估 AI 在具体时刻的能力。

2. 实验是怎么做的？（简单的“投篮游戏”）

研究人员找来了 240 个人，让他们玩一个**“猜收入”**的游戏（判断一个人年收入是否超过 5 万美元）。

任务： 每次看到一个新人的资料（年龄、学历、工作等），你要决定：是自己猜，还是让 AI 猜？
变量（给不同的“情报”）：
- A 组（无情报）： 啥也不给，凭感觉。
- B 组（数据情报）： 告诉你这类人的收入分布规律（比如“高学历的人通常收入高”）。
- C 组（AI 情报）： 告诉你 AI 在什么情况下猜得准，什么情况下会翻车。
- D 组（全情报）： 上面都给。

3. 他们发现了什么？（三个关键发现）

发现一：心里的“锚”太沉了

你的**“总体印象”就像船上的“锚”**。

当你面对具体任务时，你的自我感觉（我觉得我行）非常顽固，很难被新情报改变。哪怕给了你数据，你依然觉得“我肯定行”。
但是，你对AI 的感觉却很容易变。特别是当你看到 AI 的具体表现数据时，你的“总体印象”会被修正。

发现二：奇怪的"AI 乐观症”

这是最有趣的部分。

在没有具体情报时，大家普遍觉得 AI 在每一次具体任务中都比总体上更强。
比喻： 就像你觉得“这个 AI 教练平时也就 80 分”，但每次他上场前，你都觉得“这次他肯定能拿 100 分！”
只有当你看到了 AI 具体的失败案例（AI 情报）时，这种盲目的乐观才会消失。如果你只看到数据规律（数据情报），这种乐观依然存在。

发现三：情报越多，动作越“飘”，但成绩没变好

这是最反直觉的结论。

当你有了情报（无论是数据还是 AI 表现），你做决定的速度和对 AI 的信任度变化得更剧烈了。
- 如果你觉得自己这次不行，你会更果断地把球传给 AI。
- 如果你觉得自己这次行，你会更固执地自己投。
但是！ 这种“果断”并没有让你们的**团队得分（准确率）**变高。
比喻： 就像教练给了你战术板（情报），你变得更有主见了，传球更果断，或者自己投得更坚决了。结果呢？球进得还是那么多，甚至因为你的“过度自信”或“过度依赖”，反而没比瞎猜好多少。

4. 这意味着什么？（给设计师的启示）

这篇论文告诉我们，现在的 AI 设计太迷信**“透明度”**了。

现状： 设计师认为，只要把 AI 怎么工作的、数据长什么样都展示给用户（给情报），用户就会做出最完美的决定。
真相： 并不是。给情报确实能改变你的行为（让你更频繁地切换谁来做决定），但并没有让你变聪明。你依然会被心里的“锚”和"AI 乐观症”带偏。

论文提出的建议（给未来的 AI 设计师）：

别只盯着单次决定： 不要只想着怎么帮用户做“这一个”决定。要帮用户调整**“长期的心态”**。比如，告诉用户：“你刚才太自信了，其实你经常看走眼。”
戳破"AI 乐观”的泡沫： 当用户觉得"AI 这次肯定行”的时候，系统要提醒：“等等，AI 在这种情况下的历史表现其实一般。”
把“理解”和“行动”分开： 给用户看复杂的数据是为了让他们理解AI 的局限性（校准心态），但在真正做决定时，要给他们更简单、更直接的指引，而不是让他们在复杂的信息里自己瞎琢磨。

总结

这篇论文就像是在说：
“我们人类太容易在关键时刻高估 AI 的能力，同时又太固执地相信自己的直觉。哪怕给了你再多说明书（情报），你依然会按照自己的老习惯行事，而且这种行事方式并不一定能带来最好的结果。”

所以，未来的 AI 不仅要**“透明”（把底牌亮出来），更要“引导”**（帮你纠正那些根深蒂固的错觉），才能让我们和 AI 真正成为默契的队友。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Believing vs. Achieving — The Disconnect between Efficacy Beliefs and Collaborative Outcomes》（相信与达成——效能信念与协作结果之间的脱节）的详细技术总结。

1. 研究问题 (Problem)

随着人工智能（AI）日益融入工作流，人类需要决定何时依赖 AI 建议。现有的研究多关注信任（Trust）或信心（Confidence），但较少深入探讨**效能信念（Efficacy Beliefs）**在协作中的具体作用机制。

本研究旨在解决以下核心问题：

信念锚定效应： 人类在任务前形成的一般效能信念（General Efficacy Beliefs，即对自己能力的自我效能感和对 AI 能力的 AI 效能感）如何作为认知锚点，影响任务执行过程中的实例级效能判断（Instance-wise Efficacy Judgments）？
情境信息的调节作用： 不同类型的情境信息（如数据分布信息、AI 性能信息）如何调节一般信念向实例判断的转化？
行为与绩效的脱节： 效能信念的差异（Discrepancies）如何影响人类的委托行为（Delegation Behavior），这种影响是否真正转化为人机团队绩效（Collaborative Outcomes）的提升？

2. 方法论 (Methodology)

研究采用了一项受控的行为实验（N=240），通过 2x2 因子设计来操纵情境信息。

任务设置：
- 任务类型： 收入分类任务（判断个人年收入是否超过 5 万美元）。
- 数据集： 基于美国社区调查（ACS）数据，选取了 4 个关键特征（年龄、教育、职业、工作时长）。
- AI 系统： 使用决策树分类器，在验证集上准确率为 77%。
- 交互模式： **委托（Delegation）**模式。参与者需决定是亲自解决实例，还是将实例委托给 AI。
实验设计（2x2 因子）：
参与者被随机分配到四个组，区别在于提供的情境信息不同：
1. 控制组 (Control)： 无额外情境信息。
2. 数据组 (Data)： 提供特征分布数据（关于任务本身的信息）。
3. AI 组 (AI)： 提供 AI 在不同特征下的性能表现信息（关于 AI 能力的信息）。
4. 组合组 (Combined)： 同时提供数据分布和 AI 性能信息。
流程：
1. 任务介绍与知识启用： 参与者接触分配的情境信息（需通过理解检查）。
2. 一般效能信念评估： 在任务前，参与者评估其“一般自我效能感”和“一般 AI 效能感”。
3. 委托决策阶段： 参与者处理 12 个随机实例。对每个实例，他们评估“实例级自我效能”和“实例级 AI 效能”，并做出委托决定。注意：此阶段不提供反馈。
4. 独立分类阶段： 参与者亲自重新分类所有 12 个实例，以建立人类单独表现的基线。
5. 后测问卷： 收集人口统计学数据和反馈。
测量指标：
- 效能差异 ( $\Delta$ )： 实例级判断与一般信念之间的差值（ $\Delta = \text{Instance} - \text{General}$ ）。
- 委托率： 委托给 AI 的比例。
- 团队绩效： 基于委托决策的正确率（即：委托且 AI 正确，或自己解决且人类正确）。
统计模型： 使用混合效应逻辑回归模型分析委托行为和绩效，将效能差异作为自变量，情境信息作为调节变量。

3. 主要发现与结果 (Key Results)

3.1 一般信念对实例判断的锚定作用 (RQ1)

自我效能 (Self-Efficacy)： 表现出高度校准。实例级自我效能判断与一般自我信念高度一致，没有显著偏差。自我效能信念充当了稳定的认知锚点。
AI 效能 (AI Efficacy)： 表现出系统性乐观偏差 (Systematic AI Optimism)。在大多数条件下，参与者对具体实例的 AI 能力评估显著高于其一般信念（平均高出约 10%）。
- 例外： 只有AI 性能信息组成功消除了这种乐观偏差；数据组和组合组仅减弱但未消除该偏差。

3.2 情境信息的调节作用 (RQ2)

自我效能： 情境信息无法显著调节一般自我信念对实例判断的影响。无论提供何种信息，自我效能信念都保持稳定并预测实例判断。
AI 效能： 组合信息（数据+AI 性能）显著减弱了一般 AI 信念对实例判断的预测力，表明丰富的信息有助于人们根据具体情况调整对 AI 的看法，而非依赖先验假设。

3.3 委托行为与绩效的脱节 (RQ3)

对委托行为的影响： 效能差异对委托决策有显著影响。
- 当实例级自我效能低于一般信念时，人们更倾向于委托。
- 当实例级 AI 效能高于一般信念时，人们更倾向于委托。
- 不对称放大效应： 情境信息放大了效能差异对委托行为的影响。即，有了信息后，人们更敏感地根据效能差异调整委托策略。
对团队绩效的影响： 关键发现是“脱节”。
- 效能差异对委托行为的影响幅度远大于对实际绩效的影响。
- 虽然情境信息改变了人们的委托策略（行为），但这种改变并未转化为绩效的显著提升。
- 自我效能差异甚至与较差的团队绩效相关（表明人们在不该保留控制权时保留了控制权）。

4. 核心贡献 (Key Contributions)

理论框架创新： 首次明确区分并实证研究了一般效能信念（任务前）向实例级效能判断（任务中）的动态转化过程，揭示了这种转化中的“锚定效应”和“不对称性”。
揭示“实例级 AI 乐观”偏差： 发现人类在评估具体任务实例时，倾向于高估 AI 的能力，这种偏差不同于一般的信任问题，且难以通过单纯的数据信息消除，唯有具体的 AI 性能反馈有效。
挑战透明度范式： 挑战了 HCI 领域普遍认为“提供更多情境信息（透明度）就能改善协作”的假设。研究发现，信息虽然能校准信念并改变行为，但往往放大了基于直觉的偏差，导致行为改变并未带来绩效提升（即“相信”与“达成”的脱节）。
设计指南： 提出了针对人机协作系统的设计建议，强调不仅要关注单次决策的透明度，更要关注如何校准用户的基础信念。

5. 意义与设计建议 (Significance & Implications)

该研究对 AI 辅助决策系统的设计具有深远意义，提出了以下设计原则：

使锚定偏差可见 (Make Anchoring Bias Visible)： 系统应帮助用户识别他们对自己能力的过度自信或低估，通过反馈展示其效能模式与实际结果的对比。
针对基础信念而非仅针对决策 (Target Foundational Beliefs)： 传统的透明度设计（如解释单个决策）可能治标不治本。干预措施应在任务开始前针对用户的一般自我效能和AI 效能信念进行校准。
暴露 AI 乐观模式 (Expose AI Optimism Patterns)： 系统应明确指出用户在特定实例中对 AI 能力的评估是否系统性地高于 AI 的实际表现，以纠正“实例级乐观”。
对齐决策与结果 (Align Decisions with Outcomes)： 建立反馈机制，让用户看到其基于效能的委托行为是否偏离了最优绩效路径，从而校准元认知评估。
分离校准与决策支持 (Separate Calibration from Decision Support)： 区分用于“理解系统”的丰富信息（用于校准信念）和用于“实际决策”的简化辅助工具。避免过多的信息导致用户过度依赖直觉偏差。

总结：
这篇论文揭示了人类在与 AI 协作时，其信念系统（相信）与实际表现（达成）之间存在深刻的脱节。人类倾向于将一般信念作为锚点，且对 AI 在具体实例上的能力存在系统性高估。虽然提供情境信息可以改变人们的委托行为，但这种改变往往是基于被放大的直觉偏差，并未带来实质性的绩效提升。未来的 AI 系统设计不能仅停留在提供透明度，而需要主动引导用户校准其基础信念，以实现真正有效的人机协作。