Not All Trust is the Same: Effects of Decision Workflow and Explanations in Human-AI Decision Making

该研究通过对比不同决策流程、解释机制及用户背景对人机协作决策的影响,发现两步式流程并未显著降低过度依赖,且自我报告的信任与行为上的信任是需分别评估的独立构念。

Laura Spillner, Rachel Ringe, Robert Porzel, Rainer Malaka

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个我们日常生活中越来越常见的问题:当我们让 AI 帮我们做决定时,我们该如何“信任”它?

想象一下,你正在玩一个游戏,AI 是你的“副驾驶”。有时候 AI 很准,有时候它会胡说八道(比如幻觉)。我们的目标是找到一种“刚刚好”的信任:AI 对的时候听它的,AI 错的时候我们要能识破它。

这篇研究就像是一场**“信任实验室”**,科学家们设计了不同的游戏规则,看看哪种方式能让我们既不盲目迷信 AI,也不顽固地拒绝好建议。

以下是这篇论文的通俗解读:

1. 核心实验:两种“副驾驶”模式

研究者把参与者分成两组,让他们在一个模拟的“大学学生支持办公室”里做决定(比如判断某个学生会不会退学)。他们使用了两种不同的工作流程

  • 模式 A(一步到位): 你刚看到学生资料,AI 马上就把它的建议(“会毕业”或“会退学”)和理由甩在你脸上。你直接看,然后做决定。
    • 比喻: 就像你刚想出门,朋友立刻说:“别去,外面下雨!”你直接听他的。
  • 模式 B(两步走): 你看到资料后,必须先自己先做一个决定,提交之后,AI 才跳出来说:“嘿,我觉得应该是……"然后你可以选择坚持自己的,或者改听 AI 的。
    • 比喻: 就像你先自己查了天气预报,心里有了底,然后朋友才说:“我觉得要下雨。”这时候你再决定要不要改主意。

研究者的初衷: 以前有人觉得“模式 B"更好,因为它强迫你先思考,防止你太依赖 AI(也就是防止“过度信任”)。

2. 实验发现:意想不到的反转

发现一:嘴上说的 vs. 实际做的(信任与依赖是两码事)

研究者发现,“我觉得我信任 AI"(口头报告)和“我实际上听了 AI 的话”(行为依赖)之间,关系很弱。

  • 比喻: 这就像一个人嘴上说“我特别相信我的导航仪”,但每次遇到路口他还是习惯性地自己看路标。或者反过来,他嘴上说“我不信这破导航”,但每次还是乖乖跟着导航走。
  • 结论: 别光问用户“你信任 AI 吗?”,要看他们实际上有没有听 AI 的。这两者不能混为一谈。

发现二:“两步走”并没有让人更清醒,反而让人更盲从!

这是最让人惊讶的结果。研究者原本以为“模式 B"(先自己思考,再看 AI)能让人更独立,结果发现:

  • 在“模式 B"下,人们反而更容易盲目听从错误的 AI 建议(过度依赖)。
  • 比喻: 想象一下,你先自己费力地想了一个答案,然后 AI 跳出来给了个答案。这时候,你反而觉得:“既然我都想这么久了,AI 又这么自信,那肯定是 AI 对,我刚才想错了。”于是你更容易被 AI 带偏,哪怕 AI 是错的。
  • 结论: 强迫你先思考,并没有减少盲从,反而可能让你更想“修正”自己的直觉去迎合 AI。

发现三:解释(理由)是个“双刃剑”,取决于流程

AI 如果给出理由(比如“因为该生挂科多”),效果如何?

  • 在**“模式 A"(一步到位)中,给理由反而让人的信任度稍微下降**了一点点。
  • 在**“模式 B"(两步走)中,给理由却让人的信任度大幅上升**。
  • 比喻: 这就像厨师做菜。如果你先尝了一口(模式 B),厨师再解释“我加了点秘制香料”,你会觉得“哇,这解释太合理了,真好吃”;但如果你还没尝,厨师就在那喋喋不休解释香料,你可能会觉得“太啰嗦了,甚至怀疑是不是为了掩盖味道不好”。
  • 结论: 同样的“解释”,在不同的流程下,效果完全相反。不能一概而论。

发现四:懂行的人 vs. 外行

  • 懂行的人(有领域知识): 在“模式 B"中,他们更信任 AI,因为 AI 的解释验证了他们的想法。
  • 外行(不懂领域): 他们不管在哪种模式下,信任度都差不多,或者稍微低一点,但他们的行为(听不听 AI)并没有因为懂不懂行而有太大区别。

3. 这对我们设计 AI 有什么启示?

这篇论文给开发者和设计师敲了警钟:

  1. 别搞“一刀切”: 没有一种万能的工作流程(比如“先自己思考再看 AI")能解决所有问题。有时候它反而让人更盲目。
  2. 别只问“你信不信”: 要设计实验去观察用户实际上是怎么做的(比如他们改不改主意),而不仅仅是发问卷问他们“你信任吗”。
  3. 流程决定解释的效果: 如果你想加 AI 解释,得先想好你的流程是“一步”还是“两步”。在错误的流程里加解释,可能适得其反。
  4. 灵活应变: 也许最好的办法不是强迫用户先思考,而是根据情况灵活调整。比如,当 AI 自己都不太确定时,再让用户先思考;或者让用户自己选择要不要看解释。

总结

这就好比**“信任”不是一种单一的情绪,而是一套复杂的舞蹈**。

  • 如果你只是问舞者“你信任音乐吗?”,答案可能不准。
  • 如果你强迫舞者先跳一段(两步走),他们可能反而更容易踩错拍子(过度依赖 AI)。
  • 如果你给舞者看乐谱(解释),在有些节奏下是神助攻,在有些节奏下就是干扰。

核心建议: 在设计 AI 助手时,不要试图用一个固定的规则(比如“先想后看”)来管理所有人的信任。要像指挥家一样,根据乐曲(任务)和乐手(用户)的特点,灵活调整互动的节奏。