Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

该研究提出了UTCO提示框架,通过2075个生成提示对LLM进行系统性压力测试,发现幻觉和遗漏(尤其是危机情境下的遗漏)主要与提示中的上下文和语气元素相关,而非用户背景,从而强调了将遗漏作为主要安全指标并超越静态基准评估的重要性。

Congning Ni, Sarvech Qadir, Bryan Steitz, Mihir Sachin Vaidya, Qingyuan Song, Lantian Xia, Shelagh Mulvaney, Siru Liu, Hyeyoung Ryu, Leah Hecht, Amy Bucher, Christopher Symons, Laurie Novak, Susannah L. Rose, Murat Kantarcioglu, Bradley Malin, Zhijun Yin

发布于 2026-04-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次针对“心理 AI 医生”的压力测试。研究人员想看看,当普通人带着各种复杂的情绪和故事去问 AI 关于心理健康的问题时,AI 会不会“胡言乱语”或者“漏掉关键救命信息”。

为了让你更容易理解,我们可以把这项研究想象成在测试一辆自动驾驶汽车在极端路况下的表现

1. 核心任务:给 AI 医生做“体检”

现在的 AI(比如 Llama 3.3)经常被用来回答心理问题。但以前的测试太简单了,就像只让自动驾驶汽车在平坦、空旷的停车场里跑几圈。

  • 现实情况:真实生活中,人们问 AI 问题时,往往带着复杂的故事、混乱的情绪、模糊的描述,就像自动驾驶汽车突然开进了暴雨、泥泞且充满路障的山区
  • 研究目的:研究人员设计了一个叫 UTCO 的框架(用户、话题、情境、语气),专门用来制造各种“极端路况”的提问,看看 AI 会不会出车祸。

2. 两种主要的“车祸”类型

在测试中,他们主要发现了两种 AI 犯错的方式:

  • 幻觉 (Hallucinations) —— AI 的“过度自信”

    • 比喻:就像 AI 医生为了显得博学,编造了一些不存在的药方,或者把别人的病情安在你头上。
    • 例子:用户问“我最近心情不好怎么办?”,AI 却自信地说:“你需要服用一种叫 X 的特效药(其实这药不存在)。”
    • 数据:在 2000 多次提问中,这种情况发生了约 6.5%
  • 遗漏 (Omissions) —— AI 的“沉默是金”

    • 比喻:这是更危险的一种。就像用户说“我想自杀”,AI 虽然回答得很温柔、很共情,但完全忘了告诉用户“请立刻拨打急救电话”或“去找专业医生”。它只给了安慰,却漏掉了救命的关键信息
    • 数据:这种情况发生了 13.2%,比编造事实更常见,尤其是在涉及危机和自杀念头的提问中。

3. 研究发现:什么导致了“车祸”?

研究人员像侦探一样,把提问拆解成四个部分来检查:谁在问(用户背景)问什么(话题)在什么情况下问(情境/故事)用什么语气问(情绪)

  • 谁在问不重要

    • 比喻:不管开车的是个 20 岁的年轻人,还是 60 岁的老人,自动驾驶汽车的表现没有明显区别
    • 结论:用户的身份(性别、年龄、职业)并不是导致 AI 犯错的主要原因。
  • 怎么问才是关键(情境和语气)

    • 比喻:如果用户像在暴风雨中一边哭一边语无伦次地描述路况(长故事、高情绪、模糊不清),AI 就非常容易“迷路”或“死机”。
    • 具体发现
      1. 故事越长、越像真人倾诉,AI 越容易漏掉关键信息(遗漏)。
      2. 情绪越激动(绝望、焦虑、困惑),AI 越容易犯错。
      3. 描述越模糊(比如用了很多代词“他”、“它”,没说清楚是谁),AI 就越容易编造内容(幻觉)。

4. 为什么“遗漏”比“幻觉”更可怕?

  • 幻觉就像 AI 在乱说话,用户可能一眼就能看出“这药名怎么没听过?”,从而产生警惕。
  • 遗漏就像 AI 在假装没事。它回答得很温暖、很贴心,让你觉得“这个 AI 真懂我”,结果却没告诉你最该做的救命步骤。在心理危机中,这种“温柔的沉默”可能让人错失求助的最佳时机。

5. 给未来的建议:如何修好这辆“车”?

这项研究给未来的 AI 设计者提出了两个重要建议:

  1. 别再只考“停车场”了
    • 以前的测试题太短、太简单。未来的测试必须包含长故事、复杂情绪和模糊描述,模拟真实世界的混乱。
  2. 给 AI 装上“安全刹车”
    • 当 AI 检测到用户情绪激动、故事模糊时,它不应该急着给建议,而应该先停下来问清楚(比如:“您提到的‘他’是指谁?”)。
    • 一旦检测到危机信号(如自杀念头),无论用户有没有明确要求,AI 都必须强制插入急救资源,不能只给安慰。

总结

这篇论文告诉我们:AI 在回答心理问题时,最大的风险不是它“太聪明”而乱编,而是它“太温柔”而漏掉了救命稻草。

未来的 AI 心理助手,不能只是一个“会聊天的朋友”,它必须是一个在暴风雨中也能精准导航、绝不漏掉安全警示的“专业向导”。要解决这些问题,我们不能只盯着 AI 的智商,更要关注它如何处理人类复杂、混乱且充满情绪的真实故事。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →