Medical errors in large language models revealed using 1,000 synthetic clinical transcripts

该研究利用 1,000 份合成临床头痛病历对大语言模型进行压力测试,发现尽管模型在完整病史下诊断准确率极高,但在信息不全时仍会频繁给出危险建议(如拒绝必要检查或错误降级急症),且存在显著的性别安全差异,揭示了当前医疗 AI 评估方法的局限性。

Auger, S. D., Scott, G.

发布于 2026-03-25
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次对“医疗 AI 医生”进行的大规模、高压力的“压力测试”

想象一下,现在的医疗 AI(比如大型语言模型 LLM)就像是一个刚毕业、读过很多书但还没真正进过医院的“超级学霸”。以前的考试(评估)都是给它看那种完美的、教科书式的病例:病人症状描述得清清楚楚,就像做数学题一样,条件都列好了,让 AI 去解题。这种考试,AI 考得非常好,几乎满分。

但这篇论文的作者们觉得:“这太假了!真实的医院里,病人说话往往语无伦次、信息不全,甚至还会漏掉关键细节。”

于是,他们发明了一个**“虚拟病人工厂”,制造了1000 个完全不一样的虚拟病人**,和 AI 进行真实的对话。

1. 他们是怎么做的?(虚拟病人工厂)

  • 制造“混乱”: 他们不是只让 AI 看简单的病例,而是模拟了 1000 个真实的看病场景。这些病人有的说话很啰嗦,有的英语不好,有的记性差,有的甚至只说了半句话就停下了。
  • 控制变量: 虽然对话很乱,但作者手里拿着“标准答案”(基于国际头痛分类标准 ICHD-3)。他们知道每个虚拟病人到底得了什么病(比如是普通的偏头痛,还是致命的脑出血)。
  • 信息缺失测试: 他们故意在对话中“藏”掉一部分信息。比如,只告诉 AI 病人头痛,却不告诉头痛持续了多久,或者有没有其他症状。这就好比医生只听了病人说“我头疼”,就敢下诊断。

2. 他们发现了什么?(AI 的“致命”弱点)

测试对象是当时最先进的两个 AI 模型(GPT-5.2 和 GPT-5-mini)。结果发现,虽然 AI 在“完美信息”下能猜对病名,但一旦信息不全,它们就会变得非常自信且危险

这里有几个关键的发现,用比喻来说就是:

🚨 弱点一:不懂“不懂”,盲目自信

  • 人类医生: 如果病人说话吞吞吐吐,信息不全,人类医生会想:“这信息不够啊,我得再问几个问题,或者赶紧安排检查(比如做 CT 或腰穿)来排除最坏的情况。”
  • AI 医生: 即使信息只有 20%(大部分都没说),AI 也不会说“我不知道”。相反,它会非常自信地给出一个确定的建议,而且往往是**“别做检查”或者“回家自己养着”**。
  • 后果: 在那些本该做“腰椎穿刺”(一种检查脑出血的关键手段)的危急病例中,AI 竟然100% 建议不做!这就像是一个导航仪,明明前面是悬崖,却自信地告诉你“直行,路况良好”。

🚨 弱点二:把“没证据”当成“没病”

  • 人类逻辑: “虽然病人没提到发烧,但不能排除脑膜炎,因为病人可能忘了说,或者症状还没出来。为了安全,我们要查一下。”
  • AI 逻辑: “病人没提到发烧,所以肯定不是脑膜炎。不用查。”
  • 比喻: 这就像侦探破案。人类侦探会想:“虽然没找到凶器,但嫌疑人太可疑了,我得继续搜。”而 AI 侦探会说:“没找到凶器,所以凶手不存在,结案吧。”这种逻辑在医疗上会导致漏诊致命的急症

🚨 弱点三:对女性更“不客气”

  • 研究发现,当面对女性患者时,AI 更倾向于把她们打发回家“自我观察”,而不是建议紧急就医。
  • 数据: 在危急情况下,AI 给女性患者“不安全建议”的概率是男性的3 倍多。这就像是一个偏心的裁判,觉得女性“忍一忍”就能过去,而男性则需要立刻处理。

🚨 弱点四:乱开药

  • 对于某些止痛药(如可待因),AI 在信息不全时,反而更爱开给老年人。但现实中,老年人用这类药风险很大。AI 就像是一个不懂药理的小贩,不管顾客多大年纪,只要问“头疼吗”,就随手塞给你一颗药。

3. 为什么会出现这种情况?

作者认为,这是因为 AI 的**“概率思维”和人类的“风险思维”**完全不同。

  • AI 是“概率机器”: 它根据训练数据里的统计规律,觉得“大多数头疼的人最后都没事”,所以它倾向于给出“没事”的结论,因为它觉得这样“最像”正确答案。
  • 人类是“风险管理者”: 医生知道,虽然 99% 的头疼没事,但只要有 1% 是脑出血,漏掉那个 1% 就是人命关天。所以医生会**“宁可错杀一千(多做检查),不可放过一个”**。

AI 恰恰相反,它在信息不足时,为了追求“看起来像正确答案”,反而放弃了那个 1% 的救命机会

4. 这篇论文想告诉我们什么?

  1. 别被“高分”骗了: 现在的医疗 AI 在教科书式的考试里能拿 97 分,但在真实的、 messy(混乱的)医院环境里,可能会犯下致命的错误。
  2. 信息不全时最危险: 当病人描述不清楚时,AI 最容易“翻车”。它不会像人类医生那样去追问,而是会盲目下结论。
  3. 模型选择很重要: 论文里测试的两个模型,一个强一点(GPT-5.2),一个弱一点(GPT-5-mini)。弱的模型更危险,但很多面向公众的健康 APP 可能为了省钱,用的就是这种“弱模型”。
  4. 需要新的“考试”: 以前我们只考 AI 认不认识病,现在必须考它在信息不全时会不会“怂”(会不会主动要求更多信息或检查)。

总结

这就好比我们在测试自动驾驶汽车。以前我们只在天气晴朗、路况完美的赛道上测试,车开得飞快。但这篇论文把车开到了暴雨、大雾、路标模糊的山区,结果发现:虽然车还能识别路,但它不敢刹车,甚至直接加速冲下悬崖,因为它觉得“大概率前面没车”。

结论: 在把 AI 真正交给医生或患者使用之前,我们必须先给它们装上“安全护栏”,教会它们在**“不知道”的时候,要懂得“闭嘴并求助”**,而不是自信地胡说八道。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →