Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI

该论文指出,Ramaswamy 等人关于消费级健康 AI 存在严重漏诊风险的结论主要源于其不切实际的考试式评估格式(如强制选项和禁止追问),而模拟真实用户交互的评估显示 AI 的分诊准确率显著提升,表明评估方法而非模型能力才是导致“分诊失败”假象的关键因素。

David Fraile Navarro, Farah Magrabi, Enrico Coiera

发布于 2026-03-13
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章就像是在给一场“健康 AI 大考”做阅卷复盘

简单来说,之前有一篇著名的研究(Ramaswamy 等人)说:“现在的消费级健康 AI(比如 ChatGPT 健康版)太笨了,面对 50% 以上的紧急病情(比如心脏病发作、哮喘),它竟然建议患者‘在家观察’,而不是‘赶紧去医院’。这太危险了!”

但这篇新论文的作者(来自澳大利亚麦考瑞大学)发现:问题可能不出在 AI 的“脑子”上,而出在“考卷”的出题方式上。

为了让你更容易理解,我们可以用几个生动的比喻来拆解这篇论文:

1. 比喻一:把“医生问诊”变成了“做选择题”

想象一下,你是一名经验丰富的急诊医生。

  • 真实场景(自然交互): 一个患者捂着胸口跑进来,语无伦次地说:“我胸口疼,像被大象踩了一样,而且我有点喘不上气。”医生会问:“疼多久了?以前有过吗?有没有流汗?”然后医生会根据这些对话,判断这是不是心脏病,并立刻叫救护车。
  • 之前的“考试”(受限模式): 研究人员给医生出了一道题,但规则很怪:
    • 禁止提问:“不许问患者任何问题,只能根据这段话判断。”
    • 禁止查资料:“不许用你脑子里的医学知识,只能看题目里给的那几个字。”
    • 强制选择题:“别写长篇大论,必须在 A、B、C、D 四个选项里圈一个,圈错了就是不及格。”

结果: 在这种怪异的规则下,医生(AI)被迫在信息不全、不能互动、还要强行选一个选项的情况下做决定。很多医生(AI)明明心里知道“这很危险,得叫救护车”,但题目逼它选一个“观察”的选项,或者它一紧张就选错了。

这篇论文发现: 之前的研究就像是在用这种“怪题”考医生,然后得出结论说“医生水平不行,会害死人”。但这其实是考试方式的问题,而不是医生(AI)真的不会看病。

2. 比喻二:AI 的“双重人格”

作者测试了 5 种最先进的 AI 模型(就像 5 位不同风格的顶级医生),让他们在两种模式下回答同样的病情:

  • 模式 A(考试模式): 像做试卷一样,必须选 A/B/C/D,不能多说话。
  • 模式 B(聊天模式): 像平时聊天一样,患者发一段话,AI 自由回答。

惊人的发现:

  • 在**模式 A(考试)**中,AI 的表现确实很差,很多紧急情况被漏掉了(比如哮喘,只有 48% 能识别出来)。
  • 在**模式 B(聊天)**中,只要允许 AI 自由发挥,它的表现瞬间飙升!哮喘的识别率从 48% 涨到了 80%。
  • 最关键的证据: 有些 AI 在“考试模式”下被迫选了“在家观察”(被判定为不及格),但在“聊天模式”下,它们明明用文字大声喊出了“快去医院!”。
    • 这就好比: 一个学生心里知道答案是“苹果”,但老师非逼他在“香蕉”和“苹果”之间选一个,而且规则是“只能选香蕉”,结果老师就判定这个学生“不认识苹果”。

3. 比喻三:被“削足适履”的评估

之前的研究就像是用一把固定尺寸的尺子去量所有不同形状的物体。

  • 如果物体是圆的,尺子量出来是直的,你就说“这个物体是歪的”。
  • 这篇新论文说:尺子本身有问题! 健康 AI 是用来和真人聊天的,真人说话含糊、会漏掉细节、需要医生追问。但之前的评估强行把 AI 关进一个“只能看题目、不能提问、必须选 ABCD"的盒子里。

结论就是: 那个"51.6% 的漏诊率”并不是 AI 真的那么笨,而是评估方法(Exam-style protocol)把 AI 逼疯了

4. 几个具体的“翻案”案例

  • 糖尿病酮症酸中毒(DKA,一种极度危险的急症): 在之前的“考试”里,AI 似乎经常漏掉。但在新测试中,100% 的 AI 在所有模式下都正确识别了这种病。这说明之前的漏掉,可能是那个特定的“考试题目”出得太烂,或者是 AI 被特定的指令干扰了,而不是 AI 真的不懂这个病。
  • 哮喘发作: 在“考试模式”下,AI 经常选错(漏诊)。但在“聊天模式”下,AI 能很好地理解患者的描述,并给出正确的急救建议。

总结:这对我们意味着什么?

  1. 别被 headlines(头条新闻)吓到: 之前说"AI 看急诊会害死人”的结论,很大程度上是因为测试方法太死板,不符合真实情况。
  2. AI 其实挺聪明的: 只要给它们像真人医生那样的环境(允许提问、允许自由表达、结合上下文),它们处理紧急病情的能力比“考试”里显示的要强得多。
  3. 未来的评估要改: 要测试医疗 AI 安不安全,不能让它做“选择题试卷”,而应该模拟真实的“医患聊天”。如果还在用那种“禁止提问、强制选 ABCD"的试卷来评估,得出的结论就是误导性的。

一句话概括:
这篇论文是在说,之前的研究就像是用“闭卷、不许提问、只能选 ABCD"的数学考试,去考一个需要“望闻问切”的中医,然后得出结论说“这个中医医术不精”。 实际上,只要换个“面对面问诊”的考试方式,这位中医(AI)的表现就好多了。