Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI

Each language version is independently generated for its own context, not a direct translation.

这篇文章就像是在给一场“健康 AI 大考”做阅卷复盘。

简单来说，之前有一篇著名的研究（Ramaswamy 等人）说：“现在的消费级健康 AI（比如 ChatGPT 健康版）太笨了，面对 50% 以上的紧急病情（比如心脏病发作、哮喘），它竟然建议患者‘在家观察’，而不是‘赶紧去医院’。这太危险了！”

但这篇新论文的作者（来自澳大利亚麦考瑞大学）发现：问题可能不出在 AI 的“脑子”上，而出在“考卷”的出题方式上。

为了让你更容易理解，我们可以用几个生动的比喻来拆解这篇论文：

1. 比喻一：把“医生问诊”变成了“做选择题”

想象一下，你是一名经验丰富的急诊医生。

真实场景（自然交互）： 一个患者捂着胸口跑进来，语无伦次地说：“我胸口疼，像被大象踩了一样，而且我有点喘不上气。”医生会问：“疼多久了？以前有过吗？有没有流汗？”然后医生会根据这些对话，判断这是不是心脏病，并立刻叫救护车。
之前的“考试”（受限模式）： 研究人员给医生出了一道题，但规则很怪：
- 禁止提问：“不许问患者任何问题，只能根据这段话判断。”
- 禁止查资料：“不许用你脑子里的医学知识，只能看题目里给的那几个字。”
- 强制选择题：“别写长篇大论，必须在 A、B、C、D 四个选项里圈一个，圈错了就是不及格。”

结果： 在这种怪异的规则下，医生（AI）被迫在信息不全、不能互动、还要强行选一个选项的情况下做决定。很多医生（AI）明明心里知道“这很危险，得叫救护车”，但题目逼它选一个“观察”的选项，或者它一紧张就选错了。

这篇论文发现： 之前的研究就像是在用这种“怪题”考医生，然后得出结论说“医生水平不行，会害死人”。但这其实是考试方式的问题，而不是医生（AI）真的不会看病。

2. 比喻二：AI 的“双重人格”

作者测试了 5 种最先进的 AI 模型（就像 5 位不同风格的顶级医生），让他们在两种模式下回答同样的病情：

模式 A（考试模式）： 像做试卷一样，必须选 A/B/C/D，不能多说话。
模式 B（聊天模式）： 像平时聊天一样，患者发一段话，AI 自由回答。

惊人的发现：

在**模式 A（考试）**中，AI 的表现确实很差，很多紧急情况被漏掉了（比如哮喘，只有 48% 能识别出来）。
在**模式 B（聊天）**中，只要允许 AI 自由发挥，它的表现瞬间飙升！哮喘的识别率从 48% 涨到了 80%。
最关键的证据： 有些 AI 在“考试模式”下被迫选了“在家观察”（被判定为不及格），但在“聊天模式”下，它们明明用文字大声喊出了“快去医院！”。
- 这就好比： 一个学生心里知道答案是“苹果”，但老师非逼他在“香蕉”和“苹果”之间选一个，而且规则是“只能选香蕉”，结果老师就判定这个学生“不认识苹果”。

3. 比喻三：被“削足适履”的评估

之前的研究就像是用一把固定尺寸的尺子去量所有不同形状的物体。

如果物体是圆的，尺子量出来是直的，你就说“这个物体是歪的”。
这篇新论文说：尺子本身有问题！ 健康 AI 是用来和真人聊天的，真人说话含糊、会漏掉细节、需要医生追问。但之前的评估强行把 AI 关进一个“只能看题目、不能提问、必须选 ABCD"的盒子里。

结论就是： 那个"51.6% 的漏诊率”并不是 AI 真的那么笨，而是评估方法（Exam-style protocol）把 AI 逼疯了。

4. 几个具体的“翻案”案例

糖尿病酮症酸中毒（DKA，一种极度危险的急症）： 在之前的“考试”里，AI 似乎经常漏掉。但在新测试中，100% 的 AI 在所有模式下都正确识别了这种病。这说明之前的漏掉，可能是那个特定的“考试题目”出得太烂，或者是 AI 被特定的指令干扰了，而不是 AI 真的不懂这个病。
哮喘发作： 在“考试模式”下，AI 经常选错（漏诊）。但在“聊天模式”下，AI 能很好地理解患者的描述，并给出正确的急救建议。

总结：这对我们意味着什么？

别被 headlines（头条新闻）吓到： 之前说"AI 看急诊会害死人”的结论，很大程度上是因为测试方法太死板，不符合真实情况。
AI 其实挺聪明的： 只要给它们像真人医生那样的环境（允许提问、允许自由表达、结合上下文），它们处理紧急病情的能力比“考试”里显示的要强得多。
未来的评估要改： 要测试医疗 AI 安不安全，不能让它做“选择题试卷”，而应该模拟真实的“医患聊天”。如果还在用那种“禁止提问、强制选 ABCD"的试卷来评估，得出的结论就是误导性的。

一句话概括：
这篇论文是在说，之前的研究就像是用“闭卷、不许提问、只能选 ABCD"的数学考试，去考一个需要“望闻问切”的中医，然后得出结论说“这个中医医术不精”。 实际上，只要换个“面对面问诊”的考试方式，这位中医（AI）的表现就好多了。

Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI

1. 比喻一：把“医生问诊”变成了“做选择题”

2. 比喻二：AI 的“双重人格”

3. 比喻三：被“削足适履”的评估

4. 几个具体的“翻案”案例

总结：这对我们意味着什么？

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

3. 主要发现与结果 (Key Results)

4. 关键贡献 (Key Contributions)

5. 意义与影响 (Significance)

Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI

1. 比喻一：把“医生问诊”变成了“做选择题”

2. 比喻二：AI 的“双重人格”

3. 比喻三：被“削足适履”的评估

4. 几个具体的“翻案”案例

总结：这对我们意味着什么？

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

3. 主要发现与结果 (Key Results)

4. 关键贡献 (Key Contributions)

5. 意义与影响 (Significance)

类似论文

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA