Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

该评论指出,GPT-5 在文本推理及多模态临床整合能力上较前代有显著提升,但在神经放射学和乳腺 X 光摄影等高度专业化的感知任务中,其表现仍不及专用模型,表明通用基础模型虽已迈向整合式临床推理,却尚未能完全替代特定领域的专业系统。

Alexandru Florea, Shansong Wang, Mingzhe Hu, Qiang Li, Zach Eidex, Luke del Balzo, Mojtaba Safari, Xiaofeng Yang

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“超级医生 AI 的体检报告”**。

想象一下,过去我们给 AI 看病,是给它一本厚厚的医学书,让它死记硬背(这是旧模型 GPT-4o)。现在,OpenAI 推出了新一代的GPT-5,它不再只是死记硬背,而是像一位真正的专家,学会了把“病人的故事”、“化验单”和"X 光片”结合起来思考。

这篇论文就是作者们把 GPT-5 拉进考场,让它和它的“老大哥”GPT-4o 以及几个“小弟弟”(Mini 和 Nano 版)进行了一场全方位的临床大考

以下是这场考试的精彩看点,用大白话和比喻讲给你听:

1. 考试背景:从“背题家”到“推理家”

以前的 AI 像是一个**“超级图书馆管理员”**,你问它什么,它能在书海里瞬间找到答案。但真正的医生看病,需要把零碎的信息拼成一幅完整的拼图:病人说哪里疼、验血结果怎么样、CT 片子上有个黑点……
GPT-5 的目标,就是从一个“找答案的机器”进化成一个“会思考的医生”。

2. 考试科目:三大难关

作者给 GPT-5 出了三套卷子,难度层层递进:

  • 第一关:医学笔试(USMLE 等)

    • 比喻:就像医学生的期末考试,全是选择题。
    • 结果:GPT-5 考得非常好,几乎满分。特别是在需要复杂推理的题目上(比如 MedXpertQA),它比 GPT-4o 强了25% 以上。这说明它真的学会了“像医生一样思考”,而不仅仅是背题。
  • 第二关:看图说话(神经放射科 & 病理学)

    • 比喻:给 AI 看大脑 MRI 片子或显微镜下的细胞图,让它判断是良性还是恶性。这就像让 AI 当**“读片专家”**。
    • 结果
      • 表现不错:在数字病理(看细胞)方面,GPT-5 和 GPT-4o 打得有来有回,都很强。
      • 有点吃力:在看大脑肿瘤(神经放射科)时,GPT-5 的准确率只有44% 左右。这就像是一个刚毕业的住院医,看片子时还是有点拿不准,容易看走眼。
  • 第三关:终极挑战(乳腺钼靶检查)

    • 比喻:这是最难的“找茬”游戏。要在密密麻麻的乳腺组织里,找出微小的钙化点或肿块。这就像**“在暴风雪里找一根针”**。
    • 结果:GPT-5 进步很大(比老版本强了 10-40%),但还没达到顶尖水平
      • GPT-5 的准确率在**52%-64%**之间。
      • 而专门为此训练的“专科 AI"(就像专门练过找针的特种兵),准确率能超过80%
      • 结论:在需要极度精细的视觉感知任务上,通用的“大聪明”AI 还比不上“专科”AI。

3. 核心发现:GPT-5 是个什么角色?

  • 它是“全科顾问”,不是“专科医生”
    GPT-5 最厉害的地方在于**“综合推理”**。它能像一位经验丰富的老医生,把病人含糊不清的描述(“我肚子疼”)和客观的片子结合起来,给出一个合理的推断。

    • 比喻:它像一个**“超级助理”**,能帮你整理所有线索,告诉你“大概率是这个问题,建议做这个检查”。
  • 它还需要“特训”
    虽然它很聪明,但在某些极其专业的领域(比如看乳腺片子),它还是不如那些专门为了这个任务训练出来的“特种兵”模型。

    • 比喻:GPT-5 是一个博学的通才,什么都能聊,什么都能看;但在需要“火眼金睛”的特定领域,它还需要穿上专业的“防护服”(微调训练)才能和专家模型竞争。

4. 总结:我们离“AI 医生”还有多远?

这篇论文告诉我们一个很实在的结论:

  1. GPT-5 是个巨大的进步:它不再是只会背书的机器,它开始懂得**“结合证据做判断”了。这让它非常有潜力成为医生的得力助手**,帮医生梳理思路、减少漏诊。
  2. 还不能完全放心:在那些需要“一眼定生死”的精细诊断任务上,它还不够完美。如果直接让它独立做手术或下诊断,风险还很大。
  3. 未来的路:AI 不会取代医生,但会像**“副驾驶”一样,帮医生看得更准、想得更全。不过,在把它真正送上临床之前,我们还需要给它做更多的“岗前培训”(领域适应),并确保它的每一个判断都能“说得清道理”**(可解释性)。

一句话总结:GPT-5 已经从一个“只会翻字典的学生”进化成了“会思考的实习医生”,但在成为“独当一面的专家”之前,它还需要在特定领域继续磨练,并且最好永远有一位人类医生在旁边把关。