原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明
想象一场针对心脏放射性示踪剂成像专科医生的高风险期末考试。这就是“核医学心脏病学委员会考试”。多年来,人工智能(AI)一直试图参加这项考试,但屡屡失败,得分低于普通医学生的平均水平。
本文讲述了两款全新的超级智能 AI 模型如何最终高分通过考试,并击败普通人类学生的故事。
背景:考试与“作弊小抄”
考试包含 168 道题目。其中一些仅涉及文字(类似于常识问答),但约有 27 道题需要观察复杂的心脏医学影像。
过去,当 AI 试图“裸考”(没有任何辅助)参加这项考试时,其最佳成绩仅为约 63% 的正确率。这是一个不及格的分数。普通人类医学生(即“进修医师”)的平均得分为 78%。
在这项新研究中,研究人员为 AI 提供了一份庞大的“作弊小抄”。这不仅仅是简单的谷歌搜索,而是一个**检索增强生成(RAG)**系统。这就好比给 AI 提供了一座完美的、可检索的数字图书馆,其中包含核医学心脏病学领域的官方教科书、图谱和医疗指南。当 AI 看到问题时,它会立即潜入这座图书馆,找到包含确切答案的页面,并据此构建其回答。
竞争者
研究人员测试了两款全新的下一代 AI 模型:
- Claude Opus 4.7:一款采用本地透明搜索系统的模型(就像一位会向你展示它究竟从书架上抽出了哪些书的图书管理员)。
- GPT-5.5:一款采用云端搜索系统的模型(就像一位为你找到书籍但不向你展示过程的图书管理员)。
结果:AI 击败普通学生
当这两款 AI 各参加五次考试后,结果令人惊讶:
- 分数:两款模型的得分均在 86% 至 87% 左右。
- 对比:这显著高于普通人类学生 78% 的平均分。事实上,如果将 13 名人类学生和 2 名 AI 并列排名,AI 将位列前 5 名,击败 8 或 9 名人类。
- 进步速度:这是一个巨大的飞跃。就在 18 个月前,最好的 AI 得分仅为 63%。现在,借助“作弊小抄”(RAG),它们的得分跃升了 23 个百分点。
两个弱点
尽管 AI 获胜了,但它们仍有两个具体的短板:
- “图像”问题:AI 在文字问题上表现优异(得分接近 89%),但在图像问题上却跌跌撞撞。它们在图像题上的正确率约为 73%–77%。人类在此方面仍然更胜一筹,得分为 81.5%。
- 类比:想象 AI 是一位博学的教授,能凭记忆背诵整本教科书,但面对模糊的 X 光片时仍会感到困惑。它完美地掌握了理论,但仍在学会如何“看”懂图像。
- “安全”故障(仅限 GPT-5.5):GPT-5.5 拒绝回答约 7% 的问题。它会说“抱歉,我无法协助”,尽管这些问题只是关于心脏药物或辐射安全的标准医学考试题。
- 类比:这就像一位过于谨慎的图书管理员,即使你是一名物理系学生,正在询问关于核能的合法考试题目,它也会拒绝递给你一本关于“如何制造炸弹”的书。AI 的安全过滤器过于敏感,导致它丢掉了分数。Claude Opus 4.7 没有这个问题;它回答了所有问题。
作者实际所言(以及未言之处)
该论文对这一发现的意义非常谨慎:
- 它是什么:它证明了在拥有适当参考资料的情况下,AI 可以比普通进修医师更好地掌握核医学心脏病学领域的事实和规则。作者建议,这些工具可用作教育辅助,帮助学生复习,或作为参考工具,在阅片室中用于双重核对事实。
- 它不是什么:作者明确指出,通过多项选择题考试并不意味着 AI 已准备好成为医生。真正的医学涉及与患者沟通、处理不确定性以及做出多项选择题考试无法衡量的复杂判断。AI 是一本强大的参考书,而非人类医生的替代品。
核心结论
在一年半的时间里,AI 从无法通过核医学心脏病学委员会考试,跃升至在拥有适当教科书的情况下击败普通人类学生。然而,它在解读医学影像方面仍存在困难,且其中一款模型因过于“胆怯”而拒绝回答某些合法的题目。虽然这对医学教育工具而言是巨大的飞跃,但论文总结认为,这些机器是人类医生的助手,而非替代品。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。