Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human Performance on the Nuclear Cardiology Board Preparation Exam (and Claude Drafts a Paper About it)

下一代大型语言模型,特别是配备利用领域特异性核心脏病学资源进行检索增强生成的 Claude Opus 4.7 和 GPT-5.5,在 ASNC 董事会备考考试中实现了约 86% 的平均准确率,超越了预估的及格阈值以及人类受训研究员的平均表现。

原作者: Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

发布于 2026-05-13
📖 1 分钟阅读☕ 轻松阅读

原作者: Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

想象一场针对心脏放射性示踪剂成像专科医生的高风险期末考试。这就是“核医学心脏病学委员会考试”。多年来,人工智能(AI)一直试图参加这项考试,但屡屡失败,得分低于普通医学生的平均水平。

本文讲述了两款全新的超级智能 AI 模型如何最终高分通过考试,并击败普通人类学生的故事。

背景:考试与“作弊小抄”

考试包含 168 道题目。其中一些仅涉及文字(类似于常识问答),但约有 27 道题需要观察复杂的心脏医学影像。

过去,当 AI 试图“裸考”(没有任何辅助)参加这项考试时,其最佳成绩仅为约 63% 的正确率。这是一个不及格的分数。普通人类医学生(即“进修医师”)的平均得分为 78%。

在这项新研究中,研究人员为 AI 提供了一份庞大的“作弊小抄”。这不仅仅是简单的谷歌搜索,而是一个**检索增强生成(RAG)**系统。这就好比给 AI 提供了一座完美的、可检索的数字图书馆,其中包含核医学心脏病学领域的官方教科书、图谱和医疗指南。当 AI 看到问题时,它会立即潜入这座图书馆,找到包含确切答案的页面,并据此构建其回答。

竞争者

研究人员测试了两款全新的下一代 AI 模型:

  1. Claude Opus 4.7:一款采用本地透明搜索系统的模型(就像一位会向你展示它究竟从书架上抽出了哪些书的图书管理员)。
  2. GPT-5.5:一款采用云端搜索系统的模型(就像一位为你找到书籍但不向你展示过程的图书管理员)。

结果:AI 击败普通学生

当这两款 AI 各参加五次考试后,结果令人惊讶:

  • 分数:两款模型的得分均在 86% 至 87% 左右。
  • 对比:这显著高于普通人类学生 78% 的平均分。事实上,如果将 13 名人类学生和 2 名 AI 并列排名,AI 将位列前 5 名,击败 8 或 9 名人类。
  • 进步速度:这是一个巨大的飞跃。就在 18 个月前,最好的 AI 得分仅为 63%。现在,借助“作弊小抄”(RAG),它们的得分跃升了 23 个百分点。

两个弱点

尽管 AI 获胜了,但它们仍有两个具体的短板:

  1. “图像”问题:AI 在文字问题上表现优异(得分接近 89%),但在图像问题上却跌跌撞撞。它们在图像题上的正确率约为 73%–77%。人类在此方面仍然更胜一筹,得分为 81.5%。
    • 类比:想象 AI 是一位博学的教授,能凭记忆背诵整本教科书,但面对模糊的 X 光片时仍会感到困惑。它完美地掌握了理论,但仍在学会如何“看”懂图像。
  2. “安全”故障(仅限 GPT-5.5):GPT-5.5 拒绝回答约 7% 的问题。它会说“抱歉,我无法协助”,尽管这些问题只是关于心脏药物或辐射安全的标准医学考试题。
    • 类比:这就像一位过于谨慎的图书管理员,即使你是一名物理系学生,正在询问关于核能的合法考试题目,它也会拒绝递给你一本关于“如何制造炸弹”的书。AI 的安全过滤器过于敏感,导致它丢掉了分数。Claude Opus 4.7 没有这个问题;它回答了所有问题。

作者实际所言(以及未言之处)

该论文对这一发现的意义非常谨慎:

  • 它是什么:它证明了在拥有适当参考资料的情况下,AI 可以比普通进修医师更好地掌握核医学心脏病学领域的事实规则。作者建议,这些工具可用作教育辅助,帮助学生复习,或作为参考工具,在阅片室中用于双重核对事实。
  • 它不是什么:作者明确指出,通过多项选择题考试并不意味着 AI 已准备好成为医生。真正的医学涉及与患者沟通、处理不确定性以及做出多项选择题考试无法衡量的复杂判断。AI 是一本强大的参考书,而非人类医生的替代品。

核心结论

在一年半的时间里,AI 从无法通过核医学心脏病学委员会考试,跃升至在拥有适当教科书的情况下击败普通人类学生。然而,它在解读医学影像方面仍存在困难,且其中一款模型因过于“胆怯”而拒绝回答某些合法的题目。虽然这对医学教育工具而言是巨大的飞跃,但论文总结认为,这些机器是人类医生的助手,而非替代品。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →