📄 radiology and imaging

Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human Performance on the Nuclear Cardiology Board Preparation Exam (and Claude Drafts a Paper About it)

下一代大型语言模型，特别是配备利用领域特异性核心脏病学资源进行检索增强生成的 Claude Opus 4.7 和 GPT-5.5，在 ASNC 董事会备考考试中实现了约 86% 的平均准确率，超越了预估的及格阈值以及人类受训研究员的平均表现。

原作者： Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

发布于 2026-05-13

📖 1 分钟阅读☕ 轻松阅读

CC BY 4.0

原作者： Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

原始论文采用 CC BY 4.0 许可（https://creativecommons.org/licenses/by/4.0/）。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

想象一场针对心脏放射性示踪剂成像专科医生的高风险期末考试。这就是“核医学心脏病学委员会考试”。多年来，人工智能（AI）一直试图参加这项考试，但屡屡失败，得分低于普通医学生的平均水平。

本文讲述了两款全新的超级智能 AI 模型如何最终高分通过考试，并击败普通人类学生的故事。

背景：考试与“作弊小抄”

考试包含 168 道题目。其中一些仅涉及文字（类似于常识问答），但约有 27 道题需要观察复杂的心脏医学影像。

过去，当 AI 试图“裸考”（没有任何辅助）参加这项考试时，其最佳成绩仅为约 63% 的正确率。这是一个不及格的分数。普通人类医学生（即“进修医师”）的平均得分为 78%。

在这项新研究中，研究人员为 AI 提供了一份庞大的“作弊小抄”。这不仅仅是简单的谷歌搜索，而是一个**检索增强生成（RAG）**系统。这就好比给 AI 提供了一座完美的、可检索的数字图书馆，其中包含核医学心脏病学领域的官方教科书、图谱和医疗指南。当 AI 看到问题时，它会立即潜入这座图书馆，找到包含确切答案的页面，并据此构建其回答。

竞争者

研究人员测试了两款全新的下一代 AI 模型：

Claude Opus 4.7：一款采用本地透明搜索系统的模型（就像一位会向你展示它究竟从书架上抽出了哪些书的图书管理员）。
GPT-5.5：一款采用云端搜索系统的模型（就像一位为你找到书籍但不向你展示过程的图书管理员）。

结果：AI 击败普通学生

当这两款 AI 各参加五次考试后，结果令人惊讶：

分数：两款模型的得分均在 86% 至 87% 左右。
对比：这显著高于普通人类学生 78% 的平均分。事实上，如果将 13 名人类学生和 2 名 AI 并列排名，AI 将位列前 5 名，击败 8 或 9 名人类。
进步速度：这是一个巨大的飞跃。就在 18 个月前，最好的 AI 得分仅为 63%。现在，借助“作弊小抄”（RAG），它们的得分跃升了 23 个百分点。

两个弱点

尽管 AI 获胜了，但它们仍有两个具体的短板：

“图像”问题：AI 在文字问题上表现优异（得分接近 89%），但在图像问题上却跌跌撞撞。它们在图像题上的正确率约为 73%–77%。人类在此方面仍然更胜一筹，得分为 81.5%。
- 类比：想象 AI 是一位博学的教授，能凭记忆背诵整本教科书，但面对模糊的 X 光片时仍会感到困惑。它完美地掌握了理论，但仍在学会如何“看”懂图像。
“安全”故障（仅限 GPT-5.5）：GPT-5.5 拒绝回答约 7% 的问题。它会说“抱歉，我无法协助”，尽管这些问题只是关于心脏药物或辐射安全的标准医学考试题。
- 类比：这就像一位过于谨慎的图书管理员，即使你是一名物理系学生，正在询问关于核能的合法考试题目，它也会拒绝递给你一本关于“如何制造炸弹”的书。AI 的安全过滤器过于敏感，导致它丢掉了分数。Claude Opus 4.7 没有这个问题；它回答了所有问题。

作者实际所言（以及未言之处）

该论文对这一发现的意义非常谨慎：

它是什么：它证明了在拥有适当参考资料的情况下，AI 可以比普通进修医师更好地掌握核医学心脏病学领域的事实和规则。作者建议，这些工具可用作教育辅助，帮助学生复习，或作为参考工具，在阅片室中用于双重核对事实。
它不是什么：作者明确指出，通过多项选择题考试并不意味着 AI 已准备好成为医生。真正的医学涉及与患者沟通、处理不确定性以及做出多项选择题考试无法衡量的复杂判断。AI 是一本强大的参考书，而非人类医生的替代品。

核心结论

在一年半的时间里，AI 从无法通过核医学心脏病学委员会考试，跃升至在拥有适当教科书的情况下击败普通人类学生。然而，它在解读医学影像方面仍存在困难，且其中一款模型因过于“胆怯”而拒绝回答某些合法的题目。虽然这对医学教育工具而言是巨大的飞跃，但论文总结认为，这些机器是人类医生的助手，而非替代品。

背景：考试与“作弊小抄”

竞争者

结果：AI 击败普通学生

两个弱点

作者实际所言（以及未言之处）

核心结论

技术摘要：检索增强型大语言模型在核心脏病学委员会考试中超越人类表现

类似论文