Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human Performance… — やさしい解説

原著者： Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

公開日 2026-05-13

📖 1 分で読めます☕ さくっと読める

原著者： Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

原論文は CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ⚕️ これは査読を受けていないプレプリントのAI生成解説です。医学的助言ではありません。この内容に基づいて健康上の判断をしないでください。免責事項の全文を読む

心臓の画像を特殊な放射性トレーサーを用いて観察することに特化した医師を対象とした、極めて重要な最終試験を想像してください。これが「核心臓学ボード試験」です。長年にわたり、人工知能（AI）はこの試験に挑戦し続けてきましたが、常に不合格となり、平均的な医学部生よりも低いスコアしか獲得できませんでした。

本論文は、2 つの新しい超高性能 AI モデルが、ついにこの試験を圧勝し、平均的な人間の学生を凌駕するまでになった物語を伝えています。

設定：試験と「カンニングペーパー」

試験には 168 問が含まれています。その一部は単なるテキスト（クイズ形式）ですが、約 27 問は心臓の複雑な医療画像を解析する必要があります。

過去、AI がこの試験を「無援助」（何の支援も受けずに）で受けた場合、最高でも正答率は約 63% でした。これは不合格点です。一方、平均的な医学部生（研修医）のスコアは 78% でした。

今回の新しい研究では、研究者たちは AI に莫大な「カンニングペーパー」を提供しました。これは単なる簡単なグーグル検索ではなく、検索拡張生成（RAG）システムと呼ばれるものでした。これは、核心臓学の公式教科書、アトラス、医療ガイドラインを含む、完璧で検索可能なデジタル図書館を AI に与えるようなものです。AI は質問を見ると、即座にこの図書館に飛び込み、答えが記載された正確なページを見つけ、それを用いて回答を構成します。

挑戦者たち

研究者たちは、2 つの新しい次世代 AI モデルをテストしました。

Claude Opus 4.7: ローカルで透明な検索システムを使用するモデル（本棚からどの本を引き出したかを正確に示す司書のようなもの）。
GPT-5.5: クラウドベースの検索システムを使用するモデル（本を探してくれるが、その過程は示さない司書のようなもの）。

結果：AI が平均的な学生を凌駕

これらの 2 つの AI がそれぞれ 5 回ずつ試験を受けた際、結果は驚くべきものでした。

スコア: 両モデルとも約 86% から 87% を記録しました。
比較: これは平均的な人間の学生のスコアである 78% よりも有意に高いものです。実際、13 人の人間の学生と 2 人の AI を並べた場合、AI は上位 5 位に入り、8 人または 9 人の人間を上回ることになります。
進歩の速度: これは劇的な飛躍です。わずか 18 ヶ月前、最高性能の AI のスコアは 63% でした。現在、「カンニングペーパー」（RAG）を用いることで、23 ポイントも跳ね上がりました。

2 つの弱点

AI が勝利したにもかかわらず、2 つの特定の課題がありました。

「画像」の問題: AI はテキストの質問では素晴らしい成績（ほぼ 89%）を収めましたが、画像の質問でつまずきました。画像に関する正答率は約 73〜77% でした。人間は依然としてこの点で優れており、81.5% を記録しました。
- 比喩: AI は教科書全体を暗記して言い聞かせることができる天才的な教授ですが、ぼやけた X 線写真を見るとまだ混乱してしまうようなものです。理論は完璧に理解していますが、まだ「画像を見る」方法を学んでいる段階です。
「安全性」のバグ（GPT-5.5 のみ）: GPT-5.5 は約 7% の質問への回答を拒否しました。心臓薬や放射線安全性に関する標準的な医学試験の質問であっても、「申し訳ありませんが、それはお手伝いできません」と答えるのです。
- 比喩: 核エネルギーに関する正当な試験問題として物理学の学生に尋ねているにもかかわらず、「爆弾の作り方」に関する本を渡すことを拒む、非常に慎重な司書のようです。AI の安全性フィルターが敏感すぎたため、得点を逃してしまいました。Claude Opus 4.7 にはこの問題はなく、すべてに回答しました。

著者が実際に言っていること（そして言っていないこと）

論文はこの結果が何を意味するかについて非常に慎重です。

それは何か: 適切な参照資料があれば、AI は平均的な研修医よりも核心臓学の「事実」と「規則」をよりよく学習できることを証明しています。著者らは、これらのツールを学生が勉強するのを助けるための教育補助ツールとして、あるいは読影室で事実を再確認するための参照ツールとして使用できる可能性を提案しています。
それは何かではない: 著者は明確に、多肢選択式試験に合格しても、AI が医師として準備万端であることを意味しないと述べています。実際の医療には、患者との対話、不確実性への対処、多肢選択試験では測定できない複雑な判断の行い方が含まれます。AI は強力な参照書であり、人間の医師の代わりにはなり得ません。

結論

1 年半の間に、AI は核心臓学ボード試験に不合格だった状態から、適切な教科書へのアクセスがあれば平均的な人間の学生を凌駕する状態へと進化しました。しかし、医療画像の解釈には依然として課題があり、モデルの 1 つは特定の正当な質問に答えることを「恐れて」います。これは医療教育ツールにとって大きな飛躍ですが、論文は結論として、これらの機械は人間の医師の代わりではなく、助手であると述べています。

Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human Performance on the Nuclear Cardiology Board Preparation Exam (and Claude Drafts a Paper About it)

設定：試験と「カンニングペーパー」

挑戦者たち

結果：AI が平均的な学生を凌駕

2 つの弱点

著者が実際に言っていること（そして言っていないこと）

結論

技術的サマリー：核心臓病学ボード試験において検索拡張生成（RAG）を備えた大規模言語モデルが人間の成績を上回る

Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human Performance on the Nuclear Cardiology Board Preparation Exam (and Claude Drafts a Paper About it)

設定：試験と「カンニングペーパー」

挑戦者たち

結果：AI が平均的な学生を凌駕

2 つの弱点

著者が実際に言っていること（そして言っていないこと）

結論

技術的サマリー：核心臓病学ボード試験において検索拡張生成（RAG）を備えた大規模言語モデルが人間の成績を上回る

関連論文