📄 radiology and imaging

Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human Performance on the Nuclear Cardiology Board Preparation Exam (and Claude Drafts a Paper About it)

Nächste Generationen großer Sprachmodelle, insbesondere Claude Opus 4.7 und GPT-5.5, ausgestattet mit retrieval-augmentierter Generierung unter Verwendung domänenspezifischer Ressourcen der Nuklearcardiologie, erreichten auf der ASNC-Prüfung zur Vorbereitung auf die Facharztanerkennung eine durchschnittliche Genauigkeit von etwa 86 %, wodurch sowohl die geschätzte Bestehensschwelle als auch die durchschnittliche Leistung von Human-Fellows in der Weiterbildung übertroffen wurden.

Ursprüngliche Autoren: Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

Veröffentlicht 2026-05-13

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

CC BY 4.0

Ursprüngliche Autoren: Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

Originalarbeit lizenziert unter CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Stellen Sie sich eine hochriskante Abschlussprüfung für Ärzte vor, die sich auf die Betrachtung von Herzbildern mit speziellen radioaktiven Tracern spezialisiert haben. Dies ist die „Prüfung für Nuklearkardiologie". Seit Jahren versucht Künstliche Intelligenz (KI), diese Prüfung abzulegen, scheiterte jedoch immer wieder und erzielte niedrigere Punktzahlen als der durchschnittliche Medizinstudent.

Dieser Artikel erzählt die Geschichte, wie zwei neue, supersmart KI-Modelle die Prüfung schließlich mit Bravour bestanden und den durchschnittlichen menschlichen Studenten schlugen.

Das Setup: Die Prüfung und der „Spickzettel"

Die Prüfung umfasst 168 Fragen. Einige sind rein textbasiert (wie ein Quiz zum Allgemeinwissen), aber etwa 27 erfordern die Betrachtung komplexer medizinischer Herzbilder.

In der Vergangenheit, als die KI diese Prüfung „kalt" (ohne jegliche Hilfe) ablegte, lag ihre beste Leistung bei etwa 63 % richtigen Antworten. Das ist eine Durchfallnote. Der durchschnittliche menschliche Medizinstudent (ein „Weiterbildender") erzielte 78 %.

Für diese neue Studie gaben die Forscher der KI einen massiven „Spickzettel". Dies war keine einfache Google-Suche; es handelte sich um ein Retrieval-Augmented Generation (RAG)-System. Stellen Sie sich vor, man gibt der KI eine perfekte, durchsuchbare digitale Bibliothek, die die offiziellen Lehrbücher, Atlanten und medizinischen Leitlinien für die Nuklearkardiologie enthält. Wenn die KI eine Frage sieht, taucht sie sofort in diese Bibliothek ein, findet die exakte Seite mit der Antwort und nutzt diese, um ihre Antwort zu formulieren.

Die Kandidaten

Die Forscher testeten zwei neue KI-Modelle der nächsten Generation:

Claude Opus 4.7: Ein Modell, das ein lokales, transparentes Suchsystem verwendet (wie ein Bibliothekar, der Ihnen genau zeigt, welche Bücher er vom Regal genommen hat).
GPT-5.5: Ein Modell, das ein cloudbasiertes Suchsystem verwendet (wie ein Bibliothekar, der die Bücher für Sie findet, Ihnen den Prozess aber nicht zeigt).

Die Ergebnisse: KI schlägt den durchschnittlichen Studenten

Als diese beiden KIs die Prüfung jeweils fünf Mal ablegten, waren die Ergebnisse überraschend:

Die Punktzahlen: Beide Modelle erzielten etwa 86 % bis 87 %.
Der Vergleich: Dies liegt deutlich über der durchschnittlichen Punktzahl des menschlichen Studenten von 78 %. Tatsächlich würden, wenn man die 13 menschlichen Studenten und die 2 KIs in eine Reihe aufstellte, die KIs unter die Top 5 fallen und 8 oder 9 der Menschen schlagen.
Das Tempo des Fortschritts: Dies ist ein massiver Sprung. Noch vor 18 Monaten erzielte die beste KI 63 %. Jetzt, mit dem „Spickzettel" (RAG), sprangen sie um 23 Prozentpunkte.

Die zwei Schwachstellen

Obwohl die KIs gewannen, hatten sie zwei spezifische Schwierigkeiten:

Das „Bild"-Problem: Die KIs waren bei Textfragen hervorragend (mit fast 89 %), stolperten jedoch bei den Bildfragen. Bei Bildern erzielten sie etwa 73–77 % richtige Antworten. Menschen waren hier immer noch besser und erzielten 81,5 %.
- Analogie: Stellen Sie sich vor, die KI ist ein brillanter Professor, der das gesamte Lehrbuch auswendig aufsagen kann, aber immer noch verwirrt ist, wenn er auf ein unscharfes Röntgenbild schaut. Sie kennt die Theorie perfekt, lernt aber immer noch, das „Bild" zu „sehen".
Der „Sicherheits"-Fehler (nur GPT-5.5): GPT-5.5 weigerte sich, etwa 7 % der Fragen zu beantworten. Es sagte: „Es tut mir leid, ich kann dabei nicht helfen", obwohl es sich nur um Standardfragen einer medizinischen Prüfung über Herzmedikamente oder Strahlensicherheit handelte.
- Analogie: Es ist wie ein sehr vorsichtiger Bibliothekar, der sich weigert, Ihnen ein Buch über „wie man eine Bombe baut" auszuhändigen, selbst wenn Sie einen Physikstudenten nach einer legitimen Prüfungsfrage über Kernenergie fragen. Die Sicherheitsfilter der KI waren zu empfindlich, was dazu führte, dass sie Punkte verpasste. Claude Opus 4.7 hatte dieses Problem nicht; es beantwortete alles.

Was die Autoren tatsächlich sagen (und was nicht)

Der Artikel ist sehr vorsichtig bezüglich der Bedeutung dieser Ergebnisse:

Was es IST: Es beweist, dass KI mit den richtigen Referenzmaterialien die Fakten und Regeln der Nuklearkardiologie besser lernen kann als der durchschnittliche Auszubildende. Die Autoren schlagen vor, dass diese Werkzeuge als Lernhilfen verwendet werden könnten, um Studenten beim Lernen zu unterstützen, oder als Referenzwerkzeuge, um Fakten in einem Lesesaal zu überprüfen.
Was es NICHT IST: Die Autoren stellen ausdrücklich fest, dass das Bestehen eines Multiple-Choice-Tests nicht bedeutet, dass die KI bereit ist, Ärztin oder Arzt zu sein. Echte Medizin beinhaltet das Sprechen mit Patienten, den Umgang mit Unsicherheit und das Treffen komplexer Urteile, die eine Multiple-Choice-Prüfung nicht messen kann. Die KI ist ein leistungsfähiges Nachschlagewerk, kein Ersatz für einen menschlichen Arzt.

Das Fazit

Innerhalb eineinhalb Jahren ist die KI vom Durchfallen bei der Prüfung für Nuklearkardiologie zum Schlagen des durchschnittlichen menschlichen Studenten gelangt, vorausgesetzt, sie hat Zugang zu den richtigen Lehrbüchern. Dennoch hat sie immer noch Schwierigkeiten mit der Interpretation medizinischer Bilder, und eines der Modelle ist zu „ängstlich", um bestimmte legitime Fragen zu beantworten. Obwohl dies ein großer Schritt nach vorne für Werkzeuge der medizinischen Ausbildung ist, kommt der Artikel zu dem Schluss, dass diese Maschinen Assistenten und keine Ersatzteile für menschliche Ärzte sind.