Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

Gepubliceerd 2026-05-13

📖 5 min leestijd🧠 Diepgaand

Bekijk op medRxiv ↗PDF ↗

CC BY 4.0

Oorspronkelijke auteurs: Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Stel je een examen van het allerhoogste niveau voor voor artsen die gespecialiseerd zijn in het bekijken van afbeeldingen van het hart met behulp van speciale radioactieve tracers. Dit is het "Nuclear Cardiology Board Exam". Jarenlang heeft Kunstmatige Intelligentie (KI) geprobeerd dit examen te halen, maar het bleef falen en scoorde lager dan de gemiddelde medische student.

Dit artikel vertelt het verhaal van hoe twee nieuwe, superintelligente KI-modellen het examen eindelijk met vlag en wimpel haalden, de gemiddelde menselijke student verslaan.

De Opzet: Het Examen en het "Spiekbriefje"

Het examen bestaat uit 168 vragen. Sommige zijn puur tekst (zoals een trivia-quiz), maar ongeveer 27 ervan vereisen het bekijken van complexe medische afbeeldingen van harten.

In het verleden, wanneer KI het examen "koud" probeerde te doen (zonder enige hulp), was het beste resultaat ongeveer 63% goed. Dat is een onvoldoende. De gemiddelde menselijke medische student (een 'fellow-in-training') scoorde 78%.

Voor deze nieuwe studie gaven de onderzoekers de KI een enorm "spiekbriefje". Dit was niet zomaar een snelle Google-zoekopdracht; het was een Retrieval-Augmented Generation (RAG)-systeem. Denk hierbij aan het geven van een perfecte, doorzoekbare digitale bibliotheek aan de KI, met daarin de officiële leerboeken, atlassen en medische richtlijnen voor nucleaire cardiologie. Wanneer de KI een vraag ziet, duikt het direct in deze bibliotheek, vindt het de exacte pagina met het antwoord en gebruikt dat om zijn reactie te formuleren.

De Deelnemers

De onderzoekers testten twee nieuwe, next-generation KI-modellen:

Claude Opus 4.7: Een model dat een lokaal, transparant zoeksysteem gebruikt (zoals een bibliothecaris die je precies laat zien welke boeken het uit de kast heeft gehaald).
GPT-5.5: Een model dat een cloud-gebaseerd zoeksysteem gebruikt (zoals een bibliothecaris die de boeken voor je vindt, maar het proces niet laat zien).

De Resultaten: KI Verslaat de Gemiddelde Student

Toen deze twee KI's het examen vijf keer elk aflegden, waren de resultaten verrassend:

De Scores: Beide modellen scoorden rond de 86% tot 87%.
De Vergelijking: Dit is significant hoger dan de score van de gemiddelde menselijke student van 78%. Sterker nog, als je de 13 menselijke studenten en de 2 KI's naast elkaar zou zetten, zouden de KI's in de top 5 staan, 8 of 9 van de mensen verslaan.
De Snelheid van Vooruitgang: Dit is een enorme sprong. Slechts 18 maanden geleden scoorde de beste KI 63%. Nu, met het "spiekbriefje" (RAG), maakten ze een sprong van 23 procentpunten.

De Twee Zwakke Plekken

Hoewel de KI's wonnen, hadden ze twee specifieke problemen:

Het "Afbeelding"-Probleem: De KI's waren uitstekend in tekstvragen (met een score van bijna 89%), maar struikelden over de afbeeldingsvragen. Ze haalden ongeveer 73–77% goed op afbeeldingen. Mensen waren hier nog steeds beter in, met een score van 81,5%.
- Analogie: Stel je de KI voor als een briljante professor die het hele leerboek uit zijn hoofd kan opzeggen, maar nog steeds in de war raakt wanneer hij naar een wazige röntgenfoto kijkt. Hij kent de theorie perfect, maar leert nog steeds hoe hij het plaatje moet "zien".
De "Veiligheids"-Glitch (alleen bij GPT-5.5): GPT-5.5 weigerde ongeveer 7% van de vragen te beantwoorden. Het zou zeggen: "Het spijt me, ik kan hier niet mee helpen", terwijl de vragen gewoon standaard medische examenvragen waren over hartmedicijnen of stralingsveiligheid.
- Analogie: Het is als een zeer voorzichtige bibliothecaris die weigert je een boek te geven over "hoe je een bom bouwt", zelfs als je een natuurkundestudent bent die een legitieme examenvraag stelt over kernenergie. De veiligheidsfilters van de KI waren te gevoelig, waardoor het punten miste. Claude Opus 4.7 had dit probleem niet; het beantwoordde alles.

Wat de Auteurs Eigenlijk Zeggen (en Niet Zeggen)

Het artikel is zeer voorzichtig over wat dit betekent:

Wat het IS: Het bewijst dat KI met de juiste referentiematerialen de feiten en regels van nucleaire cardiologie beter kan leren dan de gemiddelde trainee. De auteurs suggereren dat deze hulpmiddelen kunnen worden gebruikt als educatieve hulpmiddelen om studenten te helpen studeren, of als referentiehulpmiddelen om feiten in een leeszaal te verifiëren.
Wat het NIET IS: De auteurs stellen expliciet dat het halen van een meerkeuzetoets niet betekent dat de KI klaar is om arts te worden. Echt medisch handelen omvat het praten met patiënten, omgaan met onzekerheid en het maken van complexe oordelen die een meerkeuzetoets niet kan meten. De KI is een krachtig naslagwerk, geen vervanging voor een menselijk arts.

De Conclusie

In de loop van anderhalf jaar is KI gegaan van het zakken voor het nuclear cardiology board-examen naar het verslaan van de gemiddelde menselijke student, mits het toegang heeft tot de juiste leerboeken. Het worstelt echter nog steeds met het interpreteren van medische afbeeldingen, en een van de modellen is te "bang" om bepaalde legitieme vragen te beantwoorden. Hoewel het een enorme stap voorwaarts is voor hulpmiddelen in medisch onderwijs, concludeert het artikel dat deze machines assistenten zijn, geen vervangingen, voor menselijke artsen.

Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human Performance on the Nuclear Cardiology Board Preparation Exam (and Claude Drafts a Paper About it)

De Opzet: Het Examen en het "Spiekbriefje"

De Deelnemers

De Resultaten: KI Verslaat de Gemiddelde Student

De Twee Zwakke Plekken

Wat de Auteurs Eigenlijk Zeggen (en Niet Zeggen)

De Conclusie

Technische Samenvatting: Retrieval-Augmented LLMs Presteren Beter dan Mensen op Examens voor Hartkankerinfectie

Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human Performance on the Nuclear Cardiology Board Preparation Exam (and Claude Drafts a Paper About it)

De Opzet: Het Examen en het "Spiekbriefje"

De Deelnemers

De Resultaten: KI Verslaat de Gemiddelde Student

De Twee Zwakke Plekken

Wat de Auteurs Eigenlijk Zeggen (en Niet Zeggen)

De Conclusie

Technische Samenvatting: Retrieval-Augmented LLMs Presteren Beter dan Mensen op Examens voor Hartkankerinfectie

Meer zoals dit