Aggregate benchmark scores obscure patient safety implications of errors across frontier language models

⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom een hoge cijfer niet betekent dat een AI-arts veilig is

Stel je voor dat je een nieuwe auto koopt. De verkoper laat je een rapport zien met een gemiddeld cijfer van 8,5/10. Dat klinkt geweldig, toch? Maar wat als je niet weet dat die auto op de snelweg perfect rijdt, maar bij het remmen in de regen volledig uitvalt? Of dat hij soms te hard remt en je bijna laat vallen, en soms te laat remt waardoor je een ongeluk krijgt?

Dat is precies wat deze studie doet met de nieuwste kunstmatige intelligentie (AI) die mensen gebruiken voor medische vragen.

Het probleem: De "Gemiddelde Cijfer"-valkuil

De onderzoekers keken naar negen verschillende AI-modellen (zoals de nieuwste versies van ChatGPT, Claude en Gemini) die mensen gebruiken om te vragen: "Is dit een noodgeval of kan ik morgen naar de huisarts?"

De fabrikanten geven vaak één groot gemiddeld cijfer (bijvoorbeeld "87% accuraat"). Maar in de medische wereld is hoe je fout gaat, belangrijker dan hoe vaak je fout gaat.

De auteurs gebruiken een mooie analogie:

Onder-triage (Te weinig zorg): De AI zegt: "Geen zorgen, ga naar huis," terwijl de patiënt eigenlijk direct naar de spoedeisende hulp moet. Dit is als een brandweerman die zegt: "Dat is maar een klein vonkje," terwijl het huis in brand staat. Gevaarlijk.
Over-triage (Te veel zorg): De AI zegt: "Bel direct 112," terwijl de patiënt alleen een verkoudheid heeft. Dit is als een brandweerman die met een blusboot komt voor een klein vuurtje in de keuken. Ongemakkelijk en duur, maar niet levensgevaarlijk.

Een gemiddeld cijfer van 87% kan betekenen dat een model perfect is, of dat het 50% van de tijd te weinig doet en 50% van de tijd te veel doet. Die twee situaties zijn totaal verschillend voor de veiligheid van de patiënt, maar het gemiddelde cijfer ziet ze als hetzelfde.

Wat vonden ze? (De verrassingen)

Hogere cijfers = Niet per se veiliger
Sommige modellen hadden een heel hoog gemiddeld cijfer, maar bleken juist heel vaak onder-triage te doen (ze lieten mensen met levensgevaarlijke symptomen naar huis sturen). Een ander model had een iets lager cijfer, maar was juist heel voorzichtig en verwees iedereen naar de dokter. Het gemiddelde cijfer vertelde je niets over dit cruciale verschil.
De "Vriend die het klein houdt"
De onderzoekers testten wat er gebeurde als iemand in de vraag zei: "Mijn vriend zegt dat het wel meevalt."
- Resultaat: Bijna alle AI-modellen werden dan slimmer in het negeren van de symptomen. Ze dachten: "Ah, de vriend zegt dat het niet erg is, dus ik zeg ook dat het niet erg is."
- Gevolg: Mensen met twijfelachtige, maar ernstige symptomen werden vaker naar huis gestuurd. Dit gebeurde bij alle modellen, ongeacht hoe "slim" ze waren. Het is alsof een dokter luistert naar een vriend die zegt: "Het is niets," en dan zelf ook stopt met kijken.
Zelfmoord en hulpbronnen
Als mensen aangaven dat ze suïcidale gedachten hadden, gaven de AI-modellen vaak geen telefoonnummer voor hulp (zoals 0800-047 of 113). Soms deden ze dit wel, soms niet. Het was een groot loterijspel. Als je in crisis bent, wil je niet dat de AI "vergeten" is om je te helpen.
Nieuwe versies = Niet per se beter
De onderzoekers keken naar de allernieuwste modellen (bijv. GPT-5.4 vs. GPT-5.2). Soms was de nieuwste versie juist veiliger, maar soms maakte hij juist meer ernstige fouten dan de oude versie. Je kunt dus niet zomaar aannemen dat "nieuwer" altijd "veiliger" is.

De conclusie in het kort

Deze studie zegt: Stop met kijken naar alleen het gemiddelde cijfer.

Het is alsof je een dokter beoordeelt op basis van hoeveel patiënten hij in totaal heeft gezien, in plaats van te kijken of hij de juiste diagnose stelde bij de mensen die het echt nodig hadden.

Als we AI willen gebruiken voor onze gezondheid, moeten we kijken naar:

Hoe vaak laat hij mensen met een noodgeval naar huis sturen?
Wordt hij beïnvloed door wat een vriend zegt?
Geeft hij hulp bij mentale crisissen?

Zolang we alleen kijken naar het "gemiddelde cijfer", zien we de gevaren die voor ons liggen. We hebben een nieuwe manier van testen nodig die kijkt naar de richting van de fouten, niet alleen naar het aantal fouten.

Kortom: Een hoge score op een test betekent niet dat de AI een veilige arts is. Soms is een model dat "veiligheid" kiest door te veel naar de dokter te verwijzen, veiliger dan een model dat "slim" lijkt maar mensen in gevaar laat.

Aggregate benchmark scores obscure patient safety implications of errors across frontier language models

Het probleem: De "Gemiddelde Cijfer"-valkuil

Wat vonden ze? (De verrassingen)

De conclusie in het kort

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen en Significatie

Aggregate benchmark scores obscure patient safety implications of errors across frontier language models

Het probleem: De "Gemiddelde Cijfer"-valkuil

Wat vonden ze? (De verrassingen)

De conclusie in het kort

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen en Significatie

Meer zoals dit

A case report on gendered biases in a Finnish healthcare AI assistant

An End-to-End Synthetic Oncology Clinical Trial Framework Integrating Radiographic Response, Circulating Tumor DNA, Safety, and Survival for Decision-Oriented Clinical Data Science

Who is leading medical AI? A systematic review and scientometric analysis of chest x-ray research

High-Throughput Observational Evidence Generation Using Linked Electronic Health Record and Claims Data

Perception of Safety in Behavioral Health Crisis Units among Patients and Care Partners versus Artificial Intelligence (AI): A Multimethod Study