Aggregate benchmark scores obscure patient safety implications of errors across frontier language models

De studie toont aan dat geaggregeerde benchmarkscores de klinische veiligheidsimplicaties van fouten in frontier taalmodellen voor gezondheidszorg verdoezelen, omdat variaties in triage-richting, contextuele bias en crisisrespons niet worden weergegeven door de algehele nauwkeurigheid.

Linzmayer, R., Ramaswamy, A., Hugo, H., Nadkarni, G., Elhadad, N.

Gepubliceerd 2026-03-20
📖 4 min leestijd☕ Koffiepauze-leesvoer
⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom een hoge cijfer niet betekent dat een AI-arts veilig is

Stel je voor dat je een nieuwe auto koopt. De verkoper laat je een rapport zien met een gemiddeld cijfer van 8,5/10. Dat klinkt geweldig, toch? Maar wat als je niet weet dat die auto op de snelweg perfect rijdt, maar bij het remmen in de regen volledig uitvalt? Of dat hij soms te hard remt en je bijna laat vallen, en soms te laat remt waardoor je een ongeluk krijgt?

Dat is precies wat deze studie doet met de nieuwste kunstmatige intelligentie (AI) die mensen gebruiken voor medische vragen.

Het probleem: De "Gemiddelde Cijfer"-valkuil

De onderzoekers keken naar negen verschillende AI-modellen (zoals de nieuwste versies van ChatGPT, Claude en Gemini) die mensen gebruiken om te vragen: "Is dit een noodgeval of kan ik morgen naar de huisarts?"

De fabrikanten geven vaak één groot gemiddeld cijfer (bijvoorbeeld "87% accuraat"). Maar in de medische wereld is hoe je fout gaat, belangrijker dan hoe vaak je fout gaat.

De auteurs gebruiken een mooie analogie:

  • Onder-triage (Te weinig zorg): De AI zegt: "Geen zorgen, ga naar huis," terwijl de patiënt eigenlijk direct naar de spoedeisende hulp moet. Dit is als een brandweerman die zegt: "Dat is maar een klein vonkje," terwijl het huis in brand staat. Gevaarlijk.
  • Over-triage (Te veel zorg): De AI zegt: "Bel direct 112," terwijl de patiënt alleen een verkoudheid heeft. Dit is als een brandweerman die met een blusboot komt voor een klein vuurtje in de keuken. Ongemakkelijk en duur, maar niet levensgevaarlijk.

Een gemiddeld cijfer van 87% kan betekenen dat een model perfect is, of dat het 50% van de tijd te weinig doet en 50% van de tijd te veel doet. Die twee situaties zijn totaal verschillend voor de veiligheid van de patiënt, maar het gemiddelde cijfer ziet ze als hetzelfde.

Wat vonden ze? (De verrassingen)

  1. Hogere cijfers = Niet per se veiliger
    Sommige modellen hadden een heel hoog gemiddeld cijfer, maar bleken juist heel vaak onder-triage te doen (ze lieten mensen met levensgevaarlijke symptomen naar huis sturen). Een ander model had een iets lager cijfer, maar was juist heel voorzichtig en verwees iedereen naar de dokter. Het gemiddelde cijfer vertelde je niets over dit cruciale verschil.

  2. De "Vriend die het klein houdt"
    De onderzoekers testten wat er gebeurde als iemand in de vraag zei: "Mijn vriend zegt dat het wel meevalt."

    • Resultaat: Bijna alle AI-modellen werden dan slimmer in het negeren van de symptomen. Ze dachten: "Ah, de vriend zegt dat het niet erg is, dus ik zeg ook dat het niet erg is."
    • Gevolg: Mensen met twijfelachtige, maar ernstige symptomen werden vaker naar huis gestuurd. Dit gebeurde bij alle modellen, ongeacht hoe "slim" ze waren. Het is alsof een dokter luistert naar een vriend die zegt: "Het is niets," en dan zelf ook stopt met kijken.
  3. Zelfmoord en hulpbronnen
    Als mensen aangaven dat ze suïcidale gedachten hadden, gaven de AI-modellen vaak geen telefoonnummer voor hulp (zoals 0800-047 of 113). Soms deden ze dit wel, soms niet. Het was een groot loterijspel. Als je in crisis bent, wil je niet dat de AI "vergeten" is om je te helpen.

  4. Nieuwe versies = Niet per se beter
    De onderzoekers keken naar de allernieuwste modellen (bijv. GPT-5.4 vs. GPT-5.2). Soms was de nieuwste versie juist veiliger, maar soms maakte hij juist meer ernstige fouten dan de oude versie. Je kunt dus niet zomaar aannemen dat "nieuwer" altijd "veiliger" is.

De conclusie in het kort

Deze studie zegt: Stop met kijken naar alleen het gemiddelde cijfer.

Het is alsof je een dokter beoordeelt op basis van hoeveel patiënten hij in totaal heeft gezien, in plaats van te kijken of hij de juiste diagnose stelde bij de mensen die het echt nodig hadden.

Als we AI willen gebruiken voor onze gezondheid, moeten we kijken naar:

  • Hoe vaak laat hij mensen met een noodgeval naar huis sturen?
  • Wordt hij beïnvloed door wat een vriend zegt?
  • Geeft hij hulp bij mentale crisissen?

Zolang we alleen kijken naar het "gemiddelde cijfer", zien we de gevaren die voor ons liggen. We hebben een nieuwe manier van testen nodig die kijkt naar de richting van de fouten, niet alleen naar het aantal fouten.

Kortom: Een hoge score op een test betekent niet dat de AI een veilige arts is. Soms is een model dat "veiligheid" kiest door te veel naar de dokter te verwijzen, veiliger dan een model dat "slim" lijkt maar mensen in gevaar laat.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →