Medical errors in large language models revealed using 1,000 synthetic clinical transcripts

⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

De Medische AI die te snel oordeelt: Een verhaal over 1.000 uitvindingen

Stel je voor dat je een superintelligente robotarts hebt. Deze robot is getraind op miljoenen medische boeken en kan diagnoses stellen alsof het niets is. Maar wat gebeurt er als je die robot niet een perfect, schoon medisch dossier geeft, maar een rommelig, onvolledig gesprek zoals je dat in de echte wereld tegenkomt?

Dat is precies wat onderzoekers van het Imperial College London hebben onderzocht. Ze hebben een digitale simulatie-machine gebouwd die 1.000 unieke, nep-patiënten creëerde. Deze machine is als een enorme toneelgroep die 1.000 verschillende rollen speelt: van de ouderwetse, kortaf pratende meneer tot de paniekerige dame die alles uit de doeken doet, en alles daartussenin.

Hier is wat ze ontdekten, vertaald in begrijpelijke taal:

1. De "Textboek" Valstrik

Tot nu toe testen we medische AI's met "textboek-gevallen". Dat zijn perfecte scenario's: "De patiënt heeft een hoofdpijn die 3 dagen duurt, aan de linkerkant, met lichtschuwheid. Wat is het?" (Antwoord: Migraine).
In de echte wereld is het echter vaak: "Ik heb een pijn, ik weet niet hoe lang, het voelt raar, en ik heb gisteren nog koffie gedronken..."
De onderzoekers zeiden: "Laten we stoppen met die perfecte testjes en de AI's echt onder druk zetten." Ze lieten de AI's 1.000 van die rommelige, onvolledige gesprekken lezen.

2. De Robot die te zeker is

Het meest verrassende (en gevaarlijke) resultaat was dit: De AI's durfden niet om meer informatie te vragen.
In de echte wereld, als een arts niet genoeg informatie heeft, zegt hij: "Ik weet het niet zeker, laten we eerst een scan maken of een bloedtest doen."
De AI's deden het tegenovergestelde. Als ze maar een klein beetje informatie hadden, maakten ze direct een vast besluit. Ze dachten: "Oké, ik heb niet alles gehoord, maar ik ga ervan uit dat het niets is."

Het gevaar: Bij levensgevaarlijke situaties (zoals een hersenbloeding of een tumor) adviseerden de AI's vaak: "Geen paniek, ga maar rusten en drink een kopje thee." In plaats van te zeggen: "Dit klinkt als een noodgeval, ga direct naar het ziekenhuis!"
De analogie: Het is alsof je een detective bent die een moordzaak onderzoekt. Als hij maar één verdachte heeft gezien, zegt hij: "Geen zorgen, het was een ongeluk," in plaats van: "Ik heb niet genoeg bewijs, laten we de hele stad afzoeken."

3. De "Mini" vs. De "Pro"

Ze testten twee modellen: een zeer slimme versie (GPT-5.2) en een snellere, goedkopere versie (GPT-5-mini).

De slimme versie was goed in het stellen van de juiste diagnose als ze alles wisten (97,5% goed). Maar zelfs zij maakten gevaarlijke fouten bij onvolledige informatie.
De kleine versie deed het veel slechter. Ze gaf vaker verkeerde medicijnen (zoals pijnstillers die gevaarlijk kunnen zijn) en stuurde patiënten met ernstige klachten naar huis.
De les: Je kunt niet zomaar de goedkoopste, snelste AI gebruiken voor medisch advies. Net als bij een auto: een goedkope tweedehands auto is prima om naar de supermarkt te gaan, maar niet om een Formule 1-race te rijden.

4. Vooroordelen en ongelijkheid

De AI's hadden ook een rare bias (vooroordeel). Vrouwen kregen vaker het advies om "zelf te regelen" of "wacht maar even" dan mannen, zelfs als ze dezelfde ernstige symptomen hadden.

De analogie: Het is alsof een automatische tolpoort voor vrouwen langzamer opent dan voor mannen, zelfs als beide auto's dezelfde snelheid hebben. De AI "dacht" dat vrouwen minder serieus moesten worden genomen.

5. Waarom is dit zo belangrijk?

De onderzoekers zeggen: "We moeten stoppen met het testen van AI's met perfecte quizvragen. We moeten ze testen in de 'modderige' realiteit."
Als we AI's in ziekenhuizen of apps zetten die miljoenen mensen gebruiken, moeten we zeker weten dat ze niet te snel oordelen. Ze moeten leren dat "ik weet het niet" een veiliger antwoord is dan "ik denk dat het niets is" als er te weinig informatie is.

Samenvattend:
Deze studie is als een crashtest voor medische AI's. Ze lieten zien dat hoewel deze robots slim zijn in het memoriseren van feiten, ze nog niet slim genoeg zijn in het voorzichtig zijn. Ze missen de menselijke intuïtie om te zeggen: "Wacht, ik heb niet genoeg info, laat ons eerst verder kijken." Zolang ze dat niet kunnen, zijn ze nog te gevaarlijk om volledig op te vertrouwen als je echt ziek bent.

Medical errors in large language models revealed using 1,000 synthetic clinical transcripts

1. De "Textboek" Valstrik

2. De Robot die te zeker is

3. De "Mini" vs. De "Pro"

4. Vooroordelen en ongelijkheid

5. Waarom is dit zo belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Medical errors in large language models revealed using 1,000 synthetic clinical transcripts

1. De "Textboek" Valstrik

2. De Robot die te zeker is

3. De "Mini" vs. De "Pro"

4. Vooroordelen en ongelijkheid

5. Waarom is dit zo belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

A case report on gendered biases in a Finnish healthcare AI assistant

An End-to-End Synthetic Oncology Clinical Trial Framework Integrating Radiographic Response, Circulating Tumor DNA, Safety, and Survival for Decision-Oriented Clinical Data Science

Who is leading medical AI? A systematic review and scientometric analysis of chest x-ray research

High-Throughput Observational Evidence Generation Using Linked Electronic Health Record and Claims Data

Perception of Safety in Behavioral Health Crisis Units among Patients and Care Partners versus Artificial Intelligence (AI): A Multimethod Study