Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Each language version is independently generated for its own context, not a direct translation.

De "Kleine Dokter" in de Drukke Wachtzaal: Waarom Kleine AI's soms te betrouwbaar fout zijn

Stel je voor dat je in een afgelegen dorp woont, ver weg van de grote stad. Er is geen snel internet en geen dure supercomputer. Maar er is wel een dokter die hulp nodig heeft bij het stellen van diagnoses. Gelukkig hebben we nu slimme, kleine kunstmatige intelligenties (AI) die op een gewone laptop kunnen draaien, zonder dat je een dure server nodig hebt. Dit klinkt als een droom voor arme regio's, maar deze studie vraagt zich af: kunnen we deze kleine digitale dokters wel vertrouwen?

De onderzoekers van dit paper hebben een experiment gedaan met vijf verschillende "kleine" AI-modellen. Ze stelden ze dezelfde medische vragen, maar dan op vijf verschillende manieren:

Origineel: De vraag zoals hij in het boek staat.
Formeel: Alsof een professor het vraagt.
Simpel: Alsof een leek het vraagt.
Direct: Gewoon de vraag, zonder omhaal.
Rolspel: "Je bent nu een ervaren arts, beantwoord deze vraag."

Hier zijn de belangrijkste lessen, vertaald in alledaagse taal:

1. Betrouwbaarheid betekent niet altijd juistheid (De "Stijve Koe" vs. de "Slimme Dwaas")

Dit is misschien wel het belangrijkste punt. Je zou denken: als een AI steeds hetzelfde antwoord geeft, ongeacht hoe je de vraag stelt, moet hij wel slim zijn. Niet waar.

De Analogie: Stel je een stugge koe voor die elke keer "Moe" zegt, of je haar nu vraagt of ze honger heeft of of ze moe is. Ze is consistent (altijd hetzelfde antwoord), maar ze is niet correct.
In de studie: Het model Gemma 2 was de meest "stugge koe". Het gaf bijna altijd hetzelfde antwoord, ongeacht de vraag. Maar helaas was dat antwoord vaak fout. Het was een "betrouwbare dwaler".
De winnaar: Llama 3.2 was iets minder stug (soms gaf hij een ander antwoord als je de vraag anders stelde), maar hij gaf veel vaker het juiste antwoord. Voor een dokter is het beter om een AI te hebben die soms twijfelt en het goed heeft, dan een AI die zeker is en het fout heeft.

2. "Doe alsof" werkt niet (Het kostuum van de arts)

Veel mensen denken: "Als ik de AI vraag om te doen alsof hij een arts is, zal hij dan slimmer worden?"

De Analogie: Het is alsof je een kind een doktersjasje aantrekt en vraagt of hij een operatie kan uitvoeren. Het kostuum maakt hem niet ineens een chirurg; het verstoort juist zijn focus.
In de studie: Zodra de AI's werden gevraagd om "rol te spelen" (bijvoorbeeld: "Je bent een senior arts"), werden ze allemaal slechter. Ze maakten meer fouten. De kleine AI's raken in de war door de "personage" en vergeten hun eigen taak: de feitelijke vraag beantwoorden.
Advies: Houd het simpel. Vraag gewoon de vraag, zonder theater.

3. Grootte is niet alles (De olifant in de kamer)

Je zou denken dat een groter model (met meer "hersencellen") altijd beter is.

De Analogie: Een olifant is groot en sterk, maar hij kan niet altijd door een smalle deur. Soms is een slimme hond (kleiner) juist handiger.
In de studie: Het grootste model (Mistral 7B) was niet per se de beste. En het model dat speciaal was getraind op medische kennis (Meditron), faalde volledig op de opdracht. Waarom? Omdat het wel veel medische feiten wist, maar niet wist hoe hij zijn antwoord moest geven (bijvoorbeeld: "Ja" of "Nee"). Het was als een professor die alles weet, maar niet kan praten.
Conclusie: Je hebt niet alleen kennis nodig, je moet ook weten hoe je de opdracht uitvoert.

4. Het gevaar van de "Zekerheid"

Het grootste risico in de medische wereld is niet dat de AI soms twijfelt, maar dat hij zeker is over iets dat fout is.

Als een AI elke keer, op elke manier, hetzelfde fout antwoord geeft, gaat de dokter denken: "Ah, dit systeem is betrouwbaar!" en vertrouwt het blindelings. Dat kan leiden tot verkeerde diagnoses.
Een AI die soms "hmm, misschien" zegt en dan het juiste antwoord geeft, is veiliger, omdat de dokter alert blijft.

Wat betekent dit voor de toekomst?

Voor ziekenhuizen in arme gebieden, waar ze geen dure computers hebben, is dit een gouden raad:

Kies niet voor het model dat het meest "stijf" en consistent lijkt.
Kies niet voor modellen die je moet "vermommen" als arts.
Kies een model dat Llama 3.2 lijkt: het geeft het juiste antwoord, luistert goed naar de instructies, en is niet bang om een beetje variatie te tonen.

Kortom: In de wereld van medische AI is "altijd hetzelfde zeggen" gevaarlijk als je het verkeerd zegt. We hebben AI's nodig die niet alleen consistent zijn, maar vooral juist. En vergeet het kostuum: een AI is een hulpmiddel, geen acteur.

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

1. Betrouwbaarheid betekent niet altijd juistheid (De "Stijve Koe" vs. de "Slimme Dwaas")

2. "Doe alsof" werkt niet (Het kostuum van de arts)

3. Grootte is niet alles (De olifant in de kamer)

4. Het gevaar van de "Zekerheid"

Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen en Significatie

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

1. Betrouwbaarheid betekent niet altijd juistheid (De "Stijve Koe" vs. de "Slimme Dwaas")

2. "Doe alsof" werkt niet (Het kostuum van de arts)

3. Grootte is niet alles (De olifant in de kamer)

4. Het gevaar van de "Zekerheid"

Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen en Significatie

Meer zoals dit

Rethinking and Red-Teaming Protective Perturbation in Personalized Diffusion Models

A Survey of Mamba

A Guide to Bayesian Networks Software Packages for Structure and Parameter Learning -- 2025 Edition

AI Literacy for Legal AI Systems: A practical approach

Parallel BiLSTM-Transformer networks for forecasting chaotic dynamics