Quantifying Hallucinations in Language Language Models on Medical Textbooks

Each language version is independently generated for its own context, not a direct translation.

De "Hallucinerende Arts": Een Simpele Uitleg van het Onderzoek

Stel je voor dat je een zeer slimme, maar nogal ongeduldige student hebt die alles uit zijn hoofd heeft geleerd. Hij kan prachtige zinnen maken, klinkt als een professor en gebruikt de juiste medische termen. Maar als je hem een vraag stelt over een ziekte die hij niet perfect kent, begint hij te hallucineren. Hij verzonnet feiten, bedenkt medicijnen die niet bestaan, of geeft advies dat gevaarlijk is, terwijl hij er zelf volledig van overtuigd is dat hij gelijk heeft.

Dit is precies wat dit onderzoek van de NIH (de Amerikaanse gezondheidsinstantie) onderzocht bij grote kunstmatige intelligentie (AI) modellen, zoals diegene die je misschien gebruikt voor chat of samenvattingen.

Hier is de kern van het verhaal, vertaald naar alledaags Nederlands:

1. Het Probleem: De "Goed Klinkende" Leugenaar

Tot nu toe werden AI-modellen getest op examenvragen (zoals meerkeuzetoetsen). Het probleem? De AI kan de antwoorden vaak uit het geheugen halen, net als een student die de antwoorden van een oud examen heeft geleerd. Dat zegt niets over of hij het begrijpt of dat hij feiten uit zijn duim zuigt.

De onderzoekers wilden weten: Hoe vaak liegt de AI als hij moet antwoorden op basis van een specifiek medisch boekje dat hij net voor het eerst ziet?

2. De Proef: De "Blinde Test"

De onderzoekers maakten een speciale testset:

Ze pikten zinnen uit openbare medische handboeken.
Ze lieten de AI vragen bedenken bij die zinnen en vervolgens de antwoorden geven.
Vervolgens keken echte artsen (specialisten) na of de antwoorden klopten met het boekje.

Het verrassende resultaat:
De AI (LLaMA-70B) gaf in 19,7% van de gevallen een antwoord dat feitelijk onjuist was of verzonnen. Dat is bijna 1 op de 5 antwoorden!

De valstrik: 98,8% van de antwoorden klonk perfect. De zinsbouw was goed, de terminologie was correct, en het klonk overtuigend.
De les: Als een AI er goed uitziet, betekent dat niet dat het waar is. Het is als een acteur die zo goed speelt dat je vergeet dat hij een script leest en niet echt een dokter is.

3. De Vergelijking: Grotere Modellen = Minder Leugens?

De onderzoekers testten daarna 8 verschillende AI-modellen, van klein tot gigantisch.

Grote modellen (zoals de "olifanten" in de AI-wereld) maakten minder fouten dan de kleine modellen.
Maar: Zelfs de grootste, slimste modellen maakten nog steeds fouten. Geen enkel model was 100% betrouwbaar.
De "Inversie"-valstrik: De AI viel het meest op als je de vraag omdraaide. Als je vraagt: "Welk medicijn is veilig?" geeft hij een goed antwoord. Maar als je vraagt: "Welk medicijn is niet veilig?" (een omgekeerde vraag), dan begint de AI vaak te hallucineren en verzonnen antwoorden te geven. Het is alsof de AI goed is in het opnoemen van dingen, maar slecht in het begrijpen van wat er niet mag.

4. De Kosten: Waarom we nog niet op AI kunnen vertrouwen

Dit is misschien wel het belangrijkste punt van het papier.
Om te weten of een AI-antwoord waar is, moet een menselijke arts het controleren.

Het kost tijd en geld om een arts te laten nadenken over elk antwoord.
De onderzoekers berekenden dat de kosten voor het laten controleren door een mens veel hoger zijn dan de kosten om de AI zelf te laten rekenen.
De conclusie: Zolang we geen manier hebben om AI-antwoorden automatisch en 100% betrouwbaar te controleren (net zo goed als een mens), kunnen we deze technologie niet veilig gebruiken in de medische wereld. Het is te riskant om een patiënt te behandelen op basis van een antwoord dat 1 op de 5 keer verzonnen is.

Samenvattend in één zin:

Deze studie laat zien dat medische AI-modellen momenteel nog te veel "verzonnen feiten" produceren die er geloofwaardig uitzien, en dat we voor elke fout die ze maken, een dure menselijke expert nodig hebben om het te corrigeren, waardoor ze voor nu nog niet veilig genoeg zijn om patiënten te behandelen zonder toezicht.

De boodschap: Gebruik AI als een slimme assistent die helpt met zoeken, maar laat nooit een menselijke arts de eindcontrole overnemen. De AI is een briljante schrijver, maar nog geen betrouwbare dokter.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Quantifying Hallucinations in Language Models on Medical Textbooks" in het Nederlands.

Probleemstelling

Grote Taalmodellen (LLM's) behalen expert-niveauscores op bestaande medische vragen-antwoord (QA) benchmarks, maar vertonen nog steeds een ernstig veiligheidsrisico: hallucinaties. Dit zijn feitelijke onjuistheden of claims die niet worden ondersteund door de bron.

Bestaande tekortkomingen: Huidige benchmarks (zoals MEDQA of MedMCQA) zijn vaak gebaseerd op meerkeuzevragen uit examens. Deze meten vaak memorisatie van trainingsdata in plaats van feitelijke redenering op basis van bewijs.
Verontreiniging: Veel benchmarks bevatten items die al in de trainingsdata van de modellen voorkomen, waardoor scores kunstmatig hoog zijn en geen echte generalisatie tonen.
Veiligheid: Zelfs als een antwoord grammaticaal correct en "plausibel" klinkt, kan het medisch onjuist zijn. Er is een dringende behoefte aan een evaluatie die modellen dwingt te redeneren op basis van een autoritaire bron en die elke niet-ondersteunde toevoeging straft.

Methodologie

De auteurs hebben een nieuwe pipeline ontwikkeld, genaamd ClinIQLink (in het artikel verwezen als een geanonimiseerde naam), om hallucinaties te kwantificeren zonder data-verontreiniging.

1. Corpus en Prompt-construktie:

Bron: Publieke medische handboeken (public domain).
Filtering: Paragrafen korter dan 15 tokens of zonder informatieve dichtheid werden verwijderd.
Generatie: Een LLM (LLaMA-70B-Instruct) genereerde diverse QA-paren (7 formaten: waar/onwaar, lijst, meerkeuze, kort antwoord, multi-hop redenering, en twee inverse varianten) op basis van deze bronparagrafen.
Validatie: De gegenereerde paren werden onderworpen aan gestructureerde verificatie door medisch opgeleide annotatoren.

2. Experimenten:

Experiment 1 (Basislijn): Meten van de prevalentie van hallucinaties bij één prominent open-source model (LLaMA-70B-Instruct) op de gegenereerde, nieuwe QA-paren.
Experiment 2 (Cross-model & Voorkeur): Toepassing van de benchmark op 8 verschillende modellen (varierend in grootte en architectuur, inclusief LLaMA-3/4, Qwen, Mistral, Falcon en interne modellen).
- Klinische evaluatie: Klinici rangschikten de antwoorden van anonieme modellen (beste tot slechtste) en labelden ze als "Goed", "Oké" of "Slecht". Ze markeerden ook specifieke ongegronde claims.

3. Metrieken:

Hallucinatiemarge: Het percentage antwoorden dat feitelijke onjuistheden bevatte of niet overeenkwam met de bron.
Plausibiliteit: Hoeveelheid antwoorden die medisch geloofwaardig leken (terwijl ze fout waren).
Statistiek: Cohen's $\kappa$ voor inter-annotator betrouwbaarheid, Spearman's rangcorrelatie tussen hallucinatie en klinische bruikbaarheid.

Belangrijkste Bijdragen

Een nieuwe, verontreinigingsbestendige benchmark: Een dataset van 5.543 QA-paren die strikt gekoppeld is aan bronparagrafen uit medische handboeken, waardoor hallucinaties direct als "niet-ondersteund door de bron" kunnen worden gemeten.
Kwantificering van de "Plausibiliteitsval": Het aantonen dat een antwoord zeer plausibel kan klinken (98,8% kreeg de maximale score voor geloofwaardigheid) terwijl het toch hallucinaties bevat.
Inzicht in vraagformaten: Het identificeren dat inverse prompts (bijv. "Welk medicijn is niet veilig?" in plaats van "Welk medicijn is veilig?") en lijst-vragen (compleetheid testen) de meest effectieve methoden zijn om hallucinaties op te wekken.
Kostenanalyse: Een gedetailleerde analyse van de kosten van cloud-GPU-gebruik versus de kosten van menselijke verificatie, waarbij laatstgenoemde de dominante kostenpost is.

Resultaten

Experiment 1 (LLaMA-70B-Instruct):

Hallucinatiemarge: 19,7% (95% CI: 18,6% - 20,7%) van de antwoorden bevatten hallucinaties.
Plausibiliteit: 98,8% van de antwoorden kreeg een maximale score voor medische geloofwaardigheid. Dit betekent dat hallucinaties voor leken of niet-experts nauwelijks te detecteren zijn.
Betrouwbaarheid: De inter-annotator overeenstemming was zeer hoog ( $\kappa = 0,92$ ).

Experiment 2 (Cross-model vergelijking):

Schaal en Architectuur: Er is een duidelijke negatieve correlatie tussen modelgrootte en hallucinatiefrequentie.
- Bij 1B-modellen: 27,1% hallucinaties.
- Bij 70B-modellen: 9,3% hallucinaties.
Klinische Voorkeur: Er was een sterke negatieve correlatie ( $\rho = -0,71$ ) tussen de hallucinatiegraad en de door clinicians gegeven bruikbaarheidsscore. Modellen met minder hallucinaties werden als nuttiger beoordeeld.
Invloed van Vraagtype:
- Inverse prompts veroorzaakten 6-9% meer hallucinaties dan standaard prompts.
- Lijst-vragen (bijv. "Noem alle contra-indicaties") leidden vaak tot onvolledige of onjuiste antwoorden, zelfs bij de grootste modellen.
Algemene bevinding: Geen enkel model was volledig vrij van hallucinaties; elk model produceerde nog steeds "Slechte" antwoorden.

Betekenis en Conclusie

Het artikel concludeert dat huidige LLM's niet geschikt zijn voor ongecontroleerde klinische toepassing.

Veiligheid: Zelfs de beste modellen hallucineren in ongeveer 1 op de 10 tot 1 op de 5 gevallen, vaak op een manier die voor de leek geloofwaardig overkomt.
De "Plausibiliteitsval": De hoge plausibiliteit van hallucinaties maakt automatische detectie extreem moeilijk.
Kosten en Menselijke Toezicht: De kosten voor menselijke verificatie door klinici zijn meer dan een orde van grootte hoger dan de kosten voor het genereren van de data. Zolang verificatie niet betrouwbaar kan worden geautomatiseerd, is menselijk toezicht een onmisbare (en kostbare) vereiste voor medische toepassingen.
Aanbeveling: Benchmarks moeten inverse prompts en lijst-vragen bevatten om modellen echt te testen op hun vermogen om feitelijke kennis te leveren zonder te hallucineren.

Kortom, hoewel LLM's indrukwekkende prestaties leveren op traditionele tests, blijven ze een veiligheidsrisico in de medische praktijk zonder strikt menselijk toezicht.

Quantifying Hallucinations in Language Language Models on Medical Textbooks

1. Het Probleem: De "Goed Klinkende" Leugenaar

2. De Proef: De "Blinde Test"

3. De Vergelijking: Grotere Modellen = Minder Leugens?

4. De Kosten: Waarom we nog niet op AI kunnen vertrouwen

Samenvattend in één zin:

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models