Quantifying Hallucinations in Language Language Models on Medical Textbooks

Dit onderzoek kwantificeert hallucinaties in medische vraag-antwoordtaken van taalmodellen en toont aan dat LLaMA-70B-Instruct in 19,7% van de gevallen feitelijke fouten maakt ondanks hoge plausibiliteit, terwijl een negatief verband wordt gevonden tussen hallucinatiepercentages en de door clinici beoordeelde bruikbaarheid.

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De "Hallucinerende Arts": Een Simpele Uitleg van het Onderzoek

Stel je voor dat je een zeer slimme, maar nogal ongeduldige student hebt die alles uit zijn hoofd heeft geleerd. Hij kan prachtige zinnen maken, klinkt als een professor en gebruikt de juiste medische termen. Maar als je hem een vraag stelt over een ziekte die hij niet perfect kent, begint hij te hallucineren. Hij verzonnet feiten, bedenkt medicijnen die niet bestaan, of geeft advies dat gevaarlijk is, terwijl hij er zelf volledig van overtuigd is dat hij gelijk heeft.

Dit is precies wat dit onderzoek van de NIH (de Amerikaanse gezondheidsinstantie) onderzocht bij grote kunstmatige intelligentie (AI) modellen, zoals diegene die je misschien gebruikt voor chat of samenvattingen.

Hier is de kern van het verhaal, vertaald naar alledaags Nederlands:

1. Het Probleem: De "Goed Klinkende" Leugenaar

Tot nu toe werden AI-modellen getest op examenvragen (zoals meerkeuzetoetsen). Het probleem? De AI kan de antwoorden vaak uit het geheugen halen, net als een student die de antwoorden van een oud examen heeft geleerd. Dat zegt niets over of hij het begrijpt of dat hij feiten uit zijn duim zuigt.

De onderzoekers wilden weten: Hoe vaak liegt de AI als hij moet antwoorden op basis van een specifiek medisch boekje dat hij net voor het eerst ziet?

2. De Proef: De "Blinde Test"

De onderzoekers maakten een speciale testset:

  • Ze pikten zinnen uit openbare medische handboeken.
  • Ze lieten de AI vragen bedenken bij die zinnen en vervolgens de antwoorden geven.
  • Vervolgens keken echte artsen (specialisten) na of de antwoorden klopten met het boekje.

Het verrassende resultaat:
De AI (LLaMA-70B) gaf in 19,7% van de gevallen een antwoord dat feitelijk onjuist was of verzonnen. Dat is bijna 1 op de 5 antwoorden!

  • De valstrik: 98,8% van de antwoorden klonk perfect. De zinsbouw was goed, de terminologie was correct, en het klonk overtuigend.
  • De les: Als een AI er goed uitziet, betekent dat niet dat het waar is. Het is als een acteur die zo goed speelt dat je vergeet dat hij een script leest en niet echt een dokter is.

3. De Vergelijking: Grotere Modellen = Minder Leugens?

De onderzoekers testten daarna 8 verschillende AI-modellen, van klein tot gigantisch.

  • Grote modellen (zoals de "olifanten" in de AI-wereld) maakten minder fouten dan de kleine modellen.
  • Maar: Zelfs de grootste, slimste modellen maakten nog steeds fouten. Geen enkel model was 100% betrouwbaar.
  • De "Inversie"-valstrik: De AI viel het meest op als je de vraag omdraaide. Als je vraagt: "Welk medicijn is veilig?" geeft hij een goed antwoord. Maar als je vraagt: "Welk medicijn is niet veilig?" (een omgekeerde vraag), dan begint de AI vaak te hallucineren en verzonnen antwoorden te geven. Het is alsof de AI goed is in het opnoemen van dingen, maar slecht in het begrijpen van wat er niet mag.

4. De Kosten: Waarom we nog niet op AI kunnen vertrouwen

Dit is misschien wel het belangrijkste punt van het papier.
Om te weten of een AI-antwoord waar is, moet een menselijke arts het controleren.

  • Het kost tijd en geld om een arts te laten nadenken over elk antwoord.
  • De onderzoekers berekenden dat de kosten voor het laten controleren door een mens veel hoger zijn dan de kosten om de AI zelf te laten rekenen.
  • De conclusie: Zolang we geen manier hebben om AI-antwoorden automatisch en 100% betrouwbaar te controleren (net zo goed als een mens), kunnen we deze technologie niet veilig gebruiken in de medische wereld. Het is te riskant om een patiënt te behandelen op basis van een antwoord dat 1 op de 5 keer verzonnen is.

Samenvattend in één zin:

Deze studie laat zien dat medische AI-modellen momenteel nog te veel "verzonnen feiten" produceren die er geloofwaardig uitzien, en dat we voor elke fout die ze maken, een dure menselijke expert nodig hebben om het te corrigeren, waardoor ze voor nu nog niet veilig genoeg zijn om patiënten te behandelen zonder toezicht.

De boodschap: Gebruik AI als een slimme assistent die helpt met zoeken, maar laat nooit een menselijke arts de eindcontrole overnemen. De AI is een briljante schrijver, maar nog geen betrouwbare dokter.