Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy

Each language version is independently generated for its own context, not a direct translation.

De Probleemstelling: De Zekere, maar Verkeerde AI

Stel je voor dat je een zeer slimme, maar soms overmoedige assistent hebt. Deze assistent (een kunstmatige intelligentie of AI) kan foto's van organen bekijken en vragen beantwoorden, zoals "Wat zie je hier?" of "Is er iets mis?".

Het probleem is dat deze assistent soms hallucineert. Dat betekent dat hij met een heel zeker stemmetje een verhaal verzint dat er logisch uitziet, maar volledig fout is. Hij zegt bijvoorbeeld: "Dit is een tumor," terwijl het gewoon een schaduw is. In de geneeskunde is dit gevaarlijk. Als een arts te veel vertrouwen heeft in de AI, kan dat leiden tot verkeerde diagnoses.

De onderzoekers van dit paper wilden een manier vinden om te weten: "Wanneer moet ik deze AI-antwoorden gewoon negeren?"

De Oplossing: De "Twijfel-Test" (Discrete Semantic Entropy)

De onderzoekers ontwikkelden een slimme truc die ze Discrete Semantic Entropy (DSE) noemen. Laten we dit uitleggen met een analogie:

Stel je voor dat je een vraag stelt aan een groep van 15 verschillende mensen in een zaal: "Wat zie je op deze foto?"

Het scenario zonder twijfel (Goed): Als iedereen in de zaal hetzelfde ziet, zullen ze allemaal zeggen: "Ik zie een gebroken been." Ze zijn het allemaal eens. Er is geen chaos, geen verwarring. De AI is hier zeker van.
Het scenario met twijfel (Slecht): Als de mensen in de zaal het niet eens zijn, kan het zijn dat de één zegt "Een gebroken been", de ander "Een tumor", de derde "Een steen" en de vierde "Ik weet het niet". Er is veel chaos en verwarring. De AI is hier niet zeker van en probeert maar wat.

De DSE-methode doet precies dit:
In plaats van de AI één keer te laten antwoorden, laten ze de AI 15 keer dezelfde vraag beantwoorden (met een instelling die zorgt voor variatie).

Als de 15 antwoorden allemaal op hetzelfde neerkomen (semantisch gelijk), is de "twijfel-score" laag. De AI is zeker. Antwoord accepteren.
Als de 15 antwoorden heel verschillend zijn (soms wel, soms niet, soms totaal andere ziektes), is de "twijfel-score" hoog. De AI is aan het gokken. Antwoord weigeren.

Wat hebben ze ontdekt?

De onderzoekers testten dit op duizenden medische foto's en vragen. Hier zijn de belangrijkste resultaten:

De basisprestatie was matig: Als de AI gewoon één keer antwoordde (zonder de twijfel-test), had hij ongeveer 50% van de vragen goed. Dat is net als raden met een muntje.
De filter werkt wonderen: Toen ze alle vragen weggooiden waarbij de AI verward was (hoge twijfel-score), steeg het aantal goede antwoorden enorm.
- Voor de ene AI-modellen steeg het juiste percentage van 51% naar 76%!
- Ze gaven minder antwoorden (want ze weigerden de twijfelachtige), maar de antwoorden die ze wel gaven, waren veel betrouwbaarder.

De Afweging: Kwaliteit vs. Aantal

Er is een kleine prijs voor deze hoge kwaliteit: Je krijgt minder antwoorden.

Stel je voor dat je een net hebt om vissen te vangen.

Een groot net (geen filter) vangt veel vissen, maar ook veel rotte vis en afval.
Een klein, strak net (streng filter) vangt veel minder vissen, maar diegene die erin zitten, zijn allemaal verse, goede vis.

De onderzoekers laten zien dat je kunt kiezen hoe strak je het net wilt. Wil je liever dat de AI zelden iets zegt, maar dan wel 100% zeker? Dan zet je de filter heel strak. Wil je dat hij vaker iets zegt, maar dan met iets meer risico? Dan zet je de filter iets ruimer.

Waarom is dit belangrijk?

Dit onderzoek is een doorbraak omdat het werkt met "Black Box" AI's. Dat zijn AI's waarvan we de binnenkant niet kunnen zien (zoals de modellen van OpenAI). We kunnen niet in hun brein kijken om te zien of ze twijfelen.

Deze methode is als een kwaliteitscontroleur aan de poort. Hij hoeft niet te weten hoe de AI werkt, hij kijkt alleen naar het resultaat. Als de AI inconsistent is, blokkeert hij het antwoord. Dit maakt het mogelijk om deze krachtige, maar soms onbetrouwbare AI's veiliger te gebruiken in ziekenhuizen, zonder dat artsen de hele tijd zelf hoeven te controleren of de AI niet aan het dromen is.

Kortom: Door de AI te laten "twijfelen" door dezelfde vraag 15 keer te stellen, kunnen we de onbetrouwbare antwoorden filteren en de diagnose van de AI veel veiliger maken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De integratie van Vision-Language Models (VLMs), zoals GPT-4o, in de radiologie belooft om de toenemende werklast van radiologen te verlichten. Een kritieke belemmering voor de veilige klinische adoptie is echter de neiging van deze modellen om hallucinaties te genereren: plausibel klinkende antwoorden die niet gebaseerd zijn op visueel bewijs of de klinische context.

Uitdaging: In tegenstelling tot menselijke experts die onzekerheid kunnen uiten, presenteren VLMs foutieve bevindingen vaak met hoge taalkundige zekerheid.
Beperkingen van bestaande methoden: Bestaande methoden voor onzekerheidsmeting vereisen vaak toegang tot interne modelmechanismen (zoals token-kansen), wat niet mogelijk is bij "black-box" modellen van derden. Andere methoden vereisen aanvullende trainingsdata of fine-tuning, wat de toepasbaarheid voor klinische praktijken beperkt.
Doel: Er is behoefte aan een methode die hallucinaties kan detecteren in black-box VLMs zonder toegang tot de interne werking van het model, specifiek voor radiologische beeldinterpretatie.

Methodologie

De studie evalueerde Discrete Semantische Entropie (DSE) als filtermechanisme voor hallucinaties.

Datasets:
- VQA-Med 2019: 500 radiologische afbeeldingen met klinische vragen (verdeeld over modality, vlak, orgaan en afwijking).
- RadDataset: 206 geselecteerde klinische 2D-beelden (CT, MRI, radiografie, angiografie) met grondwaarheid-diagnoses bevestigd door vier radiologen.
- Totaal: 706 beeld-vraagparen.
Modellen:
- GPT-4o en GPT-4.1 (via Microsoft Azure API).
Proces voor DSE-berekening:
- Sampling: Voor elk beeld-vraagpaar genereerde het model 15 onafhankelijke antwoorden bij een hoge temperatuurinstelling ( $T=1.0$ ) om variabiliteit en onzekerheid te maximaliseren.
- Baseline: Eén antwoord werd gegenereerd bij lage temperatuur ( $T=0.1$ ) om de basisnauwkeurigheid te bepalen.
- Semantische Clustering: De 15 antwoorden werden gegroepeerd op basis van semantische equivalentie. Hiervoor werd wederzijdse implicatie (bidirectional entailment) gecontroleerd met hetzelfde VLM. Antwoorden met dezelfde betekenis werden in één cluster samengevoegd.
- Entropieberekening: De DSE werd berekend op basis van de relatieve frequenties van deze semantische clusters.
  - $DSE = 0$: Alle antwoorden zijn semantisch identiek (hoge zekerheid).
  - $DSE > 0$: Hoge spreiding in antwoorden (hoge onzekerheid/potentieel hallucinatie).
- Filterstrategie: Vragen met een DSE boven een bepaalde drempel (geëvalueerd bij $>0.6$ en $>0.3$ ) werden verworpen. De nauwkeurigheid werd opnieuw berekend voor de resterende vragen.
Statistiek:
- Gebruik van bootstrap-resampling (100.000 iteraties) en Bonferroni-correctie ( $p < 0.004$ ) voor statistische significantie.

Kernresultaten

De toepassing van DSE-filtering leidde tot aanzienlijke verbeteringen in de nauwkeurigheid van de aanvaarde antwoorden, ten koste van de dekking (aantal beantwoorde vragen).

Basisnauwkeurigheid (zonder filtering):
- GPT-4o: 51,7%
- GPT-4.1: 54,8%
- Opmerking: De prestaties waren laag, vooral op de RadDataset (rond 34%) en bij vragen over "afwijkingen" (abnormalities).
Resultaten na filtering (DSE $\leq$ 0.3):
- GPT-4o: De nauwkeurigheid steeg van 51,7% naar 76,3% op het gecombineerde dataset. Hiervoor werden echter 334 van de 706 vragen (47,3%) verworpen.
- GPT-4.1: De nauwkeurigheid steeg van 54,8% naar 63,8%. Hierbij werden 499 van de 706 vragen behouden.
- Alle verbeteringen waren statistisch significant ( $p < 0.001$ ), behalve voor GPT-4o op de RadDataset bij de strengste drempel (door te klein aantal resterende vragen).
Subcategorie-analyse:
- De filtering was het effectiefst bij moeilijke vragen (zoals "afwijkingen"), waar de afwijzingsratio zeer hoog was (tot >90% bij DSE $\leq$ 0.3), maar de resterende antwoorden veel accurater waren.
- Bij makkelijke vragen (zoals "welk orgaan") was de afwijzingsratio laag en de nauwkeurigheid reeds hoog.
Kosten en Latentie:
- De methode is haalbaar voor klinische workflows. De totale latentie is ongeveer twee keer die van een enkele API-call (door parallelle verwerking), geschat op ~6 seconden per vraag.
- De geschatte kosten zijn ongeveer $0,72 per vraag, wat financieel haalbaar wordt geacht voor integratie in dagelijkse workflows.

Belangrijkste Bijdragen

Validatie van DSE in de Radiologie: Dit is een van de eerste studies die DSE toepast op multimodale taken (beeld + tekst) in plaats van alleen tekstgeneratie, specifiek voor radiologische interpretatie.
Black-box Oplossing: De methode vereist geen toegang tot modelinterne parameters (zoals token-probabiliteiten) en werkt puur op de output van de API. Dit maakt het direct toepasbaar op proprietaire modellen zoals GPT-4.
Trade-off Analyse: De studie kwantificeert de afweging tussen dekking (aantal beantwoorde vragen) en betrouwbaarheid (nauwkeurigheid). Het toont aan dat het selectief verwerpen van onzekere antwoorden de algehele betrouwbaarheid van het systeem drastisch verhoogt.
Praktische Implementatie: Het biedt een werkbaar protocol (API-calls, clustering, filtering) dat kan worden geïntegreerd in PACS of rapportagesystemen als een "lightweight wrapper".

Significantie en Beperkingen

Betekenis: De studie toont aan dat VLMs momenteel niet betrouwbaar genoeg zijn voor autonome diagnose (lage baseline nauwkeurigheid), maar dat DSE een cruciaal mechanisme biedt om onzekerheid te managen en de veiligheid te vergroten door hallucinaties te filteren. Het stelt radiologen in staat om AI-outputs te vertrouwen alleen wanneer de semantische consistentie hoog is.
Beperkingen:
- Confident Hallucinations: DSE meet semantische consistentie, niet feitelijke juistheid. Als een model consequent hetzelfde foutieve antwoord geeft (een "zekere hallucinatie"), zal de DSE laag zijn en het antwoord niet worden verworpen.
- 2D Beperking: De studie gebruikte 2D-slices; de toepassing op volledige 3D-studies is nog niet getest.
- Dekking: Strikte filtering leidt tot het verwerpen van een groot deel van de vragen, wat de bruikbaarheid in scenario's waar volledige dekking nodig is, beperkt.

Conclusie: Discrete Semantische Entropie is een veelbelovende, praktische methode om de betrouwbaarheid van black-box VLMs in de radiologie te verbeteren door semantische inconsistentie te kwantificeren en hallucinaties te filteren, hoewel het geen garantie is voor feitelijke juistheid en menselijke verificatie blijft essentieel.

Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy

De Probleemstelling: De Zekere, maar Verkeerde AI

De Oplossing: De "Twijfel-Test" (Discrete Semantic Entropy)

Wat hebben ze ontdekt?

De Afweging: Kwaliteit vs. Aantal

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Kernresultaten

Belangrijkste Bijdragen

Significantie en Beperkingen

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation