Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, ein Radiologe ist wie ein Detektiv, der nach Hinweisen in Röntgenbildern sucht, um eine Krankheit zu erkennen. In letzter Zeit haben wir einen neuen, sehr cleveren Assistenten an der Seite: eine künstliche Intelligenz (KI), die sowohl Bilder als auch Sprache versteht.

Das Problem ist jedoch: Dieser KI-Assistent ist manchmal ein zu guter Lügner.

Er kann sehr selbstbewusst und mit perfekter Grammatik Dinge behaupten, die einfach nicht stimmen. Man nennt das in der Fachsprache „Halluzinationen". Es ist, als würde ein Schüler bei einer Matheprüfung eine falsche Antwort mit so viel Überzeugung und schönen Worten erklären, dass der Lehrer fast glaubt, er hätte recht.

Diese Studie von Patrick Wienholt und seinem Team aus Aachen fragt sich: Wie können wir diesen KI-Assistenten daran hindern, uns falsche Dinge zu erzählen, ohne ihn komplett auszuschalten?

Die Lösung: Der „Vertrauens-Test" (Discrete Semantic Entropy)

Stellen Sie sich vor, Sie fragen Ihren KI-Assistenten: „Was ist auf diesem Bild zu sehen?"

Anstatt nur eine Antwort zu geben, lassen Sie ihn 15 Mal dieselbe Frage beantworten. Dabei stellen Sie den „Kreativitäts-Regler" (in der Technik „Temperatur" genannt) auf hoch.

Szenario A (Der Zuverlässige): Der KI-Assistent ist sich sicher. Alle 15 Antworten sind fast identisch. Er sagt immer: „Das ist ein gebrochener Knochen."
- Das Ergebnis: Die Antworten sind wie ein Chor, der denselben Ton singt. Es gibt keine Unordnung. Das ist ein gutes Zeichen! Wir vertrauen der Antwort.
Szenario B (Der Halluzinierende): Der KI-Assistent ist unsicher oder erfindet etwas.
- Antwort 1: „Das ist ein Tumor."
- Antwort 2: „Das ist eine Zyste."
- Antwort 3: „Das ist ein Stein."
- Antwort 4: „Ich weiß es nicht."
- Antwort 5: „Das ist ein Tumor."
- ... und so weiter.
- Das Ergebnis: Die Antworten sind ein wildes Durcheinander. Es gibt keine Einigkeit. In der Wissenschaft nennt man dieses Chaos „Entropie" (eine Art Maß für Unordnung).

Die Forscher haben eine Methode entwickelt, um dieses Durcheinander zu messen. Sie nennen es Discrete Semantic Entropy (DSE).

Die Analogie: Der Rat der 15 Weisen

Stellen Sie sich vor, Sie haben 15 Weisen, die über ein medizinisches Bild diskutieren.

Wenn alle 15 fast das Gleiche sagen, ist die „Unordnung" (Entropie) niedrig. Sie können der Antwort trauen.
Wenn die Weisen sich streiten und jeder eine andere Geschichte erzählt, ist die „Unordnung" hoch. Das ist ein Warnsignal!

Die Studie zeigt: Wenn die KI bei einer Frage so viel Durcheinander produziert (hohe Entropie), dann ist die Wahrscheinlichkeit riesig, dass sie lügt. Wenn sie sich einig ist (niedrige Entropie), ist sie meistens richtig.

Was haben die Forscher herausgefunden?

Der KI-Assistent war anfangs nicht sehr gut: Ohne diesen Filter lag die Trefferquote der KI bei medizinischen Fragen nur bei etwa 50 %. Das ist wie ein Münzwurf – nicht gut genug für eine Operation oder eine Diagnose.
Der Filter rettet die Situation: Wenn die Forscher alle Fragen aussortiert haben, bei denen die KI „durcheinander" war (also wo die 15 Antworten nicht übereinstimmten), stieg die Trefferquote der verbleibenden Antworten drastisch an.
- Bei einer strengen Einstellung (nur Fragen, bei denen die KI sich sehr sicher war) lag die Trefferquote plötzlich bei über 76 %.
Der Preis für Sicherheit: Um diese hohe Sicherheit zu erreichen, musste die KI bei vielen Fragen schweigen. Sie hat sich bei etwa der Hälfte der Fragen zurückgehalten, weil sie unsicher war.
- Die Metapher: Es ist besser, dass der Assistent sagt: „Ich bin mir hier nicht sicher, bitte fragen Sie einen Menschen," als dass er eine falsche Diagnose stellt.

Warum ist das wichtig?

Bisher mussten wir hoffen, dass die KI nicht lügt, oder wir mussten jede einzelne Antwort von einem menschlichen Arzt prüfen lassen – was sehr langsam ist.

Mit dieser Methode (DSE) bekommen wir ein Frühwarnsystem.

Wenn die KI ruhig und einig ist: „Okay, das Ergebnis ist wahrscheinlich korrekt."
Wenn die KI chaotisch ist: „Stop! Hier stimmt etwas nicht. Ein Mensch muss das prüfen."

Fazit

Die Studie zeigt, dass wir KI in der Radiologie sicherer machen können, indem wir ihr nicht blind vertrauen, sondern ihre „Selbstsicherheit" messen. Wenn die KI bei einer Frage nicht weiß, was sie sagen soll, und ihre eigenen Antworten widersprüchlich sind, sollten wir sie stoppen.

Es ist wie bei einem Autofahrer: Wenn er am Steuer zittert und unsicher wirkt, nehmen wir ihm den Schlüssel ab, auch wenn er behauptet, er könne fahren. Diese Methode hilft uns, die KI als einen hilfreichen, aber überwachten Assistenten zu nutzen, statt als einen unzuverlässigen Wahrsager.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Integration von Vision-Language-Modellen (VLMs) wie GPT-4o in die Radiologie verspricht, den Arbeitsalltag zu erleichtern. Ein kritisches Hindernis für den sicheren klinischen Einsatz ist jedoch die Halluzinationsneigung dieser Modelle: Sie erzeugen plausible, aber faktisch falsche Befunde, oft mit hoher sprachlicher Gewissheit.

Herausforderung: Proprietäre (Black-Box) VLMs bieten keinen Zugriff auf interne Unsicherheitsmetriken (wie Token-Wahrscheinlichkeiten), was herkömmliche Unsicherheitsabschätzungen unmöglich macht.
Ziel: Entwicklung einer Methode zur Erkennung und Filterung von Halluzinationen in Black-Box-Szenarien, um die diagnostische Genauigkeit zu erhöhen, ohne das Modell selbst zu trainieren oder interne Parameter zu benötigen.

2. Methodik

Die Studie evaluierte den Discrete Semantic Entropy (DSE) als Unsicherheitsmetrik für radiologische Bild-Frage-Antwort-Aufgaben (Visual Question Answering, VQA).

Datensätze:
- VQA-Med 2019: 500 radiologische Bilder mit klinischen Fragen (4 Kategorien: Modalität, Ebene, Organ, Anomalie).
- RadDataset: 206 klinische Fälle (CT, MRT, Röntgen, Angiographie) mit Ground-Truth-Diagnosen.
Modelle: GPT-4o und GPT-4.1 (via Microsoft Azure API).
Prozessablauf:
1. High-Temperature Sampling: Für jede Bild-Frage-Paarung generierte das Modell 15 unabhängige Antworten bei einer Temperatur von $T=1.0$ (hohe Variabilität).
2. Semantisches Clustering: Die Antworten wurden mittels bidirektionaler Entailment-Checks (logische Folgerung) gruppiert. Antworten mit gleicher semantischer Bedeutung wurden einem Cluster zugeordnet.
3. Berechnung der DSE: Die Entropie wurde basierend auf der relativen Häufigkeit der Cluster berechnet:
  $DSE(x) = -\sum P(C_i|x) \log_{10} P(C_i|x)$
  - $DSE = 0$: Alle 15 Antworten sind semantisch identisch (hohe Konsistenz).
  - Hohe DSE: Antworten sind stark dispers (hohe Unsicherheit/Halluzinationsrisiko).
4. Selektive Vorhersage (Filtering): Fragen mit einem DSE-Wert über einem Schwellenwert (getestet: $\le 0.6$ und $\le 0.3$ ) wurden verworfen. Die Genauigkeit wurde nur für die verbleibenden Fragen neu berechnet.
5. Validierung: Die Antworten wurden manuell durch Radiologen und einen Medizinstudenten gegen die Ground Truth geprüft.

3. Wichtige Beiträge

Erweiterung von DSE auf Multimodalität: Erstmals wurde die Discrete Semantic Entropy erfolgreich von reinen Textaufgaben auf radiologische Bildinterpretationsaufgaben angewendet.
Black-Box-Kompatibilität: Die Methode erfordert keinen Zugriff auf das Modellinnere, keine Feinabstimmung (Fine-Tuning) und keine zusätzlichen Trainingsdaten. Sie funktioniert ausschließlich über API-Aufrufe.
Quantifizierung des Trade-offs: Die Studie liefert eine detaillierte Analyse des Zielkonflikts zwischen Abdeckungsrate (Anzahl beantworteter Fragen) und Genauigkeit (Accuracy) bei unterschiedlichen Schwellenwerten.

4. Ergebnisse

Basisgenauigkeit: Ohne Filterung lag die Genauigkeit bei allen Fragen (Baseline, $T=0.1$ ) bei 51,7 % (GPT-4o) und 54,8 % (GPT-4.1). Auf dem klinischen RadDataset war die Leistung deutlich schlechter (ca. 34 %).
Genauigkeitssteigerung durch Filterung:
- Bei einem Schwellenwert von DSE $\le 0.6$ stieg die Genauigkeit auf 62,9 % (GPT-4o) bzw. 60,4 % (GPT-4.1).
- Bei einem strikteren Schwellenwert von DSE $\le 0.3$ erreichte GPT-4o eine Genauigkeit von 76,3 % (bei 47,3 % der ursprünglichen Fragen beantwortet) und GPT-4.1 63,8 % (bei 70,7 % der Fragen).
- Alle Verbesserungen waren statistisch signifikant ( $p < 0,001$ ), außer in sehr kleinen Subgruppen.
Subgruppenanalyse:
- Die Filterung war besonders effektiv bei schwierigen Kategorien wie „Anomalien" (Abnormality), wo die Basisgenauigkeit sehr niedrig war. Hier führte DSE $\le 0.3$ zu einer drastischen Reduktion der beantworteten Fragen, aber einer signifikanten Steigerung der verbleibenden Genauigkeit.
- Bei einfachen Fragen (z. B. Modalitätserkennung) war die DSE bereits sehr niedrig, sodass kaum Fragen verworfen wurden und die Genauigkeit stabil blieb.
Fehlerfall (Confident Hallucination): Das Paper zeigt ein Beispiel, bei dem das Modell eine falsche Antwort („Noncontrast MRI") mit hoher Sicherheit und Konsistenz (niedrige DSE) gab. Dies verdeutlicht die Limitierung: DSE misst semantische Konsistenz, nicht faktische Richtigkeit.

5. Signifikanz und Implikationen

Klinische Anwendbarkeit: DSE bietet einen praktikablen Weg, um VLMs in klinische Workflows (z. B. PACS) zu integrieren, indem unsichere Antworten automatisch zurückgehalten werden. Dies erhöht das Vertrauen der Radiologen in KI-Systeme.
Ressourceneffizienz: Im Vergleich zu Methoden, die Eingabe-Paraphrasierung oder multiple Berichte erfordern, ist DSE kosteneffizienter und latenzärmer (ca. 6 Sekunden pro Frage bei paralleler Verarbeitung).
Strategische Empfehlung:
- Für diagnostische Entscheidungsunterstützung sollte ein strikter Schwellenwert (z. B. 0,3) gewählt werden, um das Risiko falscher Ratschläge zu minimieren (hohe Spezifität).
- Für Screening-Zwecke könnte ein lockerer Schwellenwert (z. B. 0,6) sinnvoll sein, um mehr Fälle zu erfassen (hohe Sensitivität).
Limitationen: Die Methode erkennt keine „sicheren" Halluzinationen (wenn das Modell konsistent falsch liegt). Zudem basierte die Studie auf 2D-Bildern; die Übertragung auf volumetrische 3D-Daten erfordert weitere Forschung.

Fazit: Die Studie demonstriert, dass Discrete Semantic Entropy ein leistungsfähiges Werkzeug ist, um die Zuverlässigkeit von Black-Box-VLMs in der Radiologie zu erhöhen, indem sie semantisch inkonsistente (unsichere) Antworten filtert. Sie ist ein wichtiger Schritt hin zu sichereren KI-Assistenten, ersetzt aber nicht die menschliche Überprüfung durch Radiologen.

Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy

Die Lösung: Der „Vertrauens-Test" (Discrete Semantic Entropy)

Die Analogie: Der Rat der 15 Weisen

Was haben die Forscher herausgefunden?

Warum ist das wichtig?

Fazit

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Signifikanz und Implikationen

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation