Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy

Diese retrospektive Studie zeigt, dass die Anwendung diskreter semantischer Entropie (DSE) zur Filterung von Fragen mit hoher Unsicherheit die diagnostische Genauigkeit von Black-Box-Vision-Language-Modellen in der Radiologie signifikant verbessert, indem sie Halluzinationen zuverlässig erkennt und eliminiert.

Patrick Wienholt, Sophie Caselitz, Robert Siepmann, Philipp Bruners, Keno Bressem, Christiane Kuhl, Jakob Nikolas Kather, Sven Nebelung, Daniel Truhn

Veröffentlicht 2026-02-26
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, ein Radiologe ist wie ein Detektiv, der nach Hinweisen in Röntgenbildern sucht, um eine Krankheit zu erkennen. In letzter Zeit haben wir einen neuen, sehr cleveren Assistenten an der Seite: eine künstliche Intelligenz (KI), die sowohl Bilder als auch Sprache versteht.

Das Problem ist jedoch: Dieser KI-Assistent ist manchmal ein zu guter Lügner.

Er kann sehr selbstbewusst und mit perfekter Grammatik Dinge behaupten, die einfach nicht stimmen. Man nennt das in der Fachsprache „Halluzinationen". Es ist, als würde ein Schüler bei einer Matheprüfung eine falsche Antwort mit so viel Überzeugung und schönen Worten erklären, dass der Lehrer fast glaubt, er hätte recht.

Diese Studie von Patrick Wienholt und seinem Team aus Aachen fragt sich: Wie können wir diesen KI-Assistenten daran hindern, uns falsche Dinge zu erzählen, ohne ihn komplett auszuschalten?

Die Lösung: Der „Vertrauens-Test" (Discrete Semantic Entropy)

Stellen Sie sich vor, Sie fragen Ihren KI-Assistenten: „Was ist auf diesem Bild zu sehen?"

Anstatt nur eine Antwort zu geben, lassen Sie ihn 15 Mal dieselbe Frage beantworten. Dabei stellen Sie den „Kreativitäts-Regler" (in der Technik „Temperatur" genannt) auf hoch.

  • Szenario A (Der Zuverlässige): Der KI-Assistent ist sich sicher. Alle 15 Antworten sind fast identisch. Er sagt immer: „Das ist ein gebrochener Knochen."

    • Das Ergebnis: Die Antworten sind wie ein Chor, der denselben Ton singt. Es gibt keine Unordnung. Das ist ein gutes Zeichen! Wir vertrauen der Antwort.
  • Szenario B (Der Halluzinierende): Der KI-Assistent ist unsicher oder erfindet etwas.

    • Antwort 1: „Das ist ein Tumor."
    • Antwort 2: „Das ist eine Zyste."
    • Antwort 3: „Das ist ein Stein."
    • Antwort 4: „Ich weiß es nicht."
    • Antwort 5: „Das ist ein Tumor."
    • ... und so weiter.
    • Das Ergebnis: Die Antworten sind ein wildes Durcheinander. Es gibt keine Einigkeit. In der Wissenschaft nennt man dieses Chaos „Entropie" (eine Art Maß für Unordnung).

Die Forscher haben eine Methode entwickelt, um dieses Durcheinander zu messen. Sie nennen es Discrete Semantic Entropy (DSE).

Die Analogie: Der Rat der 15 Weisen

Stellen Sie sich vor, Sie haben 15 Weisen, die über ein medizinisches Bild diskutieren.

  • Wenn alle 15 fast das Gleiche sagen, ist die „Unordnung" (Entropie) niedrig. Sie können der Antwort trauen.
  • Wenn die Weisen sich streiten und jeder eine andere Geschichte erzählt, ist die „Unordnung" hoch. Das ist ein Warnsignal!

Die Studie zeigt: Wenn die KI bei einer Frage so viel Durcheinander produziert (hohe Entropie), dann ist die Wahrscheinlichkeit riesig, dass sie lügt. Wenn sie sich einig ist (niedrige Entropie), ist sie meistens richtig.

Was haben die Forscher herausgefunden?

  1. Der KI-Assistent war anfangs nicht sehr gut: Ohne diesen Filter lag die Trefferquote der KI bei medizinischen Fragen nur bei etwa 50 %. Das ist wie ein Münzwurf – nicht gut genug für eine Operation oder eine Diagnose.
  2. Der Filter rettet die Situation: Wenn die Forscher alle Fragen aussortiert haben, bei denen die KI „durcheinander" war (also wo die 15 Antworten nicht übereinstimmten), stieg die Trefferquote der verbleibenden Antworten drastisch an.
    • Bei einer strengen Einstellung (nur Fragen, bei denen die KI sich sehr sicher war) lag die Trefferquote plötzlich bei über 76 %.
  3. Der Preis für Sicherheit: Um diese hohe Sicherheit zu erreichen, musste die KI bei vielen Fragen schweigen. Sie hat sich bei etwa der Hälfte der Fragen zurückgehalten, weil sie unsicher war.
    • Die Metapher: Es ist besser, dass der Assistent sagt: „Ich bin mir hier nicht sicher, bitte fragen Sie einen Menschen," als dass er eine falsche Diagnose stellt.

Warum ist das wichtig?

Bisher mussten wir hoffen, dass die KI nicht lügt, oder wir mussten jede einzelne Antwort von einem menschlichen Arzt prüfen lassen – was sehr langsam ist.

Mit dieser Methode (DSE) bekommen wir ein Frühwarnsystem.

  • Wenn die KI ruhig und einig ist: „Okay, das Ergebnis ist wahrscheinlich korrekt."
  • Wenn die KI chaotisch ist: „Stop! Hier stimmt etwas nicht. Ein Mensch muss das prüfen."

Fazit

Die Studie zeigt, dass wir KI in der Radiologie sicherer machen können, indem wir ihr nicht blind vertrauen, sondern ihre „Selbstsicherheit" messen. Wenn die KI bei einer Frage nicht weiß, was sie sagen soll, und ihre eigenen Antworten widersprüchlich sind, sollten wir sie stoppen.

Es ist wie bei einem Autofahrer: Wenn er am Steuer zittert und unsicher wirkt, nehmen wir ihm den Schlüssel ab, auch wenn er behauptet, er könne fahren. Diese Methode hilft uns, die KI als einen hilfreichen, aber überwachten Assistenten zu nutzen, statt als einen unzuverlässigen Wahrsager.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →