Quantifying Hallucinations in Language Language Models on Medical Textbooks

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen extrem intelligenten, aber manchmal etwas zu fantasievollen Assistenten. Er kann fließend Deutsch sprechen, kennt medizinische Fachbegriffe und klingt absolut überzeugend. Das Problem ist nur: Er lügt manchmal. Und das nicht aus Bosheit, sondern weil er einfach Dinge erfindet, die plausibel klingen, aber faktisch falsch sind. In der KI-Welt nennt man das „Halluzinationen".

Dieser wissenschaftliche Artikel untersucht genau dieses Phänomen im Bereich der Medizin. Hier ist die Geschichte dahinter, einfach erklärt:

1. Das Problem: Der „zu gute" Schüler

Bisher haben wir KI-Modelle wie Schüler getestet, indem wir ihnen Multiple-Choice-Tests aus echten Prüfungen gegeben haben. Die KI hat dabei oft fast perfekte Noten gemacht. Aber das war wie ein Trick: Die KI hatte die Antworten vielleicht einfach auswendig gelernt (wie ein Schüler, der die Lösungen im Internet nachschaut), anstatt das medizinische Wissen wirklich zu verstehen.

Die Forscher wollten wissen: Was passiert, wenn wir die KI mit einem völlig neuen, unbekannten Lehrbuch konfrontieren und sie bitten, Fragen dazu zu beantworten? Kann sie dann noch so gut sein, oder fängt sie an zu erfinden?

2. Die Methode: Ein neuer, fairer Test

Die Forscher haben einen cleveren Weg gefunden, um die KI auf die Probe zu stellen:

Die Quelle: Sie nahmen alte, gemeinfreie medizinische Lehrbücher (wie eine Bibliothek, die jeder nutzen darf).
Der Test: Sie ließen die KI Fragen aus diesen Texten generieren und dann sofort beantworten.
Der Richter: Echte Ärzte (Kliniker) haben die Antworten der KI geprüft. Sie haben sich nicht nur gefragt: „Klingt das gut?", sondern: „Steht das wirklich so im Text?"

Stellen Sie sich vor, Sie geben einem Schüler einen Text vor und sagen: „Beantworte diese Frage nur mit dem, was du gerade gelesen hast." Wenn der Schüler dann etwas hinzufügt, das nicht im Text steht, ist das eine Halluzination.

3. Die Ergebnisse: Der glatte Lügner

Das Ergebnis war erschreckend, aber wichtig:

Die Zahl: Selbst bei einem sehr großen und fortschrittlichen Modell (LLaMA-70B) war fast jede fünfte Antwort (19,7 %) eine Halluzination.
Der Trick: Das Schlimmste daran war, dass diese falschen Antworten zu 98,8 % absolut glaubwürdig klangen. Die KI benutzte die richtigen Wörter, den richtigen Tonfall und die richtige Grammatik. Für einen Laien (oder sogar einen nicht spezialisierten Arzt) sah alles perfekt aus. Es war wie ein Hochstapler in einem teuren Anzug: Er sieht aus wie ein Arzt, aber er weiß nicht, was er tut.

4. Der Vergleich: Größe hilft, aber nicht perfekt

Die Forscher haben dann verschiedene KI-Modelle getestet, von kleinen bis zu riesigen.

Größe zählt: Je größer das Modell, desto seltener hat es gelogen. Ein riesiges Modell hat nur in 9 % der Fälle gelogen, ein kleines in 27 %.
Aber: Selbst die größten Modelle haben immer noch gelogen. Kein Modell war zu 100 % fehlerfrei.
Die Falle der Negation: Die KI wurde besonders verwirrt, wenn die Frage verneint wurde (z. B. „Welches Medikament ist nicht sicher?"). Hier hat sie am häufigsten Fehler gemacht. Auch Fragen, bei denen sie eine vollständige Liste liefern musste, waren eine Schwachstelle.

5. Die Kosten: Der menschliche Faktor

Ein wichtiger Punkt im Artikel ist die Frage nach den Kosten.

Man könnte denken: „Lass die KI die Antworten prüfen."
Aber die Wahrheit ist: Nur ein echter Arzt kann die Lügen entlarven.
Die Forscher haben berechnet, dass die Zeit, die ein Arzt braucht, um eine Antwort zu prüfen, den Prozess um das Zehnfache teurer macht als das reine Rechnen der KI. Solange wir keine KI haben, die so gut prüfen kann wie ein Mensch, müssen wir Menschen die Arbeit machen. Das ist teuer und langsam.

Fazit: Noch nicht bereit für den Einsatz im Krankenhaus

Die Botschaft des Artikels ist klar und ernst:
KI-Modelle sind wie brillante, aber unzuverlässige Praktikanten. Sie können tolle Texte schreiben und klingen sehr kompetent. Aber weil sie fast jede fünfte Antwort erfinden, können wir sie nicht allein in der Medizin einsetzen, wo es um Leben und Tod geht.

Solange wir nicht jeden einzelnen Satz von einem echten Arzt überprüfen lassen können (was sehr teuer ist), ist die KI für medizinische Entscheidungen noch zu riskant. Wir brauchen menschliche Aufsicht, bis die KI lernt, nicht zu lügen.

Kurz gesagt: Die KI ist ein sehr guter Schauspieler, aber noch kein verlässlicher Arzt.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Quantifying Hallucinations in Language Models on Medical Textbooks" auf Deutsch:

1. Problemstellung

Große Sprachmodelle (LLMs) erzielen zwar oft Expertenniveau bei medizinischen Frage-Antwort-Benchmarks (QA), neigen jedoch dazu, „Halluzinationen" zu produzieren – also faktisch falsche oder nicht durch Belege gestützte Aussagen. Dies stellt ein kritisches Sicherheitsrisiko für den medizinischen Einsatz dar.

Bestehende Benchmarks leiden unter zwei Hauptproblemen:

Datenkontamination: Viele Tests basieren auf Prüfungsfragen, die möglicherweise bereits im Trainingsdatensatz der Modelle enthalten sind, was die Ergebnisse durch bloßes Auswendiglernen verfälscht.
Fehlende Evidenzprüfung: Die meisten Benchmarks bewerten nur die Richtigkeit der Antwort, nicht aber, ob die Antwort auf einer autoritativen Textquelle basiert. Selbst Modelle mit hoher Genauigkeit können gefährliche, aber plausible Falschinformationen generieren.

Es fehlt an einer robusten, kontaminationsresistenten Methode, um Halluzinationen in medizinischen Kontexten zu quantifizieren, bei der das Modell gezwungen wird, strikt aus einem bereitgestellten Textabschnitt zu schließen.

2. Methodik

Die Autoren entwickelten eine Pipeline namens ClinIQLink, um einen neuen Benchmark zu erstellen, der auf öffentlichen medizinischen Lehrbüchern basiert.

Korpus und Prompt-Erstellung:
- Aus öffentlichen medizinischen Lehrbüchern wurden Textabschnitte extrahiert (Filterung nach Länge, Informationsdichte und semantischer Kohärenz).
- Ein LLM (LLaMA-70B-Instruct) generierte daraus diverse QA-Paare in sieben Formaten (z. B. Multiple Choice, Listen, True/False, Multi-Hop-Reasoning und inverse Varianten).
- Insgesamt wurden 5.543 strukturell valide QA-Paare erzeugt.
Experiment 1: Baseline-Halluzinationsrate:
- Ziel: Messung der Halluzinationsrate von LLaMA-70B-Instruct bei Null-Shot-Prompts auf den neu generierten Daten.
- Validierung: Medizinisch geschulte Annotatoren bewerteten die Antworten auf Plausibilität und Faktenhaltigkeit. Ein Item galt als Halluzination, wenn es plausible, aber nicht-faktische Inhalte, erfundene Informationen oder inkonsistente Aussagen enthielt.
Experiment 2: Cross-Model-Vergleich und Präferenzstudie:
- Der Benchmark wurde auf acht verschiedene Modelle angewendet (inkl. LLaMA 3.3/4, Qwen 3, Mistral, Falcon und interne Modelle).
- Kliniker bewerteten die anonymisierten Modellantworten blind: Sie rangierten sie (Bestes bis Schlechtestes), bewerteten die klinische Nützlichkeit (Likert-Skala: Bad/Okay/Good) und markierten nicht gestützte Behauptungen.
Metriken:
- Halluzinationsrate (Proportion der falschen Antworten).
- Plausibilität und Beantwortbarkeit.
- Inter-Annotator-Übereinstimmung (Cohen's $\kappa$ , Fleiss' $\kappa$ , Kendall's $\tau_b$ ).
- Korrelation zwischen Halluzinationsrate und klinischer Nützlichkeit (Spearman-Korrelation).

3. Wichtige Beiträge

Neuer Benchmark: Vorstellung eines kontaminationsresistenten, textbasierten Benchmarks, bei dem jede Frage an einen autoritativen Quelltext gebunden ist, um Halluzinationen als „nicht durch den Text gestützte Inhalte" zu definieren.
Quantifizierung: Erste systematische Messung der Halluzinationsrate eines prominenten Open-Source-Modells (LLaMA-70B) in einem kontrollierten, evidenzbasierten medizinischen Setting.
Klinische Validierung: Einbindung von praktizierenden Ärzten zur Bewertung der klinischen Nützlichkeit und zur Identifizierung von Fehlern, die für Laien schwer erkennbar sind.
Kostenanalyse: Detaillierte Aufschlüsselung der Kosten für die Generierung und manuelle Verifizierung von QA-Paaren, die zeigt, dass die menschliche Überprüfung den größten Kostenfaktor darstellt.

4. Ergebnisse

Halluzinationsrate (Experiment 1):
- LLaMA-70B-Instruct halluzinierte in 19,7 % der Antworten (95 % KI: 18,6–20,7 %).
- Interessanterweise erhielten 98,8 % der Antworten die maximale Bewertung für Plausibilität. Das bedeutet, dass fast 20 % der Antworten fachlich falsch waren, aber für einen Nicht-Experten völlig glaubwürdig klangen.
- Es gab keine signifikante Korrelation zwischen Plausibilität und der Wahrscheinlichkeit einer Halluzination.
Modellvergleich und Skalierung (Experiment 2):
- Es besteht ein klarer negativer Zusammenhang zwischen Modellgröße und Halluzinationsrate: Die Rate sank von 27,1 % bei 1-B-Modellen auf 9,3 % bei 70-B-Modellen.
- Dennoch produzierte jedes getestete Modell (auch die größten) weiterhin Halluzinationen und erhielt „Bad"-Bewertungen.
- Fragetypen: Inverse Fragen (z. B. „Welches Medikament ist nicht sicher?") und Listen-Fragen (z. B. „Nenne alle Kontraindikationen") lösten signifikant mehr Halluzinationen aus als Standardfragen (bis zu 6–9 % mehr).
Klinische Präferenz:
- Es wurde eine negative Korrelation zwischen der Halluzinationsrate und der klinischen Nützlichkeit festgestellt ( $\rho = -0,71$ , $p = 0,058$ ): Modelle mit weniger Halluzinationen wurden von Ärzten als nützlicher eingestuft.
- Die Übereinstimmung zwischen den klinischen Annotatoren war sehr hoch (quadratisch gewichteter $\kappa = 0,92$ für Validität).
Kosten:
- Die menschliche Verifizierung dominiert die Kosten. Die Kosten pro QA-Paar für die menschliche Überprüfung (ca. 2,65 $) übersteigen die GPU-Kosten für die Generierung um mehr als eine Größenordnung.

5. Bedeutung und Fazit

Das Paper zeigt, dass aktuelle LLMs nicht für den unüberwachten klinischen Einsatz geeignet sind. Selbst hochmoderne Modelle mit 70 Milliarden Parametern produzieren in fast jedem fünften Fall halluzinierte Inhalte, die oft plausibel klingen, aber medizinisch falsch sind.

Sicherheitsimplikation: Da die Halluzinationen oft nicht durch einfache Plausibilitätsprüfungen erkannt werden können, ist eine menschliche Expertenüberwachung für den Einsatz in der Medizin zwingend erforderlich.
Benchmarking: Die Studie empfiehlt, inverse Fragen und Listen-basierte Abfragen als Stress-Tests in Benchmarks zu integrieren, da diese am effektivsten Halluzinationen aufdecken.
Kosten-Nutzen: Derzeit ist die manuelle Verifizierung der Hauptkostentreiber und ein Engpass für die Skalierbarkeit automatisierter medizinischer QA-Systeme. Solange keine automatisierte Verifizierung entwickelt wird, die der Genauigkeit von Experten entspricht, bleibt der Einsatz von LLMs in Hochrisikobereichen wie der Medizin ohne menschliche Aufsicht unverantwortlich.

Quantifying Hallucinations in Language Language Models on Medical Textbooks

1. Das Problem: Der „zu gute" Schüler

2. Die Methode: Ein neuer, fairer Test

3. Die Ergebnisse: Der glatte Lügner

4. Der Vergleich: Größe hilft, aber nicht perfekt

5. Die Kosten: Der menschliche Faktor

Fazit: Noch nicht bereit für den Einsatz im Krankenhaus

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models