Quantifying Hallucinations in Language Language Models on Medical Textbooks

Diese Studie quantifiziert die Halluzinationsrate von medizinischen Sprachmodellen anhand von Lehrbuchtexten und zeigt, dass trotz hoher Plausibilität signifikante Fehler auftreten, wobei Modelle mit geringeren Halluzinationsraten tendenziell von Ärzten als nützlicher eingestuft werden.

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman

Veröffentlicht 2026-03-12
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen extrem intelligenten, aber manchmal etwas zu fantasievollen Assistenten. Er kann fließend Deutsch sprechen, kennt medizinische Fachbegriffe und klingt absolut überzeugend. Das Problem ist nur: Er lügt manchmal. Und das nicht aus Bosheit, sondern weil er einfach Dinge erfindet, die plausibel klingen, aber faktisch falsch sind. In der KI-Welt nennt man das „Halluzinationen".

Dieser wissenschaftliche Artikel untersucht genau dieses Phänomen im Bereich der Medizin. Hier ist die Geschichte dahinter, einfach erklärt:

1. Das Problem: Der „zu gute" Schüler

Bisher haben wir KI-Modelle wie Schüler getestet, indem wir ihnen Multiple-Choice-Tests aus echten Prüfungen gegeben haben. Die KI hat dabei oft fast perfekte Noten gemacht. Aber das war wie ein Trick: Die KI hatte die Antworten vielleicht einfach auswendig gelernt (wie ein Schüler, der die Lösungen im Internet nachschaut), anstatt das medizinische Wissen wirklich zu verstehen.

Die Forscher wollten wissen: Was passiert, wenn wir die KI mit einem völlig neuen, unbekannten Lehrbuch konfrontieren und sie bitten, Fragen dazu zu beantworten? Kann sie dann noch so gut sein, oder fängt sie an zu erfinden?

2. Die Methode: Ein neuer, fairer Test

Die Forscher haben einen cleveren Weg gefunden, um die KI auf die Probe zu stellen:

  • Die Quelle: Sie nahmen alte, gemeinfreie medizinische Lehrbücher (wie eine Bibliothek, die jeder nutzen darf).
  • Der Test: Sie ließen die KI Fragen aus diesen Texten generieren und dann sofort beantworten.
  • Der Richter: Echte Ärzte (Kliniker) haben die Antworten der KI geprüft. Sie haben sich nicht nur gefragt: „Klingt das gut?", sondern: „Steht das wirklich so im Text?"

Stellen Sie sich vor, Sie geben einem Schüler einen Text vor und sagen: „Beantworte diese Frage nur mit dem, was du gerade gelesen hast." Wenn der Schüler dann etwas hinzufügt, das nicht im Text steht, ist das eine Halluzination.

3. Die Ergebnisse: Der glatte Lügner

Das Ergebnis war erschreckend, aber wichtig:

  • Die Zahl: Selbst bei einem sehr großen und fortschrittlichen Modell (LLaMA-70B) war fast jede fünfte Antwort (19,7 %) eine Halluzination.
  • Der Trick: Das Schlimmste daran war, dass diese falschen Antworten zu 98,8 % absolut glaubwürdig klangen. Die KI benutzte die richtigen Wörter, den richtigen Tonfall und die richtige Grammatik. Für einen Laien (oder sogar einen nicht spezialisierten Arzt) sah alles perfekt aus. Es war wie ein Hochstapler in einem teuren Anzug: Er sieht aus wie ein Arzt, aber er weiß nicht, was er tut.

4. Der Vergleich: Größe hilft, aber nicht perfekt

Die Forscher haben dann verschiedene KI-Modelle getestet, von kleinen bis zu riesigen.

  • Größe zählt: Je größer das Modell, desto seltener hat es gelogen. Ein riesiges Modell hat nur in 9 % der Fälle gelogen, ein kleines in 27 %.
  • Aber: Selbst die größten Modelle haben immer noch gelogen. Kein Modell war zu 100 % fehlerfrei.
  • Die Falle der Negation: Die KI wurde besonders verwirrt, wenn die Frage verneint wurde (z. B. „Welches Medikament ist nicht sicher?"). Hier hat sie am häufigsten Fehler gemacht. Auch Fragen, bei denen sie eine vollständige Liste liefern musste, waren eine Schwachstelle.

5. Die Kosten: Der menschliche Faktor

Ein wichtiger Punkt im Artikel ist die Frage nach den Kosten.

  • Man könnte denken: „Lass die KI die Antworten prüfen."
  • Aber die Wahrheit ist: Nur ein echter Arzt kann die Lügen entlarven.
  • Die Forscher haben berechnet, dass die Zeit, die ein Arzt braucht, um eine Antwort zu prüfen, den Prozess um das Zehnfache teurer macht als das reine Rechnen der KI. Solange wir keine KI haben, die so gut prüfen kann wie ein Mensch, müssen wir Menschen die Arbeit machen. Das ist teuer und langsam.

Fazit: Noch nicht bereit für den Einsatz im Krankenhaus

Die Botschaft des Artikels ist klar und ernst:
KI-Modelle sind wie brillante, aber unzuverlässige Praktikanten. Sie können tolle Texte schreiben und klingen sehr kompetent. Aber weil sie fast jede fünfte Antwort erfinden, können wir sie nicht allein in der Medizin einsetzen, wo es um Leben und Tod geht.

Solange wir nicht jeden einzelnen Satz von einem echten Arzt überprüfen lassen können (was sehr teuer ist), ist die KI für medizinische Entscheidungen noch zu riskant. Wir brauchen menschliche Aufsicht, bis die KI lernt, nicht zu lügen.

Kurz gesagt: Die KI ist ein sehr guter Schauspieler, aber noch kein verlässlicher Arzt.