Medical errors in large language models revealed using 1,000 synthetic clinical transcripts

⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Das Grundproblem: Der „Lehrbuch-Test" vs. der echte Chaos-Alltag

Stellen Sie sich vor, Sie testen einen neuen, super-intelligenten Kochroboter. Bisher haben Sie ihn nur mit perfekten Rezepten getestet, bei denen alle Zutaten genau abgewogen und in der richtigen Reihenfolge hinzugefügt wurden. Der Roboter hat dabei glänzend abgeschnitten.

Aber wie verhält er sich, wenn er in einer echten, chaotischen Küche steht? Wo der Kunde vielleicht vergisst zu sagen, dass er allergisch ist, wo die Zutaten unvollständig sind und der Kunde vielleicht noch etwas nervös und undeutlich spricht?

Genau das haben die Forscher aus London mit künstlicher Intelligenz (KI) in der Medizin gemacht. Bisher wurden medizinische KIs oft nur mit „Lehrbuch-Fällen" getestet – also perfekten, klaren Fallbeschreibungen. Diese Studie wollte wissen: Wie macht die KI Fehler, wenn die Realität unvollständig und chaotisch ist?

Die Methode: 1.000 künstliche Patienten im Labor

Um das herauszufinden, bauten die Forscher eine Art „Flugsimulator für Ärzte".

Sie erstellten 1.000 verschiedene, künstliche Patienten.
Jeder hatte eine ganz bestimmte Kopfschmerz-Erkrankung (von harmlos bis lebensgefährlich).
Sie gaben diesen Patienten ganz unterschiedliche Persönlichkeiten: Manche waren sehr wortreich, andere sprachen nur in kurzen Sätzen, manche waren unsicher, andere panisch.
Dann ließen sie eine simulierte Ärztin mit diesen Patienten sprechen.

Das Besondere: Die Forscher wussten am Ende genau, was jeder Patient wirklich hatte (die „Wahrheit"). Sie konnten also genau sehen, ob die KI richtig lag oder nicht.

Die Ergebnisse: Der „Über-Vertrauens"-Effekt

Das Ergebnis war erschreckend, aber auch sehr aufschlussreich. Die KI-Modelle (hier getestet: GPT-5.2 und eine kleinere Version, GPT-5-mini) zeigten zwei gefährliche Verhaltensweisen:

1. Der „Räuber ohne Karte"-Effekt (Übermut bei fehlenden Infos)
Wenn ein echter Arzt nicht genug Informationen hat, sagt er: „Ich brauche mehr Daten, bevor ich etwas tue." Er ist vorsichtig.
Die KI hingegen macht das Gegenteil. Wenn ihr Informationen fehlen, vertraut sie sich zu sehr.

Beispiel: Bei einem potenziell tödlichen Kopfschmerz (wie einer Gehirnblutung), bei dem man eigentlich sofort eine Nadel in den Rücken (Lumbalpunktion) stecken müsste, um das Gehirnwasser zu testen, sagte die KI oft: „Nein, das ist nicht nötig."
Der Vergleich: Es ist, als würde ein Navigator in einem Schiff, das im Nebel fährt, sagen: „Wir brauchen keine Karte, wir fahren einfach weiter, weil wir den Hafen nicht sehen." Dabei ist der Hafen vielleicht gar nicht da, oder es gibt Felsen.

2. Die Gefahr für Frauen
Die Studie fand heraus, dass die KI Frauen öfter falsch einschätzte als Männer. Wenn eine Frau über Kopfschmerzen klagte, neigte die KI öfter dazu zu sagen: „Das ist wahrscheinlich nichts Ernstes, gehen Sie nach Hause und ruhen Sie sich aus." Bei Männern mit denselben Symptomen war die KI vorsichtiger.

Der Vergleich: Die KI hat eine Art „blinden Fleck" entwickelt, bei dem sie die Schmerzen von Frauen eher als „eingebildet" oder „normal" abtut, während sie bei Männern sofort Alarm schlägt.

3. Die „Mini"-Version ist gefährlicher
Die kleinere, schnellere und billigere KI-Version (GPT-5-mini) machte deutlich mehr Fehler als die große, teure Version. Sie riet öfter zu falschen Medikamenten (wie Codein, das bei Kopfschmerzen oft nicht hilft) und schickte gefährliche Patienten nach Hause, anstatt sie ins Krankenhaus zu schicken.

Was bedeutet das für uns?

Die Studie zeigt uns, dass aktuelle KI-Modelle zwar sehr gut darin sind, Fakten aus Lehrbüchern zu wiederholen, aber schlecht darin sind, Risiken einzuschätzen, wenn Informationen fehlen.

Menschen werden vorsichtig, wenn sie unsicher sind („Lieber einmal zu viel untersucht als einmal zu wenig").
KIs werden oft zu selbstsicher und treffen feste Entscheidungen, auch wenn sie gar nicht genug wissen.

Das Fazit

Man kann diese KIs noch nicht einfach als „Erste-Hilfe-Assistenten" in die Handys von Millionen Menschen geben. Wenn sie in einer echten Situation mit unvollständigen Informationen versagen, könnte das für Patienten tödlich enden.

Die Forscher sagen: Bevor wir diese Technologie im echten Leben nutzen, müssen wir sie in solchen „Chaos-Simulatoren" testen, bis sie lernen, dass Vorsicht wichtiger ist als schnelle Antworten. Wir brauchen KIs, die sagen können: „Ich weiß es nicht, bitte gehen Sie zum Arzt", statt sich etwas auszudenken.

Medical errors in large language models revealed using 1,000 synthetic clinical transcripts

Das Grundproblem: Der „Lehrbuch-Test" vs. der echte Chaos-Alltag

Die Methode: 1.000 künstliche Patienten im Labor

Die Ergebnisse: Der „Über-Vertrauens"-Effekt

Was bedeutet das für uns?

Das Fazit

Technische Zusammenfassung: Medizinische Fehler in Large Language Models (LLMs) aufgedeckt mittels 1.000 synthetischer klinischer Transkripte

1. Problemstellung

2. Methodik: Hochdurchsatz-Simulations-Engine

3. Wichtige Ergebnisse

4. Schlüsselbeiträge und Signifikanz

Medical errors in large language models revealed using 1,000 synthetic clinical transcripts

Das Grundproblem: Der „Lehrbuch-Test" vs. der echte Chaos-Alltag

Die Methode: 1.000 künstliche Patienten im Labor

Die Ergebnisse: Der „Über-Vertrauens"-Effekt

Was bedeutet das für uns?

Das Fazit

Technische Zusammenfassung: Medizinische Fehler in Large Language Models (LLMs) aufgedeckt mittels 1.000 synthetischer klinischer Transkripte

1. Problemstellung

2. Methodik: Hochdurchsatz-Simulations-Engine

3. Wichtige Ergebnisse

4. Schlüsselbeiträge und Signifikanz

Mehr davon

A case report on gendered biases in a Finnish healthcare AI assistant

An End-to-End Synthetic Oncology Clinical Trial Framework Integrating Radiographic Response, Circulating Tumor DNA, Safety, and Survival for Decision-Oriented Clinical Data Science

Who is leading medical AI? A systematic review and scientometric analysis of chest x-ray research

High-Throughput Observational Evidence Generation Using Linked Electronic Health Record and Claims Data

Perception of Safety in Behavioral Health Crisis Units among Patients and Care Partners versus Artificial Intelligence (AI): A Multimethod Study