Aggregate benchmark scores obscure patient safety implications of errors across frontier language models

⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

🚨 Wenn die Durchschnittsnote lügt: Warum KI im Gesundheitswesen gefährlich sein kann

Stellen Sie sich vor, Sie kaufen einen neuen, hochmodernen Kochroboter. Der Hersteller zeigt Ihnen stolz eine Durchschnittsnote von 95 % auf der Verpackung. „Er ist perfekt!", sagt er. „Er kann fast alles kochen!"

Aber was, wenn dieser Roboter bei harmlosen Gerichten wie Salat (Routine) alles perfekt macht, aber bei giftigen Pilzen (Notfälle) manchmal sagt: „Das ist nur ein bisschen Salat, essen Sie es!"? Und was, wenn er bei anderen Gerichten immer zu viel Salz nimmt, nur um sicherzugehen?

Genau das ist das Problem, das diese Studie untersucht. Sie zeigt, dass die üblichen Durchschnittspunktzahlen (die „Benchmark-Scores") bei KI-Modellen im Gesundheitsbereich täuschen können. Sie verbergen die eigentliche Gefahr.

1. Der Durchschnitt ist ein trügerischer Freund

Die Forscher haben neun verschiedene KI-Modelle (die „Spitzenmodelle" der Branche) getestet. Sie gaben ihnen 960 verschiedene medizinische Szenarien vor – von „Rufen Sie den Hausarzt" bis „Sofort ins Krankenhaus!".

Das Ergebnis: Alle Modelle hatten eine hohe „Durchschnittsnote" (zwischen 75 % und 88 %). Auf den ersten Blick scheinen sie alle ähnlich gut zu sein.
Das Problem: Wenn man genauer hinsieht, ist das Bild völlig anders. Ein Modell macht fast keine Fehler, die Patienten in Gefahr bringen (es schickt alle Notfälle ins Krankenhaus), aber es schickt auch viele gesunde Leute ins Krankenhaus (Überreaktion). Ein anderes Modell ist sehr sparsam und schickt fast niemanden ins Krankenhaus, aber es übersieht tödliche Notfälle.

Die Metapher: Es ist wie bei zwei Sicherheitsbeamten am Flughafen.

Beamter A lässt niemanden durch, auch nicht die harmlose Großmutter mit dem Keks. Er ist extrem vorsichtig (hohe „Über-Triage").
Beamter B lässt jeden durch, auch den Terroristen, weil er denkt, er sieht harmlos aus. Er ist extrem entspannt (hohe „Unter-Triage").
Wenn man nur die Gesamtzahl der durchgelassenen Personen zählt, sehen beide vielleicht ähnlich effizient aus. Aber für die Sicherheit ist der Unterschied lebenswichtig!

2. Die Richtung des Fehlers ist wichtiger als die Häufigkeit

In der Medizin ist die Richtung eines Fehlers entscheidend:

Unter-Triage (Gefahr): Die KI sagt „Gehen Sie nach Hause", obwohl der Patient einen Herzinfarkt hat. Das ist wie ein Feuerwehrmann, der sagt: „Das ist nur ein kleiner Rauch, löschen Sie nicht."
Über-Triage (Ärger): Die KI sagt „Gehen Sie sofort ins Krankenhaus", obwohl es nur ein kleiner Schnitt ist. Das ist wie ein Feuerwehrmann, der mit einem Löschzug kommt, weil jemand eine Kerze angezündet hat.

Die Studie zeigt: Ein Modell kann eine hohe Gesamtnote haben, aber trotzdem gefährlich sein, weil es die falsche Richtung wählt. Die Durchschnittszahl sagt uns nicht, wie das Modell scheitert.

3. Der „Freunde-Effekt": Wenn andere die Symptome beschönigen

Ein besonders beunruhigendes Ergebnis war, wie die KI auf den Kontext reagiert.
Stellen Sie sich vor, jemand ruft an und sagt: „Mein Freund hat Bauchschmerzen."

Wenn der Freund sagt: „Ach, das ist nichts, nur ein bisschen Gas", dann neigten alle KI-Modelle dazu, den Ernstfall zu unterschätzen. Sie sagten: „Okay, dann bleibt er zu Hause."
Das ist gefährlich, weil der Freund vielleicht nicht weiß, dass es ein Blinddarm ist. Die KI lässt sich also von der „Beruhigung" eines Laien täuschen, statt auf die medizinischen Fakten zu hören.

Die Metapher: Es ist wie ein Arzt, der sich von einem besorgten, aber unwissenden Freund leiten lässt, statt auf die Symptome des Patienten zu hören. Wenn der Freund sagt „Es ist nur ein Kratzer", glaubt der Arzt ihm blind – auch wenn es eine tiefe Wunde ist.

4. Neue Modelle sind nicht automatisch sicherer

Man könnte denken: „Je neuer das Modell, desto besser."
Die Studie zeigte jedoch das Gegenteil. Ein ganz neues Modell (GPT-5.4) hatte in diesem Test mehr Notfälle übersehen als ein etwas älteres Modell (GPT-5.2).
Lektion: Nur weil ein KI-Modell „Version 5.4" heißt und teurer ist, heißt das nicht, dass es sicherer im Umgang mit Menschenleben ist.

5. Was passiert bei Krisen (z. B. Suizidgedanken)?

Als die KI mit Szenarien konfrontiert wurde, in denen jemand Suizidgedanken hatte, taten sich die Modelle schwer, die richtigen Hilfsnummern (wie die 112 oder Krisentelefone) zu nennen.

Manche nannten sie selten, manche oft.
Es gab kein einheitliches, sicheres Muster.
Das ist wie ein Telefonbuch, das bei einer Notrufnummer manchmal die Nummer des örtlichen Pizzalieferservice anzeigt, weil es den Kontext nicht richtig verstanden hat.

Fazit: Was bedeutet das für uns?

Diese Studie ist eine Warnung. Sie sagt uns:

Vertrauen Sie nicht blind auf Durchschnittszahlen. Eine hohe Punktzahl bedeutet nicht automatisch, dass die KI sicher ist.
Wir müssen genauer hinschauen. Wir müssen prüfen: Schickt die KI zu viele Leute ins Krankenhaus (Ressourcenverschwendung) oder zu wenige (Lebensgefahr)?
Der Kontext zählt. KI-Modelle müssen lernen, nicht auf die Worte von Freunden zu hören, wenn es um medizinische Notfälle geht.

Zusammenfassend: Wir brauchen keine KI, die nur eine gute Note im Test macht. Wir brauchen eine KI, die weiß, wann sie vorsichtig sein muss und wann sie entschlossen handeln muss – besonders wenn es um das Leben von Menschen geht. Die aktuellen Testmethoden sind wie ein Auto-Test, der nur die Höchstgeschwindigkeit misst, aber vergisst zu prüfen, ob die Bremsen funktionieren.

Each language version is independently generated for its own context, not a direct translation.

Titel: Aggregate Benchmark-Scores verschleiern die patientensicherheitsrelevanten Implikationen von Fehlern bei Frontier-Sprachmodellen

1. Problemstellung

Frontier-Sprachmodelle (LLMs) werden zunehmend als primäre Ressource für gesundheitsbezogene Fragen genutzt, wobei Millionen von Nutzern täglich auf diese Systeme zurückgreifen, oft ohne ärztliche Beratung. Ein zentrales Problem besteht darin, dass die aktuellen technischen Berichte und Benchmarks (z. B. HealthBench, MedCalc-Bench) die Leistung dieser Modelle hauptsächlich durch aggregierte Genauigkeitsmetriken (overall aggregate benchmarks) zusammenfassen.

Diese aggregierten Scores erfassen jedoch nicht die Richtung der Fehler (Directionality of Errors). Im klinischen Kontext haben Fehler in entgegengesetzte Richtungen fundamental unterschiedliche Konsequenzen:

Unter-Triage (Under-triage): Ein Notfall wird nicht erkannt und der Patient wird fälschlicherweise nach Hause geschickt (hohes Risiko für Tod oder schweren Schaden).
Über-Triage (Over-triage): Ein nicht-dringender Fall wird fälschlicherweise als Notfall eingestuft (führt zu Ressourcenverschwendung und Stress, ist aber weniger lebensbedrohlich).

Die Autoren argumentieren, dass ein hoher aggregierter Genauigkeitswert diese kritischen Sicherheitsunterschiede verschleiert und somit keine zuverlässige Grundlage für die Bewertung der klinischen Sicherheit von KI-Systemen bildet.

2. Methodik

Die Studie erweitert ein bestehendes Triage-Benchmark (basierend auf Ramaswamy et al., Nature Medicine) auf neun weit verbreitete, allgemeine KI-Modelle (Frontier- und Lightweight-Systeme von OpenAI, Anthropic, Google, DeepSeek und Meta), darunter GPT-5-Varianten, Claude-Opus/Haiku, Gemini und Llama-3.3.

Datensatz: 960 strukturierte klinische Fallvignetten (Vignettes) über vier Dringlichkeitsstufen (Home, Routine, Urgent, ED Now).
Design: Ein faktorieller Versuchsansatz, bei dem systematisch vier Kontextvariablen variiert wurden:
1. Anker-Aussagen: Ein Begleiter minimiert die Symptome (z. B. "Mein Freund sagt, es ist nichts Ernstes").
2. Zugangsbarrieren: Fehlende Versicherung oder Präsentation außerhalb der Öffnungszeiten.
3. Demografie: Rasse (Schwarz vs. Weiß) und Geschlecht (Frau vs. Mann).
Analyse:
- Berechnung der gerichteten Fehlerraten (Unter- vs. Über-Triage) für nicht-ambivalente Fälle.
- Separate Analyse von "Edge Cases" (Fälle mit zwei möglichen Goldstandard-Stufen), um zu prüfen, ob Kontextfaktoren die Entscheidung in eine gefährlichere Richtung verschieben.
- Statistische Tests mittels gemischter logistischer Regression (Mixed-effects logistic regression) zur Ermittlung von Odds Ratios (OR) für kontextbedingte Verzerrungen.
- Analyse der Krisenintervention bei Suizidgedanken (Erwähnung von Krisenhotlines wie 988).

3. Wichtige Ergebnisse

A. Aggregierte Genauigkeit vs. Sicherheitsprofil

Die In-Range-Accuracy (Anteil der Empfehlungen innerhalb des Goldstandard-Fensters) lag zwischen 75,0 % (Llama-3.3-70B) und 87,7 % (GPT-5-mini).
Keine Korrelation: Es gab keine signifikante Korrelation zwischen der aggregierten Genauigkeit und der Rate an Unter-Triage ( $\rho = -0,05$ ). Ein Modell kann also eine hohe Gesamtgenauigkeit haben, aber gleichzeitig eine hohe Rate an lebensgefährlichen Unter-Triage-Fehlern aufweisen.
Divergente Sicherheitsprofile: Die Raten für Unter-Triage variierten stark (0,0 % bei GPT-5.2 bis 12,3 % bei GPT-5-mini), während die Über-Triage-Raten unabhängig davon schwankten (9,4 % bis 36,9 %).

B. Kritische Fehler bei Notfällen (ED Now)

Bei goldstandard-konfirmierten Notfällen (z. B. diabetische Ketoazidose, drohendes respiratorisches Versagen) zeigten die Modelle drastische Unterschiede:
- GPT-5.2 und Gemini-2.5-Pro verpassten 0 % dieser Notfälle.
- GPT-5-mini verpasste 75 % (48 von 64 Fällen).
- GPT-5.4-Thinking (ein neueres Flaggschiff-Modell) verpasste 8 % der Notfälle, was statistisch signifikant schlechter war als GPT-5.2. Dies widerlegt die Annahme, dass neuere Modellversionen automatisch sicherer sind.

C. Kontextuelle Verzerrungen (Bias)

Symptom-Minimierung (Anker-Effekt): Wenn ein Begleiter die Symptome minimierte, neigten alle getesteten Modelle dazu, die Dringlichkeit in unklaren Fällen herabzustufen (OR-Bereich: 2,9 bis 14,9). Dies war der einzige konsistente Kontexteffekt über alle Modelle hinweg.
Zugangsbarrieren: Bei Vorhandensein von Zugangsbarrieren (z. B. keine Versicherung) neigten 6 von 10 Modellen dazu, Fälle herabzustufen.
Demografie: Rasse und Geschlecht zeigten keine signifikanten Assoziationen mit Triage-Fehlern in den getesteten Modellen.

D. Krisenintervention (Suizidalität)

Die Erwähnung von Krisenressourcen (z. B. 988) war bei allen Modellen niedrig und variabel (Median 31,2 % bei objektiven Befunden).
Es gab kein konsistentes Muster, ob Modelle bei Vorliegen konkreter Pläne häufiger auf Hilfsangebote verwiesen als bei reinen Gedanken.

4. Hauptbeiträge und Schlussfolgerungen

Unzulänglichkeit aggregierter Metriken: Die Studie belegt, dass aggregierte Benchmark-Scores klinisch irreführend sein können. Sie charakterisieren, rangieren oder sagen die klinische Sicherheit von KI-Modellen nicht vorher, da sie die Richtung und Schwere von Fehlern ignorieren.
Heterogenität der Modelle: Selbst innerhalb derselben Modellfamilie (z. B. verschiedene GPT-5-Varianten) oder zwischen Anbietern gibt es massive Unterschiede in den Sicherheitsprofilen. Ein "gesundes" Branding (z. B. "ChatGPT Health") garantiert keine Sicherheit, wenn das Fehlerprofil nicht spezifiziert ist.
Notwendigkeit neuer Evaluierungsstandards: Die Autoren fordern, dass zukünftige Evaluierungsframeworks gerichtete Fehlerraten (Directional Error Rates) stratifiziert nach klinischer Schwere und Kontextfaktoren standardmäßig berichten müssen.
Warnung vor "Monotoner Verbesserung": Die Ergebnisse zeigen, dass Fortschritte in Benchmark-Scores oder neue Modellreleases nicht automatisch zu einer Verbesserung der klinischen Sicherheit führen; im Gegenteil, neue Modelle können in spezifischen Sicherheitskategorien schlechter abschneiden als Vorgänger.

5. Signifikanz

Diese Arbeit ist von hoher Bedeutung für die Regulierung und den Einsatz von KI im Gesundheitswesen. Sie liefert den empirischen Beweis, dass die derzeitige Praxis, KI-Modelle primär anhand ihrer Gesamtgenauigkeit zu bewerten, potenziell katastrophale Risiken für Patienten birgt. Die Studie unterstreicht die Dringlichkeit, Evaluierungsprotokolle zu ändern, die systematisch nach gefährlichen Fehlermustern (insbesondere Unter-Triage bei Notfällen und kontextbedingten Verzerrungen) suchen, bevor solche Systeme in der realen Welt eingesetzt werden.