Class imbalance correction in artificial intelligence models leads to miscalibrated clinical predictions: a real-world evaluation

⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Titel: Warum das „Ausgleichen" von Daten in der KI-Ärztepraxis gefährlich sein kann

Stellen Sie sich vor, Sie sind ein erfahrener Wettervorhersager. Ihre Aufgabe ist es, den Menschen zu sagen, wie hoch die Wahrscheinlichkeit ist, dass es morgen regnet.

In Ihrer Stadt regnet es nur sehr selten – vielleicht nur an 2 von 100 Tagen. Das ist wie bei einer seltenen Operation: Die meisten Patienten werden gesund entlassen, nur sehr wenige erleiden schwere Komplikationen oder sterben.

Das Problem: Der „unausgeglichene" Datensatz

Wenn Sie eine KI (eine künstliche Intelligenz) trainieren, um diese Vorhersagen zu treffen, schauen Sie sich historische Daten an.

Natürliche Situation: Von 1.000 Patienten sind 980 gesund und 20 krank.
Das Problem für die KI: Die KI ist schlau, aber sie ist auch ein bisschen faul. Wenn sie sieht, dass 98 % der Fälle „gesund" sind, lernt sie schnell: „Hey, ich sage einfach immer 'gesund' und habe in 98 % der Fälle recht!" Das ist zwar statistisch korrekt, aber für die 20 kranken Patienten nutzlos.

Die übliche Lösung: Das „Ausgleichen" (Class Imbalance Correction)

Um die KI zu zwingen, sich auch um die kranken Patienten zu kümmern, machen viele Entwickler einen Trick, den man im Papier als Klassen-Ungleichgewichtskorrektur bezeichnet.

Die Analogie:
Stellen Sie sich vor, Sie haben eine Waage. Auf der einen Seite liegen 980 schwere Steine (gesunde Patienten) und auf der anderen nur 20 Federn (kranke Patienten). Die Waage kippt komplett zur Seite der Steine.
Um die Waage auszugleichen, nehmen die Entwickler die Federn und kopieren sie 40-mal (Oversampling) oder werfen 900 Steine weg (Undersampling), bis auf beiden Seiten genau 500 „Gewichte" liegen.

Die Idee dahinter: „Wenn wir die Daten so manipulieren, dass es 50 % Kranke und 50 % Gesunde gibt, wird die KI lernen, beide Gruppen gleich gut zu erkennen."

Was das Papier herausgefunden hat: Der fatale Fehler

Die Autoren dieses Papiers haben genau das getestet. Sie haben eine KI mit echten Daten von über 1,8 Millionen Patienten trainiert. Sie haben die KI auf die „natürliche" Weise (mit den echten 2 % Risiko) trainiert und dann mit der „ausgeglichenen" Methode (50/50).

Das Ergebnis war überraschend und beunruhigend:

Die „ausgeglichene" KI sah besser aus (auf dem Papier):
Wenn man die KI nur auf die Frage „Ist der Patient krank oder gesund?" prüfte, schnitt die ausgeglichene Version besser ab. Sie fand mehr der kranken Patienten (hohe „Recall"-Werte).
- Aber: Das war eine Täuschung. Die KI hatte gelernt, dass in ihrer Trainingswelt die Hälfte aller Menschen krank ist.
Die „natürliche" KI war im echten Leben besser:
Als die KI wieder in die echte Welt zurückkehrte (wo nur 2 % krank sind), passierte Folgendes:
- Die ausgeglichene KI schrie ständig „Achtung! Gefahr!". Da sie gelernt hatte, dass die Hälfte der Welt krank ist, hielt sie fast jeden Patienten für gefährdet.
- Die natürliche KI sagte: „Okay, die Wahrscheinlichkeit ist sehr gering, aber wenn sie steigt, dann sage ich es genau."

Die Konsequenz: Warum das gefährlich ist

Stellen Sie sich vor, die ausgeglichene KI sagt einem gesunden Patienten: „Sie haben ein 60 %iges Risiko, an den Folgen der Operation zu sterben."
In der Realität ist das Risiko vielleicht nur 2 %.

Das passiert dann:

Der Patient bekommt Angst und lehnt eine lebensrettende Operation ab.
Das Krankenhaus reserviert teure Intensivbetten für Patienten, die sie gar nicht brauchen.
Ärzte verschwenden Zeit mit unnötigen Tests.

Das Papier zeigt, dass die „ausgeglichene" KI die Wahrscheinlichkeiten verfälscht. Sie sagt nicht mehr die wahre Wahrscheinlichkeit voraus, sondern eine verzerrte. In der Medizin ist es aber entscheidend, die wahre Wahrscheinlichkeit zu kennen, um die richtige Entscheidung zu treffen.

Die einfache Lehre

Das Papier sagt uns im Grunde: Versuchen Sie nicht, die Welt künstlich auszugleichen, nur damit die Statistik schöner aussieht.

Schlechtes Beispiel: Ein Wetterbericht, der sagt: „Es regnet morgen zu 50 %", obwohl es in Ihrer Stadt nur alle 50 Jahre regnet. Das ist eine falsche Vorhersage, die zu falschen Entscheidungen führt (z. B. Regenjacke tragen, obwohl die Sonne scheint).
Gutes Beispiel: Ein Wetterbericht, der sagt: „Es regnet morgen zu 2 %." Das ist die Realität. Wenn die KI dann aber sagt: „Heute sind es 15 %", dann wissen Sie, dass es wirklich gefährlich wird.

Fazit:
In der medizinischen KI ist es wichtiger, dass die Vorhersage genau ist (kalibriert), als dass sie einfach nur „viele Treffer" bei seltenen Ereignissen findet. Das künstliche Ausgleichen von Daten macht die KI zwar scharf für das Finden von Fehlern, aber blind für die Realität. Und in der Medizin kann Blindheit lebensgefährlich sein.

Class imbalance correction in artificial intelligence models leads to miscalibrated clinical predictions: a real-world evaluation

Das Problem: Der „unausgeglichene" Datensatz

Die übliche Lösung: Das „Ausgleichen" (Class Imbalance Correction)

Was das Papier herausgefunden hat: Der fatale Fehler

Die Konsequenz: Warum das gefährlich ist

Die einfache Lehre

Titel:

1. Problemstellung

2. Methodik

3. Wichtige Beiträge und Ergebnisse

A. Diskriminierung vs. Kalibrierung

B. Verzerrung durch Klassifikationsmetriken

C. Klinische Auswirkungen (Simulation)

D. Entscheidungsanalyse (DCA)

4. Signifikanz und Schlussfolgerung

Class imbalance correction in artificial intelligence models leads to miscalibrated clinical predictions: a real-world evaluation

Das Problem: Der „unausgeglichene" Datensatz

Die übliche Lösung: Das „Ausgleichen" (Class Imbalance Correction)

Was das Papier herausgefunden hat: Der fatale Fehler

Die Konsequenz: Warum das gefährlich ist

Die einfache Lehre

Titel:

1. Problemstellung

2. Methodik

3. Wichtige Beiträge und Ergebnisse

A. Diskriminierung vs. Kalibrierung

B. Verzerrung durch Klassifikationsmetriken

C. Klinische Auswirkungen (Simulation)

D. Entscheidungsanalyse (DCA)

4. Signifikanz und Schlussfolgerung

Mehr davon

A case report on gendered biases in a Finnish healthcare AI assistant

An End-to-End Synthetic Oncology Clinical Trial Framework Integrating Radiographic Response, Circulating Tumor DNA, Safety, and Survival for Decision-Oriented Clinical Data Science

Who is leading medical AI? A systematic review and scientometric analysis of chest x-ray research

High-Throughput Observational Evidence Generation Using Linked Electronic Health Record and Claims Data

Perception of Safety in Behavioral Health Crisis Units among Patients and Care Partners versus Artificial Intelligence (AI): A Multimethod Study