Tipping the Balance: Impact of Class Imbalance Correction on the Performance of Clinical Risk Prediction Models

⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

🍎 Der Apfel-Test: Warum das "Ausgleichen" von Daten oft schadet

Stellen Sie sich vor, Sie sind ein Arzt, der einen neuen Computer-Algorithmus entwickelt hat, um zu sagen, welche Patienten ein hohes Risiko haben, an einer bestimmten Krankheit zu erkranken.

Das Problem: Die Krankheit ist selten.
Von 100 Patienten haben nur 5 die Krankheit (die "Minderheit") und 95 sind gesund (die "Mehrheit").

In der Welt der künstlichen Intelligenz nennt man das Klassen-Ungleichgewicht. Es ist wie ein Korb mit 95 roten Äpfeln (gesund) und nur 5 grünen Äpfeln (krank).

Das Problem: Der faule Computer

Wenn Sie einen Computer-Algorithmus einfach so auf diesen Korb loslassen, wird er schlau, aber auch faul. Er merkt schnell: "Hey, wenn ich einfach immer 'gesund' sage, habe ich in 95 von 100 Fällen recht!"
Das Ergebnis: Der Computer ist zwar oft "richtig" (hohe Genauigkeit), aber er erkennt die 5 kranken Patienten gar nicht. Das ist im Krankenhaus fatal.

Die Lösung, die alle versuchen: Das "Ausgleichen" (Resampling)

Um das zu verhindern, versuchen Forscher, den Korb künstlich auszugleichen, bevor sie den Computer trainieren. Das nennen sie Resampling. Es gibt drei beliebte Methoden, die in dieser Studie getestet wurden:

ROS (Random Oversampling): Sie kopieren die 5 grünen Äpfel einfach mehrfach, bis Sie 95 grüne und 95 rote Äpfel haben.
- Metapher: Sie nehmen einen grünen Apfel, machen 19 Kopien davon und legen sie in den Korb.
RUS (Random Undersampling): Sie werfen 90 rote Äpfel weg, bis nur noch 5 rote und 5 grüne übrig sind.
- Metapher: Sie schmeißen fast den ganzen Korb voller roter Äpfel in den Müll, damit die grünen nicht untergehen.
SMOTE: Sie schneiden die grünen Äpfel in Scheiben und mischen sie neu zusammen, um "neue, synthetische" grüne Äpfel zu erfinden, die irgendwo zwischen den echten liegen.
- Metapher: Sie backen künstliche grüne Äpfel aus Teig, die aussehen wie die echten, aber nicht wirklich existieren.

Die Idee dahinter: Wenn der Computer in einem "ausgeglichenen" Korb trainiert, lernt er, die grünen Äpfel besser zu erkennen.

Was hat die Studie herausgefunden?

Die Forscher haben 10 verschiedene medizinische Datensätze (von Diabetes über Sepsis bis hin zu Herzproblemen) genommen und geprüft, ob diese "Ausgleichs-Methoden" wirklich helfen.

Das Ergebnis war überraschend und eindeutig: Es hat nicht funktioniert.

Hier ist die einfache Erklärung, warum:

1. Die Rangliste bleibt gleich (Diskriminierung)
Stellen Sie sich vor, der Computer muss Patienten sortieren: "Wer ist am kranksten?"
Ob der Computer nun mit dem echten Korb (95 rot / 5 grün) oder dem künstlichen Korb (95 rot / 95 grün) trainiert hat: Er sortiert die Patienten fast gleich gut. Er weiß immer noch, wer eher krank ist als wer.

Ergebnis: Die "Ausgleichs-Methoden" haben die Fähigkeit, die Kranken von den Gesunden zu unterscheiden, nicht verbessert. Sie haben sie manchmal sogar leicht verschlechtert.

2. Die Wahrscheinlichkeiten werden falsch (Kalibrierung)
Das ist der wichtigste Teil! Ein Arzt braucht nicht nur zu wissen, dass jemand krank ist, sondern wie wahrscheinlich es ist.

Ohne Ausgleich: Der Computer sagt: "Patient A hat eine 5%ige Wahrscheinlichkeit." Das ist realistisch, denn in der echten Welt sind nur 5% krank.
Mit Ausgleich: Da der Computer im Training gelernt hat, dass 50% der Äpfel grün sind (weil wir sie kopiert oder gemischt haben), sagt er plötzlich: "Patient A hat eine 50%ige Wahrscheinlichkeit!"
- Das Problem: Der Computer ist jetzt übermütig. Er denkt, die Krankheit ist viel häufiger, als sie wirklich ist. Er schätzt das Risiko also massiv falsch ein.

Die Metapher vom Wetterbericht:
Stellen Sie sich einen Wettervorhersager vor.

Echte Daten: Es regnet nur 1 Tag im Monat. Der Vorhersager lernt: "Meistens ist es trocken." Wenn er sagt "10% Regenwahrscheinlichkeit", ist das korrekt.
Ausgeglichene Daten: Der Vorhersager trainiert nur mit Tagen, an denen es geregnet hat, und Tagen, an denen er künstlich Regen erfunden hat. Jetzt denkt er: "Regen ist normal!" Wenn er dann sagt "10% Regenwahrscheinlichkeit", ist das falsch, denn für ihn ist Regen eigentlich 50% wahrscheinlich.
Folge: Die Patienten bekommen Panik, weil der Computer ihnen ein hohes Risiko sagt, obwohl es gar nicht so hoch ist. Oder sie bekommen falsche Hoffnung.

Was bedeutet das für die Praxis?

Die Studie kommt zu einem klaren Rat:

Nicht einfach kopieren: Wenn Sie ein medizinisches Risikomodell bauen, sollten Sie die Daten nicht künstlich ausgleichen (keine Kopien, keine Wegwerfaktionen, keine künstlichen Äpfel).
Lassen Sie die Daten so, wie sie sind: Trainieren Sie den Computer mit den echten, unausgeglichenen Daten. Er wird trotzdem lernen, die seltenen Fälle zu finden.
Schneiden Sie den Kuchen anders: Wenn Sie wollen, dass der Computer mehr kranke Patienten findet (höhere Sensitivität), ändern Sie nicht den Trainingsprozess. Ändern Sie einfach die Entscheidungsgrenze.
- Beispiel: Wenn der Computer sagt "Risiko > 5%", behandeln Sie den Patienten. Wenn Sie mehr Fälle finden wollen, sagen Sie "Risiko > 2%". Das ist viel besser als den Computer selbst zu manipulieren.
Vertrauen Sie den Zahlen: Ein Modell, das auf echten Daten trainiert wurde, sagt Ihnen die wahre Wahrscheinlichkeit. Ein Modell, das "ausgeglichen" wurde, lügt Sie oft an, weil es die Häufigkeit der Krankheit falsch einschätzt.

Fazit:
In der Medizin ist es wichtiger, dass die Wahrscheinlichkeitsangaben (z. B. "Sie haben ein 20%iges Risiko") stimmen, als dass das Modell einfach nur "richtig" oder "falsch" klassifiziert. Durch das künstliche Ausgleichen von Daten verlieren wir diese Genauigkeit. Besser ist es, mit den echten, unausgeglichenen Daten zu arbeiten und die Entscheidungsregeln später anzupassen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Tipping the Balance: Impact of Class Imbalance Correction on the Performance of Clinical Risk Prediction Models

(Übersetzung: Die Waage kippen: Auswirkungen der Korrektur von Klassenungleichgewichten auf die Leistung klinischer Risikovorhersagemodelle)

1. Problemstellung

Klinische Risikovorhersagemodelle im Gesundheitswesen leiden häufig unter dem Problem des Klassenungleichgewichts (Class Imbalance), da klinische Endpunkte (z. B. Krankheitsausbrüche, Mortalität) oft selten sind. Um die Leistung dieser Modelle zu verbessern, werden im maschinellen Lernen häufig Techniken zur Korrektur des Klassenungleichgewichts angewendet, wie z. B. Oversampling (Verdopplung oder synthetische Generierung der Minderheitsklasse) oder Undersampling (Reduktion der Mehrheitsklasse).

Das zentrale Problem dieser Studie ist jedoch, dass der Einfluss dieser Techniken auf die Kalibrierung (die Übereinstimmung zwischen vorhergesagten Wahrscheinlichkeiten und tatsächlichen Ereignisraten) unzureichend verstanden ist. Während diese Methoden oft die Sensitivität oder die Genauigkeit an einem bestimmten Schwellenwert verbessern sollen, besteht die Gefahr, dass sie die probabilistische Genauigkeit der Modelle verzerren. Eine schlechte Kalibrierung kann in der klinischen Praxis zu Fehleinschätzungen führen (z. B. unnötige Behandlungen durch Überschätzung des Risikos oder falsches Sicherheitsgefühl durch Unterschätzung). Bisherige Studien basierten oft nur auf Simulationen; es fehlte an empirischen Beweisen aus realen klinischen Datensätzen über verschiedene Algorithmen hinweg.

2. Methodik

Die Autoren führten eine umfassende empirische Evaluierung durch, um die Auswirkungen gängiger Resampling-Strategien auf Diskriminierung und Kalibrierung zu untersuchen.

Datensätze: Es wurden 10 verschiedene klinische Datensätze aus unterschiedlichen medizinischen Domänen (z. B. Diabetes, Sepsis, kardiovaskuläre Erkrankungen, Intensivmedizin) analysiert. Die Gesamtstichprobe umfasste über 605.000 Patienten. Die Ereignisraten (Prävalenz) reichten von ca. 1,8 % bis 34,9 %.
Modelle: Eine heterogene Gruppe von Machine-Learning-Algorithmen wurde evaluiert, darunter lineare Modelle (Logistische Regression) und nicht-lineare Ansätze (XGBoost, CatBoost, Random Forest, Künstliche Neuronale Netze, TabPFN).
Experimentelles Design: Für jeden Datensatz und jedes Modell wurden vier Trainingsbedingungen verglichen:
1. Originaldaten: Training ohne Eingriffe.
2. ROS (Random Oversampling): Zufällige Verdopplung der Minderheitsklasse bis zum Verhältnis 1:1.
3. RUS (Random Undersampling): Zufällige Entfernung von Mehrheitsklassen-Instanzen bis zum Verhältnis 1:1.
4. SMOTE (Synthetic Minority Oversampling Technique): Synthetische Generierung von Minderheitsklassen-Instanzen durch Interpolation (mit $k=5$ Nachbarn).
  Hinweis: Das Resampling erfolgte ausschließlich auf den Trainingsdaten; die Testdaten behielten ihre ursprüngliche Verteilung bei, um eine unverzerrte Evaluation zu gewährleisten.
Evaluierungsmetriken:
- Diskriminierung: ROC-AUC (Area Under the Curve) und PR-AUC (Precision-Recall).
- Kalibrierung: Brier-Score (mittlerer quadratischer Fehler), Kalibrierungs-Intercept (systematische Über-/Unterschätzung) und Kalibrierungs-Slope (Über-/Unteranpassung).

3. Wichtige Ergebnisse

Die Analyse ergab konsistente Muster über alle Datensätze und Modellfamilien hinweg:

Keine Verbesserung der Diskriminierung:
- Die Anwendung von Resampling-Methoden führte nicht zu einer systematischen Verbesserung der ROC-AUC.
- Die Änderungen waren minimal und inkonsistent. In den meisten Fällen verschlechterte sich die ROC-AUC leicht oder blieb unverändert (z. B. ROS: -0,002; SMOTE: -0,01).
- Nur in einem einzigen Fall (Hypoglykämie in der Intensivmedizin mit sehr großem Datensatz) zeigte RUS eine leichte Verbesserung der ROC-AUC, ging jedoch mit einer erheblichen Verschlechterung des Brier-Scores einher.
- Auch der PR-AUC verschlechterte sich bei allen Resampling-Methoden signifikant.
Verschlechterung der Kalibrierung:
- Im Gegensatz zur Diskriminierung hatte Resampling einen deutlich negativen Einfluss auf die Kalibrierung.
- Modelle, die mit Resampling trainiert wurden, wiesen signifikant höhere Brier-Scores auf (zwischen 0,029 und 0,080 schlechter als die Originalmodelle), was auf eine geringere probabilistische Genauigkeit hindeutet.
- Es traten systematische Verzerrungen auf: Die Kalibrierungs-Intercepts und -Slopes weichten stark von den Idealwerten (0 bzw. 1) ab. Dies bedeutet, dass die vorhergesagten Wahrscheinlichkeiten systematisch über- oder unterschätzt wurden, obwohl die Rangfolge der Patienten (Diskriminierung) weitgehend erhalten blieb.

4. Schlüsselbeiträge und Schlussfolgerungen

Empirische Validierung: Die Studie bestätigt frühere Simulationsergebnisse in einem breiten Spektrum realer klinischer Daten und verschiedener Algorithmen. Sie zeigt, dass die negativen Effekte von Resampling auf die Kalibrierung ein generelles Phänomen und nicht auf spezifische Datensätze beschränkt sind.
Dissociation von Diskriminierung und Kalibrierung: Ein zentrales Ergebnis ist die Entkopplung dieser beiden Metriken. Ein Modell kann durch Resampling eine ähnliche Diskriminierungsfähigkeit behalten, aber seine vorhergesagten Wahrscheinlichkeiten werden unzuverlässig.
Praktische Empfehlung:
- Für klinische Anwendungen, bei denen genaue Risikowahrscheinlichkeiten entscheidend sind (z. B. für Therapieentscheidungen), sollte kein Resampling als Standardverfahren angewendet werden.
- Stattdessen sollte das Modell auf den Originaldaten trainiert werden.
- Um die gewünschte Sensitivität oder Spezifität zu erreichen, sollten stattdessen Nachjustierungen des Entscheidungsschwellenwerts (Threshold Tuning) oder kostensensitive Entscheidungsregeln auf einem kalibrierten Modell verwendet werden.
- Falls Resampling dennoch eingesetzt wird, ist eine zwingende Neukalibrierung auf unabhängigen Validierungsdaten vor dem klinischen Einsatz erforderlich.

5. Signifikanz

Diese Arbeit ist von großer Bedeutung für die Entwicklung und den Einsatz von KI in der Medizin. Sie warnt davor, dass die blinde Anwendung von "Best Practices" aus dem allgemeinen maschinellen Lernen (wie Resampling bei unausgewogenen Daten) in klinischen Kontexten kontraproduktiv sein kann. Da klinische Entscheidungen oft auf absoluten Risikowahrscheinlichkeiten basieren, ist die Integrität dieser Schätzungen (Kalibrierung) oft wichtiger als reine Klassifikationsgenauigkeit. Die Studie liefert starke Evidenz dafür, dass die natürliche Verteilung der Daten in der Trainingsphase erhalten bleiben sollte, um verlässliche probabilistische Modelle zu erhalten.

Tipping the Balance: Impact of Class Imbalance Correction on the Performance of Clinical Risk Prediction Models

🍎 Der Apfel-Test: Warum das "Ausgleichen" von Daten oft schadet

Das Problem: Der faule Computer

Die Lösung, die alle versuchen: Das "Ausgleichen" (Resampling)

Was hat die Studie herausgefunden?

Was bedeutet das für die Praxis?

Titel: Tipping the Balance: Impact of Class Imbalance Correction on the Performance of Clinical Risk Prediction Models

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

4. Schlüsselbeiträge und Schlussfolgerungen

5. Signifikanz

Mehr davon

Time-Varying Environmental and Polygenic Predictors of Substance Use Initiation in Youth: A Survival and Causal Modeling Study in the ABCD Cohort

Predicting Activity Cliffs for Autonomous Medicinal Chemistry

Quantifying the Spatiotemporal Dynamics of Engineered Cardiac Microbundles

Platelet plug microstructure and flow modulate fibrin gelation dynamics: Insights from computational simulations

Analysis of non pharmaceutical interventions with SIR epidemic models: decreasing the infection peak vs. minimizing the epidemic size