Diagnostics for Individual-Level Prediction Instability in Machine Learning for Healthcare

Each language version is independently generated for its own context, not a direct translation.

Titel: Warum zwei identische Ärzte unterschiedliche Diagnosen stellen könnten – Ein Blick auf die Unsicherheit von KI in der Medizin

Stellen Sie sich vor, Sie gehen zu einem sehr erfahrenen Arzt, um eine Diagnose zu erhalten. Dieser Arzt hat einen riesigen Stapel medizinischer Daten studiert. Aber statt nur einmal hinzuschauen, lässt er den Computer das Ganze 100-mal durchrechnen. Jedes Mal startet der Computer mit einem winzigen, zufälligen „Zufallsschritt" (wie das Werfen einer Münze vor dem Start).

Das Erstaunliche an der Studie von Elizabeth Miller und Jeffrey Blume ist Folgendes: Obwohl alle 100 Berechnungen im Durchschnitt fast perfekt funktionieren, geben sie für diesen einen Patienten manchmal völlig unterschiedliche Ratschläge.

Hier ist die einfache Erklärung der wichtigsten Punkte, gemischt mit ein paar anschaulichen Bildern:

1. Das Problem: Der „Zufalls-Ärger"

In der modernen KI (Maschinelles Lernen) nutzen wir oft sehr komplexe Modelle, die wie riesige, flexible Netze sind (sogenannte neuronale Netze). Diese Netze sind so mächtig, dass sie fast jede Aufgabe lösen können.

Die Analogie: Stellen Sie sich vor, Sie müssen einen Berg besteigen, um den tiefsten Punkt im Tal zu finden (das ist die beste Lösung für die KI).
- Bei einfachen Modellen (wie der klassischen Logistischen Regression) gibt es nur einen klaren Weg ins Tal. Egal, wann Sie starten, Sie landen immer am selben Ort.
- Bei den komplexen neuronalen Netzen gibt es tausende von Tälern, die alle fast gleich tief sind. Wenn Sie den Berg heute mit einem anderen Zufallsschritt besteigen, landen Sie vielleicht in einem anderen Tal, das fast genauso tief ist wie das erste.

Das Ergebnis: Für die KI ist das Ergebnis „gut" (im Durchschnitt). Aber für den einzelnen Patienten bedeutet das: Je nachdem, welche „Zufallsroute" der Computer heute gewählt hat, bekommt der Patient eine andere Risikobewertung. Das ist wie bei einem Wetterbericht, der manchmal „Sonnig" und manchmal „Regen" sagt, obwohl beide Vorhersagen im Durchschnitt recht haben.

2. Warum das in der Medizin gefährlich ist

In der Wissenschaft schaut man oft auf den Durchschnitt. Wenn 100 Ärzte im Schnitt 90 % der Patienten richtig diagnostizieren, gilt das System als erfolgreich.

Aber in der Medizin geht es um Individuen.

Die Analogie: Stellen Sie sich einen Schwellenwert vor. Wenn das Risiko über 50 % liegt, wird eine lebensrettende Operation durchgeführt. Liegt es darunter, nicht.
Wenn die KI bei einem Patienten aufgrund eines zufälligen Startpunkts heute ein Risiko von 49 % berechnet (keine OP) und morgen 51 % (OP), dann hängt das Leben des Patienten von einem Zufall ab, nicht von seiner echten Krankheit. Das nennt die Studie „Prozedurale Willkür".

3. Die neuen Werkzeuge: Das „Zittern" messen

Die Autoren schlagen vor, dass wir nicht mehr nur auf den Durchschnitt schauen, sondern zwei neue Messgrößen einführen:

ePIW (Die „Wackel-Breite"): Wie stark schwankt die Risikozahl für einen Patienten, wenn wir das Modell 100-mal neu berechnen?
- Bild: Wenn die Zahl immer zwischen 48 % und 52 % hin und her springt, ist das Modell unsicher. Wenn sie immer bei 50 % bleibt, ist es stabil.
eDFR (Die „Entscheidungs-Kipp-Rate"): Wie oft ändert sich die Ja/Nein-Entscheidung (z. B. „Operation ja/nein") durch den Zufall?
- Bild: Wenn der Computer bei 20 von 100 Läufen sagt „OP" und bei 80 „Nein", dann ist das System unzuverlässig.

4. Was sie herausfanden

Komplexität ist nicht immer besser: Die super-flexiblen neuronalen Netze (die „Könige" der KI) waren oft viel unruhiger und wackeliger als die einfacheren, klassischen Modelle (Logistische Regression).
Der Zufall ist mächtig: Der Zufall beim Starten des Computers (Initialisierung) kann genauso große Schwankungen verursachen wie das Ziehen einer völlig neuen Gruppe von Patienten-Daten.
Die Gefahr der Nähe: Besonders bei Patienten, deren Risiko genau an der Grenze liegt (z. B. knapp über oder unter dem OP-Schwellenwert), ist die Unsicherheit am größten.

5. Die Lehre für die Zukunft

Die Botschaft der Studie ist klar: Wenn zwei Modelle im Durchschnitt gleich gut sind, sollten wir das stabilere Modell wählen.

Die Analogie: Wenn Sie zwei Autos kaufen wollen, die beide im Durchschnitt 100 km/h fahren, aber Auto A bei jeder kleinen Bodenunebenheit wild hin und her zuckt, während Auto B ruhig geradeaus fährt – welches würden Sie fahren?
In der Medizin sollten wir das „ruhige Auto" (einfachere, stabilere Modelle) bevorzugen, auch wenn das „wackelige Auto" (komplexe KI) theoretisch etwas mehr Leistung verspricht. Denn wenn es um das Leben eines Patienten geht, zählt Verlässlichkeit mehr als maximale Komplexität.

Zusammenfassend:
Die Studie warnt davor, blind auf die „Durchschnitts-Superkräfte" der KI zu vertrauen. Bevor ein KI-System in der Klinik eingesetzt wird, müssen wir prüfen: „Wie sehr wackelt die Diagnose, wenn wir den Computer nur einmal neu starten?" Wenn die Antwort „viel" lautet, ist das System für den einzelnen Patienten zu riskant, egal wie gut es im Test aussieht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Der Einsatz von Machine-Learning (ML)-Modellen im Gesundheitswesen nimmt zu, doch die Zuverlässigkeit von Vorhersagen auf individueller Ebene wird oft vernachlässigt. Obwohl Modelle in der Gesamtheit (aggregiert) hohe Leistungswerte (z. B. AUC-ROC, Log-Loss) erzielen können, weisen sie bei überparametrisierten Modellen (wo die Anzahl der Parameter $p$ die Stichprobengröße $n$ übersteigt) eine erhebliche Instabilität auf individueller Ebene auf.

Das Kernproblem besteht darin, dass selbst bei fixierten Daten und Modellarchitekturen die stochastischen Elemente des Trainingsprozesses (wie Initialisierung der Gewichte und Optimierungspfade) zu materiell unterschiedlichen Risikoschätzungen für denselben Patienten führen können. Standard-Evaluationsmetriken, die auf aggregierten Durchschnitten basieren, maskieren diese Variabilität. Dies führt zu einer „Prozeduralen Willkür": Die klinische Entscheidung (z. B. Behandlung oder Überwachung) hängt nicht nur von den Patientendaten ab, sondern zufällig vom Zufallssamen (Random Seed) des Trainings. Dies untergräbt das Vertrauen der Kliniker und die Konsistenz der Entscheidungsfindung.

2. Methodik und Evaluierungsrahmen

Die Autoren schlagen einen neuen Evaluierungsrahmen vor, der die Stabilität über wiederholte Instanziierungen desselben Lernpipelines quantifiziert.

A. Experimentelles Design

Daten: Es wurden sowohl simulierte Daten (bekannter Daten-generierender Prozess) als auch reale klinische Daten (GUSTO-I-Datensatz zur 30-Tage-Mortalität nach Herzinfarkt) verwendet.
Vergleichsgruppen: Zwei Trainingsvariablen wurden isoliert untersucht:
1. Datenvariabilität: Durch Resampling (Subsampling) der Trainingsdaten.
2. Optimierungsvariabilität: Bei fixierten Trainingsdaten durch Variation der Random Seeds (Initialisierung und Mini-Batch-Reihenfolge).
Modellklassen: Es wurden Modelle unterschiedlicher Expressivität verglichen:
- Logistische Regression (stark eingeschränkt, konvex).
- Feedforward-Neuronale Netze (flexibel, überparametrisiert, nicht-konvex).
Wiederholungen: Jedes Modell wurde $B=100$ Mal neu trainiert, um die Verteilung der Vorhersagen für jeden Testpatienten zu erfassen.

B. Neue Diagnosemetriken

Um die Instabilität zu quantifizieren, wurden zwei komplementäre Metriken eingeführt:

Empirische Intervallbreite der Vorhersage (ePIW - Empirical Prediction Interval Width):
- Misst die Streuung der kontinuierlichen Risikoschätzungen für einen einzelnen Patienten über die $B$ Wiederholungen.
- Definiert als die Differenz zwischen dem $(1-\alpha/2)$ - und dem $(\alpha/2)$ -Quantil der Vorhersageverteilung (z. B. 95%-Intervall).
- Ein hoher ePIW-Wert deutet auf eine große Unsicherheit in der Risikoschätzung hin, selbst wenn das Modell aggregiert gut performt.
Empirische Flip-Rate der Entscheidung (eDFR - Empirical Decision Flip Rate):
- Misst die Häufigkeit, mit der sich die binäre klinische Entscheidung ändert, wenn das Modell neu trainiert wird.
- Berechnet als der Anteil aller Paare von Modell-Instanzen, die bei einem festen Schwellenwert $\tau$ zu unterschiedlichen Klassifikationen (z. B. Behandlung ja/nein) kommen.
- Ein hoher eDFR-Wert bedeutet, dass die Behandlungsempfehlung für denselben Patienten zufällig variiert.

3. Wichtige Ergebnisse

A. Simulationsstudie

Aggregierte Leistung: Alle Modelle (Logistische Regression vs. Neuronale Netze) zeigten nahezu identische aggregierte Leistungsmetriken (BCE, Accuracy).
Individuelle Instabilität: Neuronale Netze (NN) wiesen eine deutlich höhere individuelle Instabilität auf als logistische Regressionen.
Einfluss der Optimierung: Bei fixierten Trainingsdaten führte allein die Variation des Random Seeds (Optimierungsstochastik) bei hochkapazitiven NNs zu einer Instabilität, die in der Größenordnung der Instabilität durch Resampling der gesamten Trainingsdaten lag.
Schwellenwert-Effekt: Die Instabilität konzentrierte sich auf Patienten mit mittlerem Risiko, insbesondere in der Nähe des klinischen Entscheidungsschwellenwerts ( $\tau \approx 0.53$ ).

B. Klinische Anwendung (GUSTO-I)

Diskrepanz zwischen Aggregat und Individuum: Auch hier zeigten NNs und logistische Regressionen ähnliche AUC-Werte, aber NNs hatten eine viel größere Streuung in den Risikoschätzungen.
Lokalisierung der Unsicherheit: Im Gegensatz zur Simulation, wo die Instabilität am Schwellenwert lag, trat bei den klinischen Daten (niedriger Schwellenwert $\tau \approx 0.07$ ) eine signifikante Streuung (ePIW) auch im oberen Tail der Risikoverteilung auf.
Implikation: Selbst wenn sich die binäre Entscheidung (eDFR) nicht ändert (weil der Schwellenwert weit entfernt ist), kann die hohe Varianz in der Risikoschätzung das Vertrauen des Arztes in die Präzision des Modells untergraben.

4. Hauptbeiträge

Nachweis der Diskrepanz: Die Arbeit zeigt, dass ein Modell stabile aggregierte Out-of-Sample-Leistung haben kann, aber gleichzeitig instabile individuelle Vorhersagen liefert.
Operationalisierung der Instabilität: Einführung des Rahmens mit ePIW und eDFR, der algorithmische Zufälligkeit als eine eigenständige Quelle von Vorhersageunsicherheit behandelt.
Verteilung der Instabilität: Die Analyse zeigt, dass Instabilität nicht nur an Entscheidungsgrenzen auftritt, sondern auch in Bereichen, die keine „Flip" der Entscheidung auslösen, was dennoch das Vertrauen in die Modellpräzision mindert.
Auswahlkriterium für die Praxis: Ein neues Kriterium für die Modellauswahl im Gesundheitswesen: Bei vergleichbarer Vorhersagegenauigkeit sollten eingeschränktere Modellklassen (wie logistische Regression) bevorzugt werden, da sie eine höhere individuelle Zuverlässigkeit bieten.

5. Bedeutung und Schlussfolgerung

Die Studie stellt die gängige Praxis in Frage, ML-Modelle im Gesundheitswesen allein auf Basis aggregierter Metriken zu validieren. Sie zeigt, dass für überparametrisierte Modelle die „Prozedurale Willkür" (Randomness durch Initialisierung/Optimierung) eine signifikante Quelle von Unsicherheit ist, die klinisch relevant sein kann.

Für die Praxis: Die Autoren empfehlen, Stabilitätsdiagnosen (ePIW/eDFR) in den Standard-Validierungsworkflow zu integrieren.
Neue Interpretation von Occams Rasiermesser: Wenn zwei Modelle gleich gut performen, sollte das einfachere, eingeschränktere Modell gewählt werden, da es robustere und vertrauenswürdigere individuelle Vorhersagen liefert.
Vertrauen: Die Skepsis von Klinikern gegenüber KI ist oft gerechtfertigt, da Modelle, die bei wiederholtem Training unterschiedliche Empfehlungen für denselben Patienten geben, nicht als zuverlässige Werkzeuge für lebenswichtige Entscheidungen eingesetzt werden sollten.

Zusammenfassend fordert das Paper einen Paradigmenwechsel weg von der reinen Optimierung aggregierter Genauigkeit hin zur Sicherstellung der individuellen Prozeduralen Konsistenz als primäres Kriterium für den Einsatz von ML in Hochrisiko-Szenarien.