Sample Size Calculations for Developing Clinical Prediction Models: Overview and pmsims R package

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie wollen einen Wettervorhersage-App entwickeln, die genau sagen kann, ob morgen Regen fällt. Damit diese App nicht nur Glückstreffer liefert, sondern wirklich verlässlich ist, müssen Sie sie mit vielen Daten füttern. Aber wie viele Daten sind „genug"?

Genau dieses Problem behandelt die vorliegende wissenschaftliche Arbeit. Die Forscher haben ein neues Werkzeug entwickelt, um genau zu berechnen, wie viele Patienten-Daten man braucht, um eine medizinische Vorhersage-App (ein sogenanntes „klinisches Vorhersagemodell") zu bauen, die sicher funktioniert.

Hier ist die Erklärung in einfachen Worten, mit ein paar anschaulichen Vergleichen:

1. Das Problem: Zu wenig Daten = Ein wackeliges Haus

Stellen Sie sich vor, Sie bauen ein Haus. Wenn Sie nur ein paar Ziegelsteine haben, können Sie vielleicht eine kleine Hütte bauen, aber sie wird nicht stabil sein. Wenn Sie zu wenig Daten haben, um ein medizinisches Modell zu trainieren, passiert dasselbe: Das Modell lernt die Trainingsdaten auswendig (wie ein Schüler, der nur die Lösungen auswendig gelernt hat), aber wenn es auf neue Patienten trifft, versagt es. Das nennt man „Überanpassung" (Overfitting).

Bisher gab es nur grobe Daumenregeln. Zum Beispiel: „Nimm 10 Patienten pro Frage, die du stellst." Das ist wie zu sagen: „Für ein Haus brauchst du 10 Steine pro Wand." Das hilft vielleicht beim Bauen einer Hütte, aber für ein Hochhaus reicht das nicht. Es ist zu ungenau, besonders wenn die Daten komplex sind (wie bei modernen KI-Modellen).

2. Die zwei Arten, „Genug" zu definieren

Die Forscher unterscheiden zwischen zwei Denkweisen, wie man feststellt, ob die Datenmenge reicht:

Die Durchschnitts-Methode (Mean-based):
- Vergleich: Sie werfen 100 Mal einen Würfel und schauen sich den Durchschnitt der Ergebnisse an. Wenn der Durchschnitt gut ist, sagen Sie: „Alles klar, das System funktioniert."
- Problem: Es kann sein, dass bei 50 Würfen das Ergebnis super war, aber bei den anderen 50 katastrophal. Der Durchschnitt sieht gut aus, aber das Risiko ist hoch.
Die Garantie-Methode (Assurance-based) – Der neue Ansatz:
- Vergleich: Sie wollen nicht nur einen guten Durchschnitt. Sie wollen sicher sein, dass in 80 % aller Fälle das Ergebnis gut ist. Sie wollen eine Garantie.
- Warum wichtig? In der Medizin wollen wir nicht „im Durchschnitt" gute Vorhersagen. Wir wollen sicherstellen, dass das Modell fast immer funktioniert, auch wenn die Patientengruppe mal etwas anders aussieht als erwartet.

3. Die Lösung: Das neue Werkzeug „pmsims"

Die Autoren haben eine neue Software namens pmsims entwickelt. Man kann sich das wie einen hochmodernen Flugsimulator vorstellen.

Wie es funktioniert:
Statt echte Patienten zu sammeln (was teuer und langsam ist), baut die Software eine virtuelle Welt nach. Sie simuliert Millionen von Szenarien: „Was passiert, wenn wir 100 Patienten haben? Was bei 1.000? Was bei 10.000?"
Der Trick (Lernkurven & Gaußsche Prozesse):
Statt jede einzelne Zahl durchzurechnen (was ewig dauern würde), nutzt das Programm eine Art „intelligente Schätzung". Es zeichnet eine Lernkurve (wie ein Berg, der steiler wird, je mehr Daten man hat) und nutzt mathematische Tricks, um genau den Punkt zu finden, an dem die Kurve flach wird und das Modell stabil ist.
- Metapher: Stellen Sie sich vor, Sie wollen wissen, wie viel Wasser Sie in einen Eimer kippen müssen, damit er voll ist. Statt den Eimer immer wieder zu füllen und zu leeren, nutzt das Programm einen Sensor, der die Form des Eimers kennt und berechnet: „Ab genau 4,5 Litern ist er zu 80 % sicher voll."

4. Was haben die Forscher herausgefunden?

Sie haben drei verschiedene Szenarien getestet (wie bei drei verschiedenen Wetter-Apps). Das Ergebnis war überraschend:

Die alten Methoden (die Daumenregeln) sagten oft: „Du brauchst 500 Patienten."
Die neuen, strengen Methoden (mit Garantie) sagten oft: „Nein, du brauchst eher 4.000 oder sogar 10.000 Patienten!"
Besonders für komplexe KI-Modelle (wie neuronale Netze) braucht man viel mehr Daten als für einfache statistische Modelle.

Das zeigt: Viele medizinische Studien, die heute gemacht werden, basieren auf zu wenig Daten. Die Modelle funktionieren vielleicht im Labor, versagen aber in der echten Welt.

5. Warum ist das wichtig für uns?

Wenn ein Arzt eine KI nutzt, um zu entscheiden, ob ein Patient ein hohes Herzinfarktrisiko hat, muss diese KI zuverlässig sein.

Wenn die Datenmenge zu klein war, ist die KI wie ein Schüler, der nur die Prüfungsfragen auswendig gelernt hat. In der echten Prüfung (am Patienten) macht er Fehler.
Mit dem neuen Werkzeug pmsims können Forscher vorher genau berechnen, wie viele Patienten sie brauchen, um eine KI zu bauen, die zuverlässig und fair ist.

Zusammenfassung in einem Satz

Die Forscher haben einen neuen, cleveren „Rechner" entwickelt, der wie ein Flugsimulator funktioniert, um sicherzustellen, dass medizinische KI-Modelle nicht auf wackeligen Daten basieren, sondern auf einer soliden Grundlage, die garantiert funktioniert – und zwar nicht nur im Durchschnitt, sondern in den meisten Fällen.

Das Ziel: Weniger Fehlvorhersagen, mehr Vertrauen in die digitale Medizin und sicherere Entscheidungen für Patienten.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Entwicklung klinischer Vorhersagemodelle (sowohl statistisch als auch auf maschinellem Lernen basierend) ist für die medizinische Entscheidungsfindung von zentraler Bedeutung. Ein kritisches, aber oft ungelöstes Problem ist die Bestimmung der mindestnotwendigen Stichprobengröße für die Entwicklung dieser Modelle.

Folgen unzureichender Stichprobengrößen: Dies führt zu Überanpassung (Overfitting), schlechter Generalisierbarkeit und verzerrten Vorhersagen.
Herausforderungen: Bestehende Methoden variieren stark in ihrer Flexibilität und Genauigkeit.
- Heuristiken (z. B. „10 Events pro Variable") sind zu vereinfachend und ignorieren Komplexitäten wie Korrelationen oder Nichtlinearitäten.
- Analytische Formeln (z. B. Riley et al.) sind schnell, basieren jedoch auf strengen Verteilungsannahmen und sind für komplexe Datenstrukturen oder ML-Modelle oft nicht anwendbar.
- Simulationsbasierte Ansätze bieten Flexibilität, sind jedoch rechenintensiv und oft schwer zu implementieren.
Lücke: Es fehlt an benutzerfreundlichen, modellagnostischen Tools, die die Unsicherheit der Modellleistung explizit berücksichtigen und nicht nur den Durchschnitt, sondern eine hohe Wahrscheinlichkeit für das Erreichen von Zielmetriken garantieren.

2. Methodischer Ansatz und Theoretischer Rahmen

Das Paper stellt einen neuen konzeptionellen Rahmen vor, der zwischen zwei Kriterien zur Stichprobengrößenbestimmung unterscheidet:

Mittelwert-basiertes Kriterium (Mean-based): Findet die kleinste Stichprobengröße $n$ , sodass die erwartete Leistung über einem Zielwert liegt. Dies ignoriert die Varianz zwischen verschiedenen Trainingsdatensätzen.
Versicherungsbasiertes Kriterium (Assurance-based): Findet die kleinste $n$ , sodass die Leistung mit einer hohen Wahrscheinlichkeit (z. B. 80 %) über dem Zielwert liegt. Dies berücksichtigt explizit die Variabilität der Modellleistung bei unterschiedlichen Trainingsdaten (Modellinstabilität).

Die neue Lösung: pmsims
Die Autoren stellen pmsims vor, ein Open-Source-R-Paket, das einen simulationsbasierten, modellagnostischen Ansatz verfolgt. Der Workflow umfasst vier Schritte:

Definition des Szenarios: Der Nutzer definiert den Daten-Generator (Verteilung der Prädiktoren, Outcome-Typ), das zu trainierende Modell (Regression, ML-Algorithmen) und die Leistungsmetriken (z. B. AUC, Kalibrierungsslope).
Tuning des Generators: Anpassung des Daten-Generators, um reale Datenmerkmale und eine gewünschte „Large-Sample"-Leistung ( $M_{ideal}$ ) zu simulieren.
Schätzung der Lernkurve: Es werden synthetische Datensätze verschiedener Größen $n$ $n$ generiert. Das Modell wird trainiert und auf einem unabhängigen Testset validiert.
- Innovation: Anstatt jede mögliche Stichprobengröße exhaustiv zu simulieren, nutzt pmsims Gaussian Process (GP) Surrogate-Modelle, um die Lernkurve ( $M$ in Abhängigkeit von $n$ ) effizient zu approximieren. Dies reduziert den Rechenaufwand erheblich.
Bestimmung der Mindeststichprobengröße: Das Ziel ist die kleinste $n$ , bei der das 20. Perzentil der Leistungsverteilung (entsprechend 80 % Assurance) den Zielwert $M^*$ überschreitet.

3. Schlüsselbeiträge

Konzeptioneller Rahmen: Klare Unterscheidung und theoretische Fundierung von „Mean" vs. „Assurance" Kriterien in der Vorhersagemodellierung.
Software-Entwicklung (pmsims): Bereitstellung eines flexiblen, modellagnostischen R-Pakets, das:
- Mit klassischen Modellen (Logistische Regression, Cox) und ML-Modellen (Random Forest, SVM, NN) funktioniert.
- Benutzerdefinierte Daten-Generatoren und Leistungsmetriken unterstützt.
- Die Effizienz von Simulationen durch GP-Optimierung und Lernkurven-Extrapolation steigert.
Vergleichende Analyse: Eine umfassende Übersicht bestehender Methoden (Heuristiken, analytische Formeln, andere Simulationswerkzeuge wie pmsampsize, samplesizedev, Silvey & Liu) und deren Grenzen.

4. Ergebnisse

In drei Fallstudien (basierend auf realen Datensätzen mit unterschiedlicher Prävalenz und Prädiktoranzahl) wurden die Schätzungen von pmsims mit anderen etablierten Methoden verglichen:

Hohe Variabilität: Die geschätzten Mindeststichprobengrößen variierten je nach Methode, Modelltyp und Zielmetrik erheblich (z. B. von 200 bis über 20.000 Probanden).
ML vs. Klassische Modelle: ML-Modelle benötigten im Durchschnitt 5- bis 10-mal größere Entwicklungssätze als logistische Regressionen.
Vergleichbarkeit: Die Schätzungen von pmsims lagen im mittleren Bereich der Gesamtschätzungen und waren mit denen von samplesizedev vergleichbar, boten jedoch mehr Flexibilität bei der Definition von Metriken und Modellen.
Misspezifikation: Bei Misspezifikation des Modells (z. B. falscher Daten-Generator) stiegen die erforderlichen Stichprobengrößen drastisch an, was die Notwendigkeit realistischer Simulationsannahmen unterstreicht.

5. Bedeutung und Ausblick

Praktische Relevanz: pmsims adressiert die Lücke zwischen theoretischer Methodik und praktischer Anwendbarkeit, indem es Forschern ermöglicht, Stichprobengrößen für komplexe, moderne ML-Modelle unter Berücksichtigung von Unsicherheit zu planen.
Zukünftige Herausforderungen: Das Paper identifiziert offene Fragen für die weitere Forschung:
- Integration von hierarchischen, longitudinalen und multimodalen Daten (z. B. Wearables, Genomik).
- Berücksichtigung von fehlenden Daten (Missing Data) in den Stichprobengrößenberechnungen.
- Einbeziehung von Fairness-Metriken und Stabilitätsanforderungen für Untergruppen, um gesundheitliche Ungleichheiten zu vermeiden.
Fazit: Der vorgestellte Rahmen und das Tool pmsims stellen einen wichtigen Schritt hin zu robusteren, zuverlässigeren und faireren klinischen Vorhersagemodellen dar, indem sie die Planung von Studien auf eine fundierte, simulationsgestützte Basis stellen.

Sample Size Calculations for Developing Clinical Prediction Models: Overview and pmsims R package

1. Das Problem: Zu wenig Daten = Ein wackeliges Haus

2. Die zwei Arten, „Genug" zu definieren

3. Die Lösung: Das neue Werkzeug „pmsims"

4. Was haben die Forscher herausgefunden?

5. Warum ist das wichtig für uns?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodischer Ansatz und Theoretischer Rahmen

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

NS-RGS: Newton-Schulz based Riemannian gradient method for orthogonal group synchronization

Poisson-response Tensor-on-Tensor Regression and Applications

Virtual Dummies: Enabling Scalable FDR-Controlled Variable Selection via Sequential Sampling of Null Features

Eliciting core spatial association from spatial time series: a random matrix approach

Regularized estimation for highly multivariate spatial Gaussian random fields