Sample Size Calculations for Developing Clinical Prediction Models: Overview and pmsims R package

Diese Arbeit stellt einen neuen, simulationsbasierten Ansatz zur Berechnung der erforderlichen Stichprobengröße für klinische Vorhersagemodelle vor, der durch das flexible und modellunabhängige R-Paket „pmsims" implementiert wird, um Überanpassung zu vermeiden und eine hohe Vorhersagegenauigkeit mit großer Wahrscheinlichkeit zu gewährleisten.

Diana Shamsutdinova, Felix Zimmer, Oyebayo Ridwan Olaniran, Sarah Markham, Daniel Stahl, Gordon Forbes, Ewan Carr

Veröffentlicht 2026-03-02
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie wollen einen Wettervorhersage-App entwickeln, die genau sagen kann, ob morgen Regen fällt. Damit diese App nicht nur Glückstreffer liefert, sondern wirklich verlässlich ist, müssen Sie sie mit vielen Daten füttern. Aber wie viele Daten sind „genug"?

Genau dieses Problem behandelt die vorliegende wissenschaftliche Arbeit. Die Forscher haben ein neues Werkzeug entwickelt, um genau zu berechnen, wie viele Patienten-Daten man braucht, um eine medizinische Vorhersage-App (ein sogenanntes „klinisches Vorhersagemodell") zu bauen, die sicher funktioniert.

Hier ist die Erklärung in einfachen Worten, mit ein paar anschaulichen Vergleichen:

1. Das Problem: Zu wenig Daten = Ein wackeliges Haus

Stellen Sie sich vor, Sie bauen ein Haus. Wenn Sie nur ein paar Ziegelsteine haben, können Sie vielleicht eine kleine Hütte bauen, aber sie wird nicht stabil sein. Wenn Sie zu wenig Daten haben, um ein medizinisches Modell zu trainieren, passiert dasselbe: Das Modell lernt die Trainingsdaten auswendig (wie ein Schüler, der nur die Lösungen auswendig gelernt hat), aber wenn es auf neue Patienten trifft, versagt es. Das nennt man „Überanpassung" (Overfitting).

Bisher gab es nur grobe Daumenregeln. Zum Beispiel: „Nimm 10 Patienten pro Frage, die du stellst." Das ist wie zu sagen: „Für ein Haus brauchst du 10 Steine pro Wand." Das hilft vielleicht beim Bauen einer Hütte, aber für ein Hochhaus reicht das nicht. Es ist zu ungenau, besonders wenn die Daten komplex sind (wie bei modernen KI-Modellen).

2. Die zwei Arten, „Genug" zu definieren

Die Forscher unterscheiden zwischen zwei Denkweisen, wie man feststellt, ob die Datenmenge reicht:

  • Die Durchschnitts-Methode (Mean-based):
    • Vergleich: Sie werfen 100 Mal einen Würfel und schauen sich den Durchschnitt der Ergebnisse an. Wenn der Durchschnitt gut ist, sagen Sie: „Alles klar, das System funktioniert."
    • Problem: Es kann sein, dass bei 50 Würfen das Ergebnis super war, aber bei den anderen 50 katastrophal. Der Durchschnitt sieht gut aus, aber das Risiko ist hoch.
  • Die Garantie-Methode (Assurance-based) – Der neue Ansatz:
    • Vergleich: Sie wollen nicht nur einen guten Durchschnitt. Sie wollen sicher sein, dass in 80 % aller Fälle das Ergebnis gut ist. Sie wollen eine Garantie.
    • Warum wichtig? In der Medizin wollen wir nicht „im Durchschnitt" gute Vorhersagen. Wir wollen sicherstellen, dass das Modell fast immer funktioniert, auch wenn die Patientengruppe mal etwas anders aussieht als erwartet.

3. Die Lösung: Das neue Werkzeug „pmsims"

Die Autoren haben eine neue Software namens pmsims entwickelt. Man kann sich das wie einen hochmodernen Flugsimulator vorstellen.

  • Wie es funktioniert:
    Statt echte Patienten zu sammeln (was teuer und langsam ist), baut die Software eine virtuelle Welt nach. Sie simuliert Millionen von Szenarien: „Was passiert, wenn wir 100 Patienten haben? Was bei 1.000? Was bei 10.000?"
  • Der Trick (Lernkurven & Gaußsche Prozesse):
    Statt jede einzelne Zahl durchzurechnen (was ewig dauern würde), nutzt das Programm eine Art „intelligente Schätzung". Es zeichnet eine Lernkurve (wie ein Berg, der steiler wird, je mehr Daten man hat) und nutzt mathematische Tricks, um genau den Punkt zu finden, an dem die Kurve flach wird und das Modell stabil ist.
    • Metapher: Stellen Sie sich vor, Sie wollen wissen, wie viel Wasser Sie in einen Eimer kippen müssen, damit er voll ist. Statt den Eimer immer wieder zu füllen und zu leeren, nutzt das Programm einen Sensor, der die Form des Eimers kennt und berechnet: „Ab genau 4,5 Litern ist er zu 80 % sicher voll."

4. Was haben die Forscher herausgefunden?

Sie haben drei verschiedene Szenarien getestet (wie bei drei verschiedenen Wetter-Apps). Das Ergebnis war überraschend:

  • Die alten Methoden (die Daumenregeln) sagten oft: „Du brauchst 500 Patienten."
  • Die neuen, strengen Methoden (mit Garantie) sagten oft: „Nein, du brauchst eher 4.000 oder sogar 10.000 Patienten!"
  • Besonders für komplexe KI-Modelle (wie neuronale Netze) braucht man viel mehr Daten als für einfache statistische Modelle.

Das zeigt: Viele medizinische Studien, die heute gemacht werden, basieren auf zu wenig Daten. Die Modelle funktionieren vielleicht im Labor, versagen aber in der echten Welt.

5. Warum ist das wichtig für uns?

Wenn ein Arzt eine KI nutzt, um zu entscheiden, ob ein Patient ein hohes Herzinfarktrisiko hat, muss diese KI zuverlässig sein.

  • Wenn die Datenmenge zu klein war, ist die KI wie ein Schüler, der nur die Prüfungsfragen auswendig gelernt hat. In der echten Prüfung (am Patienten) macht er Fehler.
  • Mit dem neuen Werkzeug pmsims können Forscher vorher genau berechnen, wie viele Patienten sie brauchen, um eine KI zu bauen, die zuverlässig und fair ist.

Zusammenfassung in einem Satz

Die Forscher haben einen neuen, cleveren „Rechner" entwickelt, der wie ein Flugsimulator funktioniert, um sicherzustellen, dass medizinische KI-Modelle nicht auf wackeligen Daten basieren, sondern auf einer soliden Grundlage, die garantiert funktioniert – und zwar nicht nur im Durchschnitt, sondern in den meisten Fällen.

Das Ziel: Weniger Fehlvorhersagen, mehr Vertrauen in die digitale Medizin und sicherere Entscheidungen für Patienten.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →