Sample Size Calculations for Developing Clinical Prediction Models: Overview and pmsims R package

Dit artikel introduceert een nieuw simulatiegebaseerd raamwerk en de bijbehorende open-source R-pakket pmsims voor het nauwkeurig en flexibel bepalen van de benodigde steekproefgrootte bij de ontwikkeling van klinische voorspellingsmodellen, waarmee overfitting wordt voorkomen en de generaliseerbaarheid wordt gewaarborgd.

Diana Shamsutdinova, Felix Zimmer, Oyebayo Ridwan Olaniran, Sarah Markham, Daniel Stahl, Gordon Forbes, Ewan Carr

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een recept voor een perfecte taart wilt ontwikkelen. Je hebt een lijst met ingrediënten (de patiëntgegevens) en je wilt weten hoeveel proefpersonen je nodig hebt om te testen of je taart echt lekker wordt.

Als je te weinig mensen vraagt om te proeven, kan het zijn dat je per ongeluk een taart maakt die alleen lekker is voor die specifieke groep, maar niet voor de rest van de wereld. Dat noemen we in de medische wereld overfitting: je model werkt perfect op je testgroep, maar faalt in de echte wereld.

Dit wetenschappelijke artikel gaat over een nieuw gereedschap (een softwarepakket genaamd pmsims) dat onderzoekers helpt om precies te berekenen: "Hoeveel mensen heb ik minimaal nodig om een voorspellend model te bouwen dat betrouwbaar is?"

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: "Te weinig proefpersonen"

Vroeger dachten onderzoekers: "Als ik 10 ingrediënten heb, heb ik gewoon 100 proefpersonen nodig." (Dit heet de '10-events-per-variable' regel).
Maar dat is als zeggen: "Als ik een auto wil bouwen, heb ik 10 bouten nodig." Dat klopt niet altijd. Soms heb je 1000 bouten nodig, soms 10. Het hangt af van hoe complex de auto is en hoe goed de bouten passen.

Als je te weinig data gebruikt, is je voorspellend model als een voorspelling van het weer op basis van één dag. Het kan goed gaan, maar het is puur geluk. Je wilt zekerheid.

2. De Twee Manieren om te Kijken: "Gemiddelde" vs. "Garantie"

Het artikel introduceert een belangrijk onderscheid in hoe we naar dit probleem kijken:

  • De "Gemiddelde" Manier (Mean-based):
    Stel je voor dat je 100 keer een taart bakt met een bepaald aantal proefpersonen. De gemiddelde smaak van al die taarten is goed. Maar misschien zijn er 20 taarten die vreselijk proeven en 80 die perfect zijn.

    • Risico: Je bouwt je model op basis van het gemiddelde, maar in de praktijk heb je misschien pech en zit je in die 20 slechte taarten.
  • De "Garantie" Manier (Assurance-based):
    Dit is wat het nieuwe pakket pmsims doet. Het zegt: "Ik wil niet alleen dat de gemiddelde taart lekker is. Ik wil garanderen dat minimaal 80% van de taarten die ik bak, absoluut perfect smaken."

    • Voordeel: Je bent bereid om iets meer proefpersonen te gebruiken (meer data), maar je krijgt een veel betrouwbaarder resultaat. Je koopt een verzekering tegen pech.

3. De Oplossing: pmsims (De Slimme Chef)

Het artikel introduceert pmsims, een computerprogramma dat als een slimme, virtuele chef-kok werkt. In plaats van duizenden echte mensen te vragen om een taart te proeven (wat duur en langzaam is), doet het volgende:

  1. Het creëert een virtuele wereld: Het programmeert een computer om duizenden "virtuele patiënten" te genereren die lijken op de echte wereld.
  2. Het oefent met verschillende hoeveelheden: Het bouwt modellen met 100 mensen, dan 500, dan 1000, enzovoort.
  3. Het tekent een leercurve: Het kijkt naar een grafiek die laat zien hoe de smaak van de taart verbetert naarmate je meer proefpersonen toevoegt.
  4. Het gebruikt een "Gaussisch Proces" (De Magische Voorspeller): Dit is een slimme wiskundige techniek die de grafiek "invult" tussen de punten. Het is alsof je een paar proefprijzen doet en de computer de rest van de lijn slim schat, zodat je niet elke stap hoeft te testen. Dit bespaart enorm veel tijd en rekenkracht.

4. Waarom is dit belangrijk?

Veel bestaande methoden zijn als een oude landkaart: ze werken goed op vlakke wegen (simpele modellen), maar raken je kwijt in het ruige terrein van moderne kunstmatige intelligentie (AI) en complexe medische data.

  • Flexibiliteit: pmsims werkt voor elke soort "recept" (model), of het nu een simpele formule is of een ingewikkeld AI-systeem.
  • Realisme: Het houdt rekening met het feit dat data soms rommelig is (missende gegevens, rare patronen).
  • Veiligheid: Door te focussen op de "garantie" (assurance) in plaats van alleen het gemiddelde, voorkomen we dat artsen zich gaan verlaten op modellen die in de praktijk falen.

Conclusie: De Gouden Standaard

Dit artikel zegt eigenlijk: "Stop met gokken hoeveel mensen je nodig hebt."

Met pmsims kunnen onderzoekers nu zeggen: "Om een voorspellend model te bouwen dat in 80% van de gevallen betrouwbaar is, hebben we precies 3.510 patiënten nodig."

Het is alsof je van een gokker verandert in een ingenieur. Je bouwt niet meer op hoop en zegen, maar op een stevige fundering van data, zodat de voorspellingen die artsen gebruiken om levens te redden, echt werken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →