Sample Size Calculations for Developing Clinical Prediction Models: Overview and pmsims R package

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een recept voor een perfecte taart wilt ontwikkelen. Je hebt een lijst met ingrediënten (de patiëntgegevens) en je wilt weten hoeveel proefpersonen je nodig hebt om te testen of je taart echt lekker wordt.

Als je te weinig mensen vraagt om te proeven, kan het zijn dat je per ongeluk een taart maakt die alleen lekker is voor die specifieke groep, maar niet voor de rest van de wereld. Dat noemen we in de medische wereld overfitting: je model werkt perfect op je testgroep, maar faalt in de echte wereld.

Dit wetenschappelijke artikel gaat over een nieuw gereedschap (een softwarepakket genaamd pmsims) dat onderzoekers helpt om precies te berekenen: "Hoeveel mensen heb ik minimaal nodig om een voorspellend model te bouwen dat betrouwbaar is?"

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: "Te weinig proefpersonen"

Vroeger dachten onderzoekers: "Als ik 10 ingrediënten heb, heb ik gewoon 100 proefpersonen nodig." (Dit heet de '10-events-per-variable' regel).
Maar dat is als zeggen: "Als ik een auto wil bouwen, heb ik 10 bouten nodig." Dat klopt niet altijd. Soms heb je 1000 bouten nodig, soms 10. Het hangt af van hoe complex de auto is en hoe goed de bouten passen.

Als je te weinig data gebruikt, is je voorspellend model als een voorspelling van het weer op basis van één dag. Het kan goed gaan, maar het is puur geluk. Je wilt zekerheid.

2. De Twee Manieren om te Kijken: "Gemiddelde" vs. "Garantie"

Het artikel introduceert een belangrijk onderscheid in hoe we naar dit probleem kijken:

De "Gemiddelde" Manier (Mean-based):
Stel je voor dat je 100 keer een taart bakt met een bepaald aantal proefpersonen. De gemiddelde smaak van al die taarten is goed. Maar misschien zijn er 20 taarten die vreselijk proeven en 80 die perfect zijn.
- Risico: Je bouwt je model op basis van het gemiddelde, maar in de praktijk heb je misschien pech en zit je in die 20 slechte taarten.
De "Garantie" Manier (Assurance-based):
Dit is wat het nieuwe pakket pmsims doet. Het zegt: "Ik wil niet alleen dat de gemiddelde taart lekker is. Ik wil garanderen dat minimaal 80% van de taarten die ik bak, absoluut perfect smaken."
- Voordeel: Je bent bereid om iets meer proefpersonen te gebruiken (meer data), maar je krijgt een veel betrouwbaarder resultaat. Je koopt een verzekering tegen pech.

3. De Oplossing: pmsims (De Slimme Chef)

Het artikel introduceert pmsims, een computerprogramma dat als een slimme, virtuele chef-kok werkt. In plaats van duizenden echte mensen te vragen om een taart te proeven (wat duur en langzaam is), doet het volgende:

Het creëert een virtuele wereld: Het programmeert een computer om duizenden "virtuele patiënten" te genereren die lijken op de echte wereld.
Het oefent met verschillende hoeveelheden: Het bouwt modellen met 100 mensen, dan 500, dan 1000, enzovoort.
Het tekent een leercurve: Het kijkt naar een grafiek die laat zien hoe de smaak van de taart verbetert naarmate je meer proefpersonen toevoegt.
Het gebruikt een "Gaussisch Proces" (De Magische Voorspeller): Dit is een slimme wiskundige techniek die de grafiek "invult" tussen de punten. Het is alsof je een paar proefprijzen doet en de computer de rest van de lijn slim schat, zodat je niet elke stap hoeft te testen. Dit bespaart enorm veel tijd en rekenkracht.

4. Waarom is dit belangrijk?

Veel bestaande methoden zijn als een oude landkaart: ze werken goed op vlakke wegen (simpele modellen), maar raken je kwijt in het ruige terrein van moderne kunstmatige intelligentie (AI) en complexe medische data.

Flexibiliteit: pmsims werkt voor elke soort "recept" (model), of het nu een simpele formule is of een ingewikkeld AI-systeem.
Realisme: Het houdt rekening met het feit dat data soms rommelig is (missende gegevens, rare patronen).
Veiligheid: Door te focussen op de "garantie" (assurance) in plaats van alleen het gemiddelde, voorkomen we dat artsen zich gaan verlaten op modellen die in de praktijk falen.

Conclusie: De Gouden Standaard

Dit artikel zegt eigenlijk: "Stop met gokken hoeveel mensen je nodig hebt."

Met pmsims kunnen onderzoekers nu zeggen: "Om een voorspellend model te bouwen dat in 80% van de gevallen betrouwbaar is, hebben we precies 3.510 patiënten nodig."

Het is alsof je van een gokker verandert in een ingenieur. Je bouwt niet meer op hoop en zegen, maar op een stevige fundering van data, zodat de voorspellingen die artsen gebruiken om levens te redden, echt werken.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: Bepaling van Steekproefgrootte bij Klinische Voorspellingsmodellen

Klinische voorspellingsmodellen worden steeds vaker gebruikt om medische beslissingen te ondersteunen. Een kritiek, maar vaak onopgelost probleem bij de ontwikkeling van deze modellen is het bepalen van de minimale vereiste steekproefgrootte.

Risico's: Onvoldoende steekproefgroottes leiden tot overfitting, slechte generaliseerbaarheid en vertekende voorspellingen.
Complexiteit: In tegenstelling tot traditionele hypothetische toetsing (gebaseerd op power en precisie voor een parameter), draait steekproefgrootte bij voorspellingsmodellen om generaliseerbaarheid, controle van optimisme en stabiliteit van individuele voorspellingen.
Huidige tekortkomingen: Bestaande methoden variëren in flexibiliteit en nauwkeurigheid:
- Heuristieken: Regels zoals "10 events per variabele" (EPV) zijn te simplistisch en negeren factoren zoals correlatie tussen voorspellers en modelcomplexiteit.
- Gesloten formules: Methodes zoals die van Riley et al. (geïmplementeerd in pmsampsize) zijn snel en interpreteerbaar, maar gebaseerd op strenge aannames (bijv. lineaire relaties, correct gespecificeerde modellen) en werken minder goed voor complexe datastructuren of Machine Learning (ML).
- Simulaties: Bieden meer flexibiliteit maar zijn computatie-intensief en vaak moeilijk toegankelijk voor onderzoekers zonder programmeervaardigheden.

2. Methodologie: Een Nieuw Conceptueel Kader en de `pmsims` Aanpak

De auteurs introduceren een nieuw kader dat onderscheid maakt tussen twee benaderingen voor steekproefgroottebepaling en een nieuwe softwaretool ontwikkelt om dit op te lossen.

A. Twee Kaders voor Steekproefgrootte

Het artikel onderscheidt twee formuleringen van het probleem:

Gemiddelde-criterium (Mean-based): Zoek de kleinste steekproefgrootte $n$ $n$ zodat het verwachte prestatieniveau (gemiddeld over alle mogelijke datasets) een doelwaarde $M^*$ $M^{*}$ overschrijdt.
- Nadeel: Dit garandeert niet dat een specifiek model dat op een willekeurige dataset van grootte $n$ wordt getraind, de doelwaarde haalt; sommige modellen kunnen slecht presteren.
Zekerheids-criterium (Assurance-based): Zoek de kleinste $n$ $n$ zodat de kans dat het prestatieniveau $M^*$ $M^{*}$ overschrijdt, hoog is (bijv. 80%).
- Voordeel: Dit houdt expliciet rekening met de variabiliteit tussen verschillende datasets. Het garandeert dat de meerderheid van de modellen die op data van grootte $n$ worden getraind, de gewenste prestatie behaalt. Dit is cruciaal voor complexe modellen (zoals diepe neurale netwerken) die gevoelig zijn voor kleine veranderingen in de trainingsdata.

B. De `pmsims` R-pakket Methode

Om het zekerheids-criterium efficiënt te berekenen, hebben de auteurs pmsims ontwikkeld, een model-agnostisch, simulatiegebaseerd R-pakket. De workflow bestaat uit vier stappen:

Definiëren van het scenario: De gebruiker specificeert een datagenerator (type uitkomst, verdelingen van voorspellers), het te trainen model (regressie, ML, etc.) en de prestatiemetrics (bijv. AUC, kalibratieslope).
Tunen van de datagenerator: De generator wordt afgestemd op de doelpopulatie en zo ingesteld dat het model op grote steekproeven de ideale prestatie ( $M_{ideal}$ ) bereikt.
Schatting van de leercurve: Het algoritme genereert synthetische datasets van verschillende groottes ( $n$ ), traint het model en evalueert de prestatie op een onafhankelijke testset. In plaats van alle mogelijke $n$ te simuleren, wordt gebruik gemaakt van Gaussian Process (GP) regressie om de leercurve te benaderen. Dit fungeert als een "surrogaatmodel" dat de berekening versnelt door zich te focussen op de regio waar de oplossing waarschijnlijk ligt.
Bepalen van de minimale steekproefgrootte: Het algoritme zoekt de kleinste $n$ waarbij het 20e percentiel van de verdeling van de prestaties (wat overeenkomt met een 80% zekerheid) de vooraf bepaalde drempelwaarde ( $M^*$ ) overschrijdt.

3. Belangrijkste Resultaten

De auteurs toonden de methode aan via drie casestudies en vergeleken pmsims met bestaande methoden (zoals pmsampsize, samplesizedev, heuristieken en empirische formules).

Grote variatie in schattingen: De geschatte minimale steekproefgroottes varieerden enorm afhankelijk van de gekozen methode, het type model (logistische regressie vs. ML) en de gekozen prestatiedoelstelling.
- Voor logistische regressie varieerden de schattingen van 200 tot 6.000 (afhankelijk van het geval).
- Voor Machine Learning-modellen waren de vereiste steekproefgroottes gemiddeld 5 tot 10 keer zo groot als voor traditionele modellen.
Invloed van modelmisspecificatie: Wanneer het trainingsmodel niet overeenkomt met de onderliggende datagenerator (misspecificatie), kunnen de vereiste steekproefgroottes dramatisch toenemen (bijv. >20.000).
Prestatie van pmsims: De schattingen van pmsims lagen doorgaans in het midden van het bereik van andere methoden, maar boden een robuustere oplossing door expliciet rekening te houden met variabiliteit (zekerheidscriterium). Voor het bereiken van een kalibratieslope van 0,90 met 80% zekerheid leverde pmsims schattingen op die vergelijkbaar waren met, maar soms conservatiever waren dan, andere simulatie-tools.
Flexibiliteit: Het pakket bleek in staat om complexe scenario's te hanteren die door gesloten formules niet kunnen worden opgelost, zoals niet-lineaire relaties en interacties.

4. Bijdragen en Significatie

Deze paper levert een significante bijdrage aan het veld van klinische voorspellingsmodellen op drie niveaus:

Conceptueel Kader: Het introduceert een duidelijk onderscheid tussen "gemiddelde" en "zekerheids"-criteria, waarbij het laatste wordt aanbevolen voor robuustheid in de praktijk, vooral bij complexe modellen.
Methodologische Innovatie: Door Gaussian Process optimisatie te combineren met leercurven, lost pmsims het probleem van de hoge computatiekosten van simulaties op. Het maakt het mogelijk om nauwkeurige steekproefgroottebepalingen te doen zonder duizenden simulaties voor elke mogelijke $n$ uit te voeren.
Praktische Toepasbaarheid: Het open-source R-pakket pmsims democratiseert geavanceerde steekproefgrootteberekeningen. Het is model-agnostisch (werkt voor statistische en ML-modellen) en stelt onderzoekers in staat om hun eigen datageneratoren en prestatiemetrics te definiëren.

Toekomstperspectief:
De auteurs wijzen op de noodzaak om deze methoden uit te breiden naar hiërarchische data, multimodale data (bijv. beeld + genetica), en scenario's met ontbrekende gegevens. Ook wordt de integratie van eerlijkheid (fairness) en stabiliteitsmetrieken in steekproefgrootteberekeningen aangemoedigd om te voldoen aan de eisen van moderne digitale gezondheidszorg en ethische richtlijnen (zoals TRIPOD-AI).

Conclusie:
Het artikel markeert een verschuiving van rigide heuristieken en beperkte analytische formules naar een flexibele, simulatiegedreven benadering die de onzekerheid in modelprestaties expliciet adresseert. pmsims biedt hiermee een essentieel hulpmiddel om de kwaliteit en reproduceerbaarheid van klinische voorspellingsmodellen te verbeteren.

Sample Size Calculations for Developing Clinical Prediction Models: Overview and pmsims R package

1. Het Probleem: "Te weinig proefpersonen"

2. De Twee Manieren om te Kijken: "Gemiddelde" vs. "Garantie"

3. De Oplossing: pmsims (De Slimme Chef)

4. Waarom is dit belangrijk?

Conclusie: De Gouden Standaard

1. Het Probleem: Bepaling van Steekproefgrootte bij Klinische Voorspellingsmodellen

2. Methodologie: Een Nieuw Conceptueel Kader en de pmsims Aanpak

A. Twee Kaders voor Steekproefgrootte

B. De pmsims R-pakket Methode

3. Belangrijkste Resultaten

4. Bijdragen en Significatie

Meer zoals dit

NS-RGS: Newton-Schulz based Riemannian gradient method for orthogonal group synchronization

Poisson-response Tensor-on-Tensor Regression and Applications

Virtual Dummies: Enabling Scalable FDR-Controlled Variable Selection via Sequential Sampling of Null Features

Eliciting core spatial association from spatial time series: a random matrix approach

Regularized estimation for highly multivariate spatial Gaussian random fields

2. Methodologie: Een Nieuw Conceptueel Kader en de `pmsims` Aanpak

B. De `pmsims` R-pakket Methode