Two-stage Adaptive Design Cluster Randomised Trials

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantisch feestje organiseert in verschillende buurten van een stad. Je wilt testen of een nieuw soort muziek (de behandeling) de sfeer verbetert. In een normaal experiment zou je individuele mensen willekeurig toewijzen aan "nieuwe muziek" of "oude muziek". Maar in dit soort onderzoek, een cluster-gewijze trial, wijzen we hele buurten (groepen) toe aan één van de opties.

Het probleem? Mensen in dezelfde buurt lijken op elkaar. Als de muziek in de ene buurt goed is, vinden iedereen in die buurt het goed, niet alleen de mensen die je specifiek hebt geselecteerd. Dit maakt het lastiger om te weten of de muziek echt werkt of dat het toeval is. Om zeker te zijn, moet je vaak heel veel buurten en mensen betrekken, wat enorm duur is.

De auteurs van dit papier, Samuel en James, hebben een slimme oplossing bedacht: een twee-traps adaptief ontwerp.

Hier is hoe het werkt, vertaald naar alledaags taal:

1. De "Proefperiode" (Fase 1)

In plaats van direct te beginnen met het organiseren van het feest in 100 buurten, beginnen we klein. We kiezen bijvoorbeeld 15 buurten per optie en kijken hoe het gaat.

Het slimme trucje: We kijken halverwege de tijd even goed naar de data. Is de muziek al zo geweldig dat we direct kunnen stoppen en de hele stad kunnen overtuigen? Of werkt het helemaal niet en kunnen we stoppen om geld te besparen?
De "Koppeltest": De auteurs gebruiken een wiskundige methode (de "combination test") die ervoor zorgt dat we de statistische regels niet breken, zelfs als we halverwege beslissingen nemen. Het is alsof je twee aparte rapporten schrijft over de eerste en tweede helft van het feest, en die later combineert tot één groot verslag zonder dat je de eerlijkheid van de cijfers verliest.

2. De "Herontwerp-Optie" (Fase 2)

Dit is waar het echt creatief wordt. Als we halverwege niet stoppen, hoeven we niet vast te zitten aan het oorspronkelijke plan. We kunnen het plan aanpassen op basis van wat we hebben gezien.

Voorbeeld: Stel, we dachten dat de muziek in elke buurt 50 mensen nodig had om te testen. Maar halverwege zien we dat de mensen in de buurt al heel erg op elkaar lijken (ze reageren allemaal hetzelfde). Dan hoeven we misschien niet 50 mensen per buurt te testen, maar slechts 20. We kunnen dus geld besparen door minder mensen te vragen.
Of andersom: Als de resultaten twijfelachtig zijn, kunnen we besluiten om meer buurten toe te voegen of de duur van het feest te verlengen om zekerheid te krijgen.

3. De "Slimme Balans" (Pareto Optimaliteit)

Het moeilijkste deel is kiezen: wat is het beste plan?

Wil je het minst mogelijke aantal mensen in het gemiddelde geval?
Of wil je zeker weten dat je nooit meer dan een bepaald bedrag uitgeeft, zelfs als het mislukt?

De auteurs gebruiken een methode die ze "Pareto-optimaliteit" noemen. Stel je voor dat je een kaart tekent met alle mogelijke plannen. Sommige plannen zijn "dom": ze kosten meer geld én testen meer mensen dan een ander plan. Die gooi je weg. De plannen die overblijven, vormen de "Pareto-voorrand". Dit zijn de slimste opties waarbij je niet kunt kiezen zonder ergens anders op te offeren. Je moet dus zelf kiezen: "Ik wil het goedkoopst mogelijk in het gemiddelde geval" of "Ik wil absoluut zeker zijn dat ik niet failliet ga".

4. Twee Voorbeelden uit de Wereld

De auteurs laten zien hoe dit werkt in de praktijk:

Het "Stapsgewijze" Feest (Stepped-Wedge): Stel je voor dat je de nieuwe muziek eerst in één buurt speelt, dan in twee, dan in drie... tot iedereen het heeft. Halverwege kunnen ze beslissen: "Eigenlijk werkt dit beter als we het gewoon in alle buurten tegelijk doen" of "Laten we het tempo vertragen". Ze kunnen het plan dus volledig ombuigen.
De E-MOTIVE Studie (Echt Geval): Ze namen een bestaand, enorm groot onderzoek over geboorte-bleedingen en keken: "Wat als we dit adaptief hadden gedaan?" Het resultaat? Ze hadden kunnen stoppen met het onderzoek na 64 buurten in plaats van 80, en met veel minder patiënten, terwijl ze toch zeker waren van het resultaat. Dat scheelt enorme kosten en tijd.

Waarom is dit belangrijk?

Onderzoekers en geldgevers (zoals overheden) willen niet geld verspillen aan onderzoeken die te groot zijn, of aan onderzoeken die te klein zijn om iets te bewijzen.

Voor de geldgevers: Het bespaart miljoenen.
Voor de deelnemers: Minder mensen hoeven mee te doen als het antwoord al duidelijk is.
Voor de wetenschap: Het maakt onderzoeken flexibeler en slimmer, vooral bij complexe situaties waar mensen in groepen zitten.

Kortom: Dit papier geeft een handleiding voor hoe je een groot wetenschappelijk experiment kunt plannen als een "slimme reis". Je vertrekt met een routeplan, maar als je halverwege ziet dat er een snellere weg is (of dat je bestemming al bereikt is), mag je je kaart aanpassen zonder dat je de regels van de weg breekt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Two-stage Adaptive Design Cluster Randomised Trials" van Samuel I. Watson en James Martin, in het Nederlands.

Titel: Tweestaps Adaptief Ontwerp voor Cluster-Randomisatieproeven

Auteurs: Samuel I. Watson en James Martin (Universiteit van Birmingham)
Datum: 9 maart 2026

1. Het Probleem

Cluster-randomisatieproeven (waarbij groepen zoals scholen, dorpen of ziekenhuizen in plaats van individuen worden gerandomiseerd) staan voor specifieke uitdagingen die hen kwetsbaar maken voor inefficiëntie en hoge kosten:

Onzekerheid in parameters: De benodigde steekproefgrootte hangt sterk af van correlatieparameters, zoals de Intraclass Correlation Coefficient (ICC) en correlaties binnen en tussen clusters. Deze parameters zijn op het ontwerpstadium vaak onbekend of worden met grote onzekerheid geschat.
Conservatieve schattingen: Vanwege deze onzekerheid kiezen onderzoekers vaak voor conservatieve (hoge) waarden voor de ICC, wat leidt tot overdimensionering van de steekproef en onnodig hoge kosten.
Complexiteit van adaptief ontwerp: Bestaande methoden voor adaptieve ontwerpen (zoals het aanpassen van steekproefgroottes of vroegtijdig stoppen) zijn voornamelijk ontwikkeld voor individuele randomisatieproeven. Toepassing op clusterproeven is complex vanwege de correlatie binnen clusters, wat betekent dat estimatoren tussen verschillende fasen van de proef met elkaar gecorreleerd zijn.
Meerdimensionale beslissingen: Bij clusterproeven zijn er meerdere dimensies om te optimaliseren: het aantal clusters, het aantal deelnemers per cluster, en de tijdsduur (bijvoorbeeld bij gestaggerde ontwerpen zoals stepped-wedge).

2. Methodologie

De auteurs ontwikkelen een raamwerk voor tweestaps adaptieve ontwerpen specifiek voor clusterproeven, gebaseerd op een combinatietest-benadering (combination test).

A. Combinatie Score-test

Om het Type I-foutenrisico te behouden ondanks aanpassingen na een interimanalyse, wordt de algehele teststatistiek opgesplitst in een gewogen som van statistieken uit verschillende fasen:

De data wordt onderverdeeld in fase 1 ( $Y_1$ ) en fase 2 ( $Y_2$ ).
De auteurs definiëren een marginaal score-statistiek ( $U_1$ ) voor fase 1 en een conditieel score-statistiek ( $U_{2|1}$ ) voor fase 2, waarbij de parameters van fase 1 worden "weggeprojecteerd" (partialling out) om correlaties tussen de fasen correct te behandelen.
De totale teststatistiek $Z$ wordt berekend als:
$Z = w_1 Z_1 + w_2 Z_{2|1}$
waarbij $Z_1$ en $Z_{2|1}$ genormaliseerde statistieken zijn en $w_1, w_2$ vooraf vastgestelde gewichten zijn die gebaseerd zijn op de geplande informatie (niet op de geobserveerde data). Dit garandeert dat de Type I-fout wordt gecontroleerd.

B. Beslissingsregels en Stopcriteria

Op het moment van de interimanalyse (na fase 1) kunnen drie beslissingen worden genomen:

Stoppen voor efficacie: Als de teststatistiek een vooraf bepaald drempelwaarde overschrijdt.
Stoppen voor futiliteit: Als er geen enkele mogelijke aanpassing van het ontwerp leidt tot een positief netto voordeel (geen kans meer op significantie).
Doorgaan met aanpassing: Het ontwerp van fase 2 wordt aangepast op basis van de geobserveerde data en nieuwe schattingen van hulpparameters (zoals de ICC).

C. Optimisatie van Steekproefgrootte en Kosten

Omdat de kosten multidimensionaal zijn (kosten voor nieuwe clusters vs. kosten voor nieuwe deelnemers), gebruiken de auteurs een Pareto-optimaliteitsbenadering. Ze evalueren ontwerpen op basis van meerdere, vaak conflicterende doelen:

Minimaliseren van de verwachte totale steekproefgrootte (of kosten).
Minimaliseren van de maximale (worst-case) steekproefgrootte (of kosten).
maximaliseren van de kans op vroegtijdig stoppen.

Twee strategieën voor het kiezen van het ontwerp van fase 2 worden onderzocht:

Kosten-gestraffe (Cost-penalised): Maximaliseer de conditionele macht minus een kostenstraf ( $\lambda \cdot C(g)$ ). Dit minimaliseert de verwachte kosten.
Begrotings-geconstrueerd (Budget-constrained): Maximaliseer de conditionele macht onder een harde kostenplafond. Dit minimaliseert de maximale kosten.

D. Her-schatting van Hulpparameters

Het model staat toe om op het interimpunt de ICC en andere correlatieparameters opnieuw te schatten op basis van de data van fase 1. De gewichten voor de combinatie-test blijven echter vast (gebaseerd op het oorspronkelijke plan) om de geldigheid van de test te behouden, terwijl de keuze voor het ontwerp van fase 2 (aantal clusters, grootte, etc.) dynamisch wordt aangepast op basis van de nieuwe schattingen.

3. Belangrijkste Bijdragen

Generalisatie naar Clusterproeven: Het artikel vult een belangrijke leemte in de literatuur door adaptieve methoden specifiek aan te passen voor cluster-randomisatieproeven, rekening houdend met binnen-cluster correlaties en de complexiteit van meervoudige steekproefdimensies.
Flexibiliteit in Implementatie: Het raamwerk maakt het mogelijk om niet alleen de steekproefgrootte aan te passen, maar ook de implementatiepatronen (bijvoorbeeld het overschakelen van een stepped-wedge ontwerp naar een parallel ontwerp) en de randomisatieverhoudingen.
Pareto-Frontier Analyse: Het introduceren van een methodologie om trade-offs tussen verwachte kosten en maximale kosten (risico) te kwantificeren en te visualiseren voor onderzoekers en financiers.
Software-implementatie: De auteurs hebben een R-pakket genaamd acrt ontwikkeld om deze methoden toepasbaar te maken voor andere onderzoekers.

4. Resultaten en Voorbeelden

De auteurs illustreren hun methode met drie voorbeelden:

Tweestaps Adaptief Parallelle Proef:
- Een simulatie toont aan dat adaptieve ontwerpen de verwachte kosten met ongeveer 17% kunnen verlagen ten opzichte van een niet-adaptief ontwerp.
- De "kosten-gestraffe" strategie leidt tot lagere verwachte kosten, terwijl de "begrotings-geconstrueerde" strategie zorgt voor een lagere maximale kostenplafond, wat belangrijk is voor budgetbeheer.
Gestaggerd Implementatie Ontwerp (Stepped-Wedge):
- In een hypothetisch stepped-wedge ontwerp met een binair uitkomst, bleek dat het mogelijk is om op basis van interimschattingen van de ICC het ontwerp te wijzigen.
- Als de ICC lager is dan verwacht, kan het aantal tijdperioden worden verkort of kan worden overgeschakeld naar een parallel ontwerp, wat aanzienlijke besparingen oplevert zonder macht te verliezen.
Re-analyse van de E-MOTIVE Proef:
- De methode werd toegepast op de grote E-MOTIVE proef (postpartum bloeding).
- Een hypothetische interimanalyse op basis van de eerste 64 clusters (20% minder clusters dan het origineel) zou hebben geleid tot een z-statistiek van -5.22, wat betekent dat de proef vroegtijdig was gestopt voor efficacie.
- Dit zou hebben geleid tot een besparing van meer dan 60% in het aantal patiënten. De auteurs wijzen echter op een nuance: vroegtijdig stoppen kan het onderzoek naar langetermijneffecten beperken, wat suggereert dat in sommige gevallen het herverdelen van de steekproefgrootte naar latere fasen (in plaats van stoppen) wenselijk kan zijn.

5. Betekenis en Conclusie

De studie concludeert dat adaptieve ontwerpen een krachtig instrument zijn om de efficiëntie van cluster-randomisatieproeven te verhogen en de kosten te verlagen, vooral omdat deze proeven vaak lijden onder onzekerheid in correlatieparameters.

Voor financiers: Mogelijkheid om resources te besparen en het risico op overdimensionering te beperken.
Voor ethiek: Minder patiënten worden blootgesteld aan experimentele behandelingen als een behandeling duidelijk effectief of nutteloos is.
Methodologische impact: De combinatie-test benadering biedt een robuust kader dat de Type I-fout controleert, zelfs bij complexe aanpassingen van het ontwerp en her-schatting van parameters.

De auteurs benadrukken dat hoewel de methoden veelbelovend zijn, onderzoekers voorzichtig moeten zijn bij het interpreteren van interimschattingen van correlatieparameters (die onzeker kunnen zijn) en dat toekomstig onderzoek zich moet richten op meerstaps ontwerpen en het balanceren van meerdere uitkomstmaten (bijv. directe vs. indirecte effecten).