Data Fusion with Distributional Equivalence Test-then-pool

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuwe medicijn wilt testen om te zien of het werkt. De gouden standaard hiervoor is een Randomized Controlled Trial (RCT). Je deelt mensen in twee groepen: één groep krijgt het medicijn (de 'behandeling') en de andere krijgt een nepmedicijn (de 'placebo' of 'controle'). Als de groep die het medicijn nam beter doet, heb je bewijs dat het werkt.

Maar hier zit een probleem: het is duur, tijdrovend en soms ethisch lastig om genoeg mensen te vinden voor de placebogroep. Je wilt die groep zo klein mogelijk houden.

Hier komt de oplossing van dit papier: Waarom niet kijken naar eerdere studies? Misschien hebben andere onderzoekers al een vergelijkbare placebogroep gehad. Als die groepen op elkaar lijken, kun je die oude data "lenen" om je huidige studie sterker te maken. Dit noemen ze Data Fusion (data samenvoegen).

Maar wacht even! Als je die oude data zomaar gebruikt, loop je een groot risico. Stel, de oude studie was in een warm land en de nieuwe in een koud land, of de patiënten waren anders. Dan is de oude data niet eerlijk vergelijkbaar. Als je ze toch samenvoegt, krijg je een verkeerd resultaat (bias).

Het oude probleem: "Testen en dan hopen"

Vroeger deden onderzoekers het zo:

Ze keken of de gemiddelde uitkomsten van de oude en nieuwe placebogroep gelijk waren.
Als het gemiddelde niet heel anders leek, zeiden ze: "Oké, ze lijken op elkaar, laten we ze samenvoegen."
Het probleem? Soms lijken ze op het gemiddelde wel, maar zijn ze in de details heel verschillend (bijvoorbeeld: de oude groep had veel extreme waarden). Door ze toch samen te voegen, maak je je statistiek onbetrouwbaar. Je kunt dan denken dat een medicijn werkt, terwijl het niet zo is.

De nieuwe oplossing: "Testen op Identiteit en dan Samenvoegen"

De auteurs van dit papier (Yang, Liu en Evans) hebben een slimmere manier bedacht. Ze noemen het "Test-then-Pool" (Eerst testen, dan samenvoegen), maar dan met een paar belangrijke verbeteringen:

1. Niet alleen naar het gemiddelde kijken, maar naar de hele "verdeling"

Stel je voor dat je twee zakken met knikkers hebt.

Oude methode: Ze telden alleen het gemiddelde gewicht van de knikkers. Als het gemiddelde gelijk was, dachten ze: "Gelijk!"
Nieuwe methode: Ze kijken naar de hele zak. Zijn er veel grote knikkers in de ene zak en kleine in de andere? Zitten er rare vormen bij? Ze gebruiken een wiskundig gereedschap genaamd MMD (Maximum Mean Discrepancy). Dit is als een supergevoelige scanner die kijkt of de hele verdeling van de data hetzelfde is, niet alleen het gemiddelde.

2. De "Gelijkheids-Test" (Equivalence Test)

In plaats van te vragen: "Zijn ze precies hetzelfde?" (wat bijna nooit gebeurt), vragen ze: "Zijn ze binnen een acceptabele marge hetzelfde?"
Stel, je hebt een tolerantie-marge (noem het $\theta$ ). Als de oude en nieuwe data binnen die marge vallen, zeggen we: "Oké, ze zijn vergelijkbaar genoeg om te samenvoegen."

Als ze te ver uit elkaar liggen, voegen we ze niet samen. We gebruiken alleen de nieuwe data.
Als ze binnen de marge liggen, voegen we ze samen. Dit geeft ons meer data en een sterker bewijs.

3. De "Slimme Boot" (Partial Bootstrap)

Dit is het meest creatieve deel. Stel je voor dat je een boot hebt met twee soorten passagiers: de huidige groep en de oude groep. Je wilt weten of de boot veilig is (of het medicijn werkt).

Als je de oude passagiers aan boord haalt, maar ze zijn net iets anders dan de huidige passagiers, dan kan de boot gaan wiebelen.
De auteurs hebben een nieuwe manier bedacht om die wiebeling te meten. Ze gebruiken een techniek genaamd Partial Bootstrap.
De analogie: In plaats van de hele boot te herbouwen met willekeurige passagiers (wat de fout zou maken), nemen ze alleen de huidige passagiers en maken daar kopieën van. De oude passagiers blijven waar ze zijn. Zo houden ze de verhouding tussen de groepen eerlijk, zelfs als de oude groep net iets anders is. Hierdoor weten ze zeker dat hun conclusie niet vals positief is.

Waarom is dit belangrijk?

Veiligheid: Je bent zeker dat je geen fouten maakt (Type-I error). Je zegt niet per ongeluk dat een medicijn werkt als het niet zo is.
Kracht: Als de data wel vergelijkbaar is, krijg je meer data. Dit maakt je test sterker. Je kunt effecten sneller en betrouwbaarder ontdekken.
Flexibiliteit: Het werkt niet alleen voor gemiddelden, maar voor complexe patronen in de data.

Samenvatting in één zin

De auteurs hebben een slimme, veilige manier bedacht om oude medische data te "lenen" voor nieuwe studies, door eerst heel grondig te checken of de oude en nieuwe groepen echt op elkaar lijken (niet alleen in het gemiddelde, maar in elk detail) en door een slimme wiskundige truc te gebruiken om zeker te weten dat het samenvoegen de resultaten niet vervalst.

Het is alsof je een oude kaart van een stad gebruikt om je huidige route te plannen: je checkt eerst of de stad er nog hetzelfde uitziet, en als dat zo is, gebruik je de oude kaart om sneller je weg te vinden, zonder dat je in de valkuilen terechtkomt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Data Fusion with Distributional Equivalence Test-then-pool" in het Nederlands.

Probleemstelling

Gekwantificeerde gecontroleerde trials (RCT's) zijn de gouden standaard voor causale inferentie, maar vaak zijn de concurrente controlegroepen te klein vanwege praktische of ethische beperkingen. Een veelgebruikte oplossing is het "lenen" van controlegegevens uit eerdere trials (historische controles) om de steekproefgrootte te vergroten en de statistische power te verhogen.

Echter, het naïef samenvoegen van historische en huidige data kan leiden tot vertekening (bias) als de populaties verschillen (bijvoorbeeld door regionale of beoordelingsverschillen). Bestaande methoden, zoals de klassieke "Test-then-Pool" (TTP) aanpak, testen eerst op gelijkheid van de gemiddelden tussen de controlegroepen. Als er geen significant verschil wordt gevonden, worden de data samengevoegd. Deze aanpak heeft twee grote tekortkomingen:

Beperkte power: Het testen op gelijkheid van gemiddelden mist vaak heterogeniteit in de verdelingen (bijv. verschillen in variantie of staartgedrag), wat kan leiden tot het onterecht samenvoegen van niet-identieke groepen.
Type-I fouten: Het niet verwerpen van de nulhypothese (gelijkheid) betekent niet dat de groepen equivalent zijn; het kan simpelweg een gebrek aan power zijn. Dit leidt tot een inflatie van de Type-I fout (het ten onrechte concluderen dat een behandeling werkt) in de daaropvolgende causale test.

Methodologie

De auteurs stellen een nieuw TTP-raamwerk voor dat gericht is op distributie-equivalentie in plaats van alleen gemiddelde-equivalentie. De methode bestaat uit twee fasen:

1. Fusie-fase: Equivalentietest met MMD

In plaats van te testen of historische ( $Q_h$ ) en huidige ( $Q_c$ ) controles identiek zijn ( $H_0: Q_c = Q_h$ ), wordt een equivalentietest uitgevoerd:

Nulhypothese ( $H_0^f$ ): De verdelingen verschillen met ten minste een vooraf bepaald equivalentieradius $\theta$ (gemeten in MMD).
Alternatieve hypothese ( $H_1^f$ ): De verdelingen zijn equivalent (verschil $< \theta$ ).

De auteurs gebruiken de Maximum Mean Discrepancy (MMD) als maatstaf voor de afstand tussen verdelingen. MMD is een kernel-gebaseerde methode die in staat is om complexe verschillen in de volledige verdeling te detecteren, niet alleen in het gemiddelde.

Als de equivalentietest de nulhypothese verwerpt (d.w.z. bewijs dat het verschil kleiner is dan $\theta$ ), worden de data samengevoegd.
Anders worden de historische data verworpen en wordt alleen de huidige controlegroep gebruikt.

2. Causale fase: Partial Bootstrap en Partial Permutation

Als de data wel worden samengevoegd, ontstaat een nieuw probleem voor de standaard permutatietests: de gesynthetiseerde controlegroep ( $Q_f$ ) is een mengsel van $Q_c$ en $Q_h$ . Als $Q_h \neq Q_c$ , is de verdeling van de teststatistiek onder de nulhypothese ( $Q_c = Q_t$ ) niet langer correct te benaderen door standaard permutatie, omdat dit de onderliggende afhankelijkheidsstructuur verstoort.

Om dit op te lossen, introduceren de auteurs twee nieuwe procedures om de null-verdeling te benaderen:

Partial Bootstrap: Hierbij worden steekproeven getrokken uit de huidige controlegroep ( $Q_c$ ) voor zowel de behandelings- als de controlegroep in de bootstrap-iteraties, terwijl de historische groep ( $Q_h$ ) onafhankelijk wordt gere-sampled. Dit behoudt de juiste afhankelijkheidsstructuur onder de nulhypothese, zelfs als $Q_h$ verschilt van $Q_c$ .
Partial Permutation: Een alternatieve methode waarbij de historische groep wordt behandeld als een "ancillair" (bijkomend) monster dat alleen in de teststatistiek wordt gebruikt, terwijl permutatie alleen plaatsvindt tussen de huidige controle en behandelingsgroepen.

De auteurs bewijzen theoretisch dat beide methoden asymptotisch geldig zijn en de Type-I fout controleren, zelfs wanneer de samengevoegde controles niet identiek zijn.

Belangrijkste Bijdragen

Uitbreiding naar Distributie-Testen: Het TTP-raamwerk is uitgebreid van gemiddelde-basis naar volledige verdelings-basis (DTE - Distributional Treatment Effects) via MMD, waardoor heterogeniteit in variantie en staarten kan worden opgepikt.
Formele Validiteit: Voor het eerst wordt een formele garantie gegeven voor de controle van de Type-I fout in een TTP-procedure die historische controles fuseert, zelfs wanneer deze niet identiek zijn aan de huidige controle.
Nieuwe Resampling-methoden: Introductie van "Partial Bootstrap" en "Partial Permutation" procedures die de asymptotische geldigheid garanderen in aanwezigheid van heterogene controles.
Theoretische Consistentie: Bewijzen van consistentie onder specifieke geometrische voorwaarden, met inzicht in wanneer het samenvoegen van data de power kan verminderen (bijvoorbeeld als de historische controle in dezelfde richting afwijkt als de behandeling).

Resultaten

De auteurs presenteren uitgebreide synthetische experimenten en een toepassing op het "Prospera"-programma (een Mexicaans cash-transfer programma):

Type-I Fout Controle: In tegenstelling tot klassieke TTP-methoden, die vaak leiden tot een inflatie van de Type-I fout bij heterogene data, houdt de voorgestelde methode de Type-I fout strikt binnen het nominale niveau ( $\alpha = 0.05$ ), ongeacht de mate van verschil tussen de controles.
Power Verbetering: De methode behaalt aanzienlijk hogere power dan tests zonder fusie, zolang de historische data voldoende vergelijkbaar zijn (binnen de radius $\theta$ ).
Vergelijking Bootstrap vs. Permutatie: De "Partial Bootstrap" methode presteert over het algemeen beter dan de "Partial Permutation" methode, vooral bij kleinere steekproefgroottes en wanneer er verschillen zijn tussen $Q_c$ en $Q_h$ . De permutatie-methode kan leiden tot conservatievere kritieke waarden en lagere power in deze scenario's.
Invloed van $\theta$ : Een te grote equivalentieradius $\theta$ kan de power verminderen als de historische controle en de behandeling in dezelfde richting afwijken van de huidige controle (cancellatie-effect). Een conservatieve keuze van $\theta$ wordt aanbevolen.
Prospera Toepassing: In de analyse van het Prospera-programma toonde de voorgestelde Equivalence TTP een hogere afwijzingskans (power) dan traditionele gemiddelde-tests en tests zonder fusie, wat aantoont dat het benutten van historische data (1997) de detectie van effecten op schoolinschrijving (1998) verbetert.

Significantie

Dit artikel biedt een principieel en wiskundig onderbouwd raamwerk voor het veilig gebruik van historische controlegegevens in klinische trials. Het lost het fundamentele dilemma op tussen het willen benutten van bestaande data voor efficiency en het risico op vertekening door populatieverschillen.

De methode is van groot belang voor:

Klinische Trials: Het verkorten van trial-duur en het verminderen van kosten zonder in te leveren op de statistische integriteit.
Causale Inferentie: Het bieden van een robuuste manier om externe controles te integreren, zelfs wanneer deze niet perfect overeenkomen met de huidige studiepopulatie.
Machine Learning & Statistiek: Het introduceren van nieuwe resampling-technieken (partial bootstrap/permutation) die toepasbaar zijn in bredere contexten van distributie-gebaseerde inferentie en transfer learning.

Kortom, de auteurs leveren een oplossing die niet alleen de power verhoogt, maar vooral de statistische betrouwbaarheid van data-fusie garandeert door gebruik te maken van moderne kernel-methoden en rigoureuze theoretische garanties.