Inference conditional on selection: a review

Each language version is independently generated for its own context, not a direct translation.

Selectieve Inference: Waarom je niet mag "dubbel dippen" in je data

Stel je voor dat je een grote schatkaart hebt met honderden plekken waar goud zou kunnen zitten. Je wilt weten welke plek het meeste goud bevat.

In de oude, klassieke statistiek was het zo: je kiest vooraf één plek uit, graaft daar, en zegt: "Hier zit goud!" en geeft een schatting van hoeveel. Omdat je de plek al had gekozen voordat je begon te graven, kun je er zeker van zijn dat je metingen eerlijk zijn.

Maar in de moderne wetenschap doen we het vaak anders. We kijken eerst naar de hele kaart, zien waar het meeste goud lijkt te zitten (laten we zeggen plek #42), en zeggen dan: "Kijk, plek #42 heeft het meeste goud!" en geven een schatting.

Het probleem: De "Dubbel Dip" (Double Dipping)
Hier zit de valstrik. Je hebt dezelfde data gebruikt om de plek te kiezen én om de hoeveelheid goud te meten. Het is alsof je een wedstrijd organiseert, zelf de winnaar kiest op basis van wie het hardst schreeuwt, en daarna zegt: "Kijk, deze schreeuwer is de snelste!"

Omdat je de winnaar koos omdat hij het hardst schreeuwde (een toevallige piek in de data), is zijn gemeten snelheid waarschijnlijk te hoog. Je bent te optimistisch. Dit noemen ze in de statistiek de "verwensing van de winnaar" (winner's curse). Als je dit niet corrigeert, krijg je vals positieve resultaten, en dat is een van de redenen waarom veel wetenschappelijke studies niet kunnen worden gerepliceerd.

De oplossing: Selectieve Inference
De auteurs van dit artikel (Anna Neufeld, Ronan Perry en Daniela Witten) leggen uit hoe we dit kunnen oplossen. Ze introduceren een concept dat ze "selectieve inferentie" noemen. In plaats van te zeggen "Onze schatting is altijd waar", zeggen ze: "Onze schatting is waar, als we kijken naar de specifieke manier waarop we de vraag hebben gekozen."

Ze vergelijken dit met een gerechtvaardigde uitzondering. Als je een verdachte kiest omdat hij verdacht gedroeg, moet je bewijzen dat hij schuldig is, rekening houdend met het feit dat je hem om die reden hebt gekozen.

Hoe doen ze dit? Drie manieren om de "dubbel dip" te voorkomen

De paper bespreekt verschillende methoden om eerlijke antwoorden te geven, zelfs als je eerst in de data hebt gekeken. Ze gebruiken een simpele "recept" dat in drie stappen werkt:

Kiezen: Je kiest je vraag (bijv. "Welke groep mensen is het ziekst?").
Antwoorden: Je geeft een antwoord op die vraag.
De Regel: Je mag alleen antwoorden geven als je rekening houdt met het feit dat je die vraag hebt gekozen.

Hier zijn de drie belangrijkste manieren (analogieën) die ze bespreken:

1. De "Volledige Spiegel" (Full Conditional Selective Inference)

Hoe het werkt: Je gebruikt je hele dataset om te kiezen én om te meten, maar je past je wiskundige formule aan. Je zegt eigenlijk: "Oké, we hebben plek #42 gekozen. Laten we nu berekenen: als we alle mogelijke datasets hadden gehad, hoe vaak zouden we dan ook plek #42 hebben gekozen? En hoe vaak zou de hoeveelheid goud daar dan zo hoog zijn geweest?"
Voordeel: Je gebruikt alle informatie.
Nadeel: Het is heel moeilijk te berekenen. Soms, als de keuze heel "moeilijk" was (bijvoorbeeld als twee plekken bijna evenveel goud hadden), wordt je antwoord zo onzeker dat je een oneindig breed interval krijgt ("Het kan 0 zijn, of het kan 1 miljard zijn"). Dat is niet erg nuttig.

2. De "Twee Teams" (Sample Splitting)

Hoe het werkt: Je deelt je data in tweeën. Team A (de helft van de data) kijkt naar de kaart en kiest de beste plek. Team B (de andere helft) mag alleen naar die gekozen plek kijken en de hoeveelheid goud meten. Team B heeft de kaart nooit gezien, dus ze weten niet dat ze "de winnaar" moeten meten.
Voordeel: Eenvoudig en eerlijk. Je kunt standaard statistiek gebruiken.
Nadeel: Je gooit de helft van je data weg. Team B heeft minder informatie, waardoor je metingen minder precies zijn. En als Team A een plek kiest waar Team B helemaal geen mensen heeft, kan Team B niets zeggen.

3. De "Magische Splitsing" (Data Thinning / Fission)

Hoe het werkt: Dit is de meest moderne en slimme methode. Je deelt de data niet fysiek in tweeën, maar je "splitst" elke datapunt in twee virtuele delen. Stel, je hebt een meting van 100. Je maakt er twee nieuwe metingen van: 50 en 50 (of 60 en 40).
- De ene helft (50) gebruikt je om te kiezen welke plek de winnaar is.
- De andere helft (50) gebruikt je om de hoeveelheid goud te meten.
- Het mooie is: deze twee helften zijn wiskundisch onafhankelijk van elkaar, maar je hebt wel alle originele informatie behouden.
Voordeel: Je gooit niets weg, maar je bent wel eerlijk.
Nadeel: Het werkt alleen voor bepaalde soorten data (zoals getallen die normaal verdeeld zijn of tellingen).

Waarom is dit belangrijk?
De auteurs laten zien met voorbeelden uit de echte wereld (zoals het vinden van de beste behandeling in een medisch onderzoek, het analyseren van bomen in een bos, of het groeperen van cellen in DNA-onderzoek) dat als je deze technieken niet gebruikt, je vaak denkt dat je iets gevonden hebt, terwijl het gewoon toeval was.

Conclusie voor de leek
Wetenschap is vaak een proces van ontdekken. We kijken naar data, vinden iets interessants, en willen daar een conclusie over trekken. De oude regels zeiden: "Dat mag niet, je moet van tevoren weten wat je zoekt."
De nieuwe regels (Selectieve Inference) zeggen: "Het mag prima om te zoeken en te ontdekken, zolang je maar eerlijk bent over het feit dat je hebt gezocht. Gebruik de juiste wiskunde om te corrigeren voor je eigen nieuwsgierigheid."

Het artikel is een gids voor wetenschappers om te kiezen welke van deze "correctie-methoden" het beste past bij hun specifieke probleem, zodat ze niet per ongeluk leugens vertellen aan de wereld.

Each language version is independently generated for its own context, not a direct translation.

Titel: Inference conditioneel op selectie: een overzicht

Auteurs: Anna Neufeld, Ronan Perry, Daniela Witten

1. Het Probleem: Selectieve Inferentie en "Double Dipping"

In de klassieke statistiek worden modellen, hypothesen en parameters vooraf gespecificeerd, voordat de data worden geobserveerd. In de moderne wetenschappelijke praktijk wordt echter vaak eerst de data geëxploreerd om veelbelovende modellen of hypothesen te selecteren, waarna op dezelfde data wordt getest. Dit fenomeen staat bekend als "double dipping" (het dubbel gebruik van data).

Gevolg: Wanneer klassieke inferentiemethoden (zoals t-toetsen of Wald-intervallen) worden toegepast zonder rekening te houden met deze datagedreven selectie, falen ze om de vereiste garanties te bieden. Ze leiden tot een Type I-fout (valse positieven) en dekkingspercentages van betrouwbaarheidsintervallen die lager zijn dan de nominale waarde (bijv. een 90% interval dekt de parameter minder dan 90% van de tijd).
Voorbeelden uit het artikel:
1. De "Winner's Curse": Inferentie op de parameter van de "winnaar" (bijv. het middelste effect met de hoogste schatting) uit een reeks kandidaten.
2. Regressie-bomen: Inferentie op het gemiddelde van een regio die is gegenereerd door een algoritme zoals CART.
3. Clustering: Inferentie op het verschil in gemiddelden tussen clusters die zijn afgeleid uit single-cell RNA-sequencing data (waarbij de cellen niet van tevoren bekend zijn).

2. Methodologie: Conditionele vs. Unconditionele Dekking

Het artikel onderscheidt twee soorten inferentiële garanties:

Unconditionele dekking: De kans dat het interval de parameter dekt, gemiddeld over alle mogelijke selecties. Hoewel dit mogelijk is (bijv. via simultane correcties zoals Bonferroni), is het vaak te conservatief of niet wetenschappelijk relevant voor de specifieke vraag die na selectie wordt gesteld.
Conditionele dekking (Selectieve dekking): De garantie dat het interval de parameter dekt, gegeven dat de selectie heeft plaatsgevonden. Dit is de voorkeursbenadering van de auteurs. Het garandeert dat de inferentie geldig is voor de specifieke parameter die door de onderzoeker is gekozen, ongeacht of deze de "ware" parameter was of niet.

De "Unificerende Recept" (General Recipe):
De auteurs tonen aan dat diverse methoden voor conditionele inferentie kunnen worden samengevat in één recept:

Verdeling: De data wordt opgesplitst in een selectie-set ( $Y_{sel}$ ) en een inferentie-set ( $Y_{inf}$ ) (deze kunnen overlappen of identiek zijn).
Selectie: Het doel van de inferentie ( $\theta$ ) wordt geselecteerd op basis van $Y_{sel}$ .
Inferentie: Er wordt een betrouwbaarheidsinterval of toets uitgevoerd op $Y_{inf}$ , conditioneel op het gebeurtenis dat de selectie heeft plaatsgevonden (en eventueel op extra informatie om de verdeling hanteerbaar te maken).

3. Belangrijkste Methodologische Benaderingen

Het artikel bespreekt en vergelijkt verschillende frameworks die voldoen aan bovenstaand recept:

Full Conditional Selective Inference (Full CSI):
- Gebruikt de volledige dataset voor zowel selectie als inferentie ( $Y_{sel} = Y_{inf} = Y$ ).
- Vereist de exacte karakterisering van de verdeling van de teststatistiek gegeven de selectie.
- Nadeel: Kan leiden tot extreem brede (of oneindig brede) betrouwbaarheidsintervallen, vooral bij zwakke signalen, omdat er weinig informatie overblijft voor inferentie na het conditioneren op de selectie.
Sample Splitting:
- Splitst de data in twee disjuncte sets. Selectie op de ene, inferentie op de andere.
- Voordeel: Eenvoudig toe te passen; gebruikt standaard software.
- Nadeel: Verworp informatie (de selectie-set wordt niet gebruikt voor inferentie). Kan leiden tot oneindig brede intervallen als de testset geen informatie bevat over de geselecteerde parameter (bijv. bij clustering).
Data Carving:
- Een variant van sample splitting waarbij de selectie-set wel wordt gebruikt voor inferentie, maar dan conditioneel op de selectie.
- Voordeel: Meer statistische kracht dan sample splitting.
- Nadeel: Complexer; vereist hanteerbare conditionele verdelingen.
Data Thinning:
- Decomposeert de data in twee onafhankelijke componenten (bijv. via toevoeging van ruis) zonder de data fysiek te splitsen.
- Voordeel: Toepasbaar op scenarios waar sample splitting faalt (zoals bij de "winner's curse" of clustering).
- Nadeel: Vereist specifieke verdelingsaannames (bijv. Gaussisch, Poisson).
Randomized Conditional Selective Inference (Randomized CSI):
- Voegt ruis toe aan de data tijdens de selectiestap (bijv. in het regressie-algoritme) en gebruikt de volledige dataset voor inferentie, conditioneel op de geselecteerde oplossing.
- Voordeel: Vermijdt oneindig brede intervallen en behoudt meer informatie voor inferentie dan Full CSI, terwijl het flexibeler is dan data thinning.
Data Fission:
- Een nieuwere methode die data decomposeert in twee afhankelijke delen, waarbij beide delen informatie bevatten.
- Voordeel: Breder toepasbaar dan data thinning (bijv. op binaire data) en vereist geen onafhankelijkheid tussen de sets.

4. Resultaten

Simulatiestudie (Regressie-bomen):

Doel: Inferentie op het gemiddelde van regio's gegenereerd door CART.
Vergelijking: Klassieke methode, Sample splitting, Data thinning, Full CSI, Randomized CSI.
Resultaten:
- De klassieke methode faalt bij zwakke signalen (lage dekking).
- Full CSI heeft de beste selectiekwaliteit (hoogste Adjusted Rand Index) maar levert bij zwakke signalen zeer brede intervallen op.
- Randomized CSI biedt de beste balans: het behoudt hoge selectiekwaliteit en levert smalle, eindige intervallen op die adaptief zijn aan de signaalsterkte.
- Sample splitting en Data thinning hebben een vaste informatie-allokatie; hun intervalbreedte past zich niet aan de signaalsterkte aan en kunnen bij sample splitting oneindig worden.

Toepassing: Single-Cell RNA Sequencing (scRNA-seq)

Doel: Het testen van genen op differentiaale expressie tussen clusters die zijn afgeleid uit de data.
Data: Negatieve controle (alleen één celtype) en Positieve controle (twee celtypen).
Resultaten:
- Klassieke methode: Produceert niet-uniforme p-waarden in de negatieve controle (veel valse positieven).
- Selectieve methoden: Data thinning, Data fission en Full CSI produceren p-waarden die dichter bij een uniforme verdeling liggen (betere controle van Type I-fouten).
- Kracht: Alle selectieve methoden vinden minder significant verschillende genen dan de klassieke methode (wat correct is, aangezien de klassieke methode de selectie negeert), maar behouden voldoende kracht om de ware signalen in de positieve controle te detecteren.
- Praktische beperkingen: Full CSI is gevoelig voor voorverwerking en het type clustering-algoritme (bijv. werkt goed met k-means, maar moeilijk toepasbaar op graf-gebaseerde methoden zoals Louvain). Data thinning/fission introduceert extra willekeurigheid in de selectiestap.

5. Belangrijkheid en Conclusie

Het artikel benadrukt dat conditionele dekking de wetenschappelijk meest zinvolle garantie is voor datagedreven inferentie. Het "double dipping" probleem is een belangrijke oorzaak van de replicatiecrisis in de wetenschap.

Trade-off: Er is een fundamentele afweging tussen de hoeveelheid informatie die wordt gebruikt voor selectie (kwaliteit van de selectie) en de hoeveelheid informatie die overblijft voor inferentie (precisie van het interval).
Geen "one-size-fits-all": Geen enkele methode is overal superieur.
- Full CSI is ideaal als de selectie-algoritme goed hanteerbaar is en geen extra ruis mag worden toegevoegd, maar kan leiden tot brede intervallen.
- Randomized CSI en Data thinning/fission bieden vaak een betere balans tussen kracht en intervalbreedte, maar vereisen specifieke aannames of introduceren willekeur.
Toekomstperspectief: Er is een dringende behoefte aan flexibele, assumptie-arme methoden en general-purpose software die wetenschappers kunnen integreren in hun bestaande analysepijplijnen (zoals Seurat voor scRNA-seq). Zonder dergelijke tools zullen wetenschappers blijven vastzitten in de valkuil van double dipping.

Kortom, dit artikel biedt een uitgebreid overzicht van de staat der kunst in selectieve inferentie, onderbouwt de noodzaak van conditionele garanties, en biedt een kader voor het kiezen van de juiste methode op basis van de specifieke data- en analyse-eisen.

Inference conditional on selection: a review

Titel: Inference conditioneel op selectie: een overzicht

1. Het Probleem: Selectieve Inferentie en "Double Dipping"

2. Methodologie: Conditionele vs. Unconditionele Dekking

3. Belangrijkste Methodologische Benaderingen

4. Resultaten

5. Belangrijkheid en Conclusie

Meer zoals dit

Overdispersed and Markovian Children

Surface temperature extremes produced by huge machine learning hindcasts of summer 2023

Discrete Flow Maps

Hierarchical Riemannian manifold Hamiltonian Monte Carlo algorithms

Blume-Capel model: Estimation of a three stable state network for −1-\bf 1−1, 0\bf 00 and +1\bf +1+1 data

Blume-Capel model: Estimation of a three stable state network for $-\bf 1$ , $\bf 0$ and $\bf +1$ data