Partial Causal Structure Learning for Valid Selective Conformal Inference under Interventions

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een voorspellingstool hebt die je vertelt hoe een medicijn een ziektecel zal beïnvloeden. Deze tool is slim, maar hij heeft een zwak punt: hij is niet altijd even zeker van zijn zaak. Om die onzekerheid te meten, gebruikt hij een "kalibratie-set" – een verzameling van eerdere experimenten om te zien hoe goed zijn voorspellingen zijn.

Normaal gesproken werkt dit prima als alle eerdere experimenten vergelijkbaar zijn. Maar in de biologie (bijvoorbeeld bij het testen van duizenden genen) is dat niet zo. Als je op Gen A ingrijpt, verandert dat misschien Gen B, maar heeft Gen C daar helemaal niets mee te maken.

Hier komt het probleem: als je in je kalibratie-set per ongeluk experimenten opneemt waarbij Gen A wél Gen B beïnvloedde, terwijl je nu juist probeert te voorspellen wat er gebeurt met Gen C (waarbij Gen A geen invloed heeft), dan wordt je voorspelling onbetrouwbaar. Je gebruikt de verkeerde "spiegel" om je toekomst te bekijken.

Dit artikel, getiteld "Partial Causal Structure Learning for Valid Selective Conformal Inference under Interventions", lost dit probleem op met drie slimme stappen. Hier is de uitleg in simpele taal:

1. Het Probleem: De Verkeerde Spiegels

Stel je voor dat je een voorspeller bent voor het weer.

Je wilt voorspellen of het morgen in Amsterdam regent.
Je kijkt naar je kalibratie-set: de afgelopen 100 dagen.
Maar in die 100 dagen waren er ook 20 dagen in Sahara (waar het nooit regent) en 80 dagen in Amsterdam.

Als je alle 100 dagen gebruikt om je voorspelling te maken, krijg je een onnauwkeurige voorspelling voor Amsterdam, omdat de Sahara-dagen je "gemiddelde" verstoren. Je hebt alleen de dagen nodig die lijken op Amsterdam (de "uitwisselbare" dagen).

In de wetenschap weten we vaak niet precies welke experimenten (interventies) op welke genen invloed hebben. We proberen het te raden, maar we maken fouten. Soms nemen we een "Sahara-dag" mee in onze "Amsterdam-set". Dat noemen ze vervuiling (contamination).

2. De Oplossing: De "Veilige Set" en de "Reinigingsformule"

De auteurs hebben een oplossing bedacht die bestaat uit drie onderdelen:

A. De "Veilige Set" (Selectieve Kalibratie)

In plaats van alle 100 dagen te gebruiken, proberen ze alleen de dagen te vinden die echt lijken op de dag die we voorspellen.

De analogie: Je zoekt alleen naar dagen in Nederland om te voorspellen voor Amsterdam. Je negeert de dagen in de Sahara.
Dit maakt je voorspelling veel scherper en nauwkeuriger. Maar... hoe weet je zeker dat je geen enkele Sahara-dag per ongeluk hebt meegenomen?

B. De "Vuilnisbak-formule" (De δ-robustheid)

De auteurs zeggen: "Oké, we weten dat we misschien per ongeluk een paar verkeerde dagen hebben meegenomen. Laten we dat niet als een fout zien, maar als een risico."
Ze hebben een wiskundige formule bedacht die precies berekent: "Als we 10% verkeerde data hebben, hoeveel minder zeker zijn we dan we denken?"

Het is alsof je zegt: "Ik heb een kom met appels, maar er zitten misschien 10 rotte appels tussen. Ik ga mijn voorspelling niet doen op basis van de gemiddelde appel, maar ik ga mijn voorspelling iets 'conservatiever' maken om zeker te weten dat ik geen rotte appel eet."
Zelfs als je 30% rotte appels hebt, garandeert hun formule dat je voorspelling nog steeds veilig is, mits je de voorspelling iets aanpast.

C. De "Slimme Zoeker" (Partiële Causale Leer)

Hoe vinden we die veilige set zonder de hele wereldkaart van genen te hoeven tekenen (wat onmogelijk moeilijk is)?
Ze gebruiken een slimme truc: Scheerpatronen.

De analogie: Stel je voor dat je wilt weten welke buren bij elkaar wonen. Je hoeft niet het hele stadsplan te kennen. Je kijkt alleen naar wie er samen last heeft van een lawaaiige buur.
- Als Buur A lawaai maakt en Buur B en Buur C worden wakker, dan wonen B en C waarschijnlijk in de buurt van A.
- Als Buur D niet wakker wordt, dan woont D waarschijnlijk niet in de buurt.
In de wetenschap kijken ze naar welke genen veranderen als ze op een ander gen drukken. Als Gen X en Gen Y altijd samen veranderen, zijn ze waarschijnlijk familie (causaal verbonden). Als Gen Z niet verandert, is hij niet verbonden.
Ze hoeven dus niet de hele familieboom van alle genen te kennen. Ze hoeven alleen te weten: "Is Gen Y een nazaat van Gen X?" (Ja/Nee). Dat is veel makkelijker en sneller.

3. Wat hebben ze bewezen?

Ze hebben dit getest in twee situaties:

In de computer (Synthetisch): Ze maakten een nep-wereld met 200 genen. Ze lieten zien dat als je 30% verkeerde data in je set stopt, je voorspelling normaal gesproken faalt (van 90% zekerheid naar 86% zekerheid). Maar met hun correctie-formule bleef de zekerheid boven de 95%, zelfs met die rotte appels erbij.
In het echt (CRISPR-data): Ze keken naar echte data van K562-cellen (een soort kankercel). Ook hier bleek dat hun methode de enige was die betrouwbaar bleef, terwijl andere methoden faalden door de "vervuiling" van de data.

Samenvatting in één zin

Deze paper leert computers hoe ze slimme voorspellingen kunnen doen over genen, zelfs als ze niet precies weten welke genen elkaar beïnvloeden, door een slimme "veiligheidsmarge" toe te passen die rekening houdt met de fouten die ze misschien maken.

Het is alsof je een navigatieapp hebt die zegt: "Ik denk dat je route goed is, maar omdat ik niet 100% zeker weet of er een wegversperring is, ga ik je een iets langere, maar veilige route geven, zodat je zeker aankomt."

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Conformele voorspelling (Conformal Prediction, CP) biedt een methode voor distributie-vrije onzekerheidskwantificering met gegarandeerde dekking (coverage) onder de aanname van uitwisselbaarheid (exchangeability). Echter, in interventie-omgevingen zoals genetica (bijv. CRISPRi-perturbatie-experimenten), is deze uitwisselbaarheid vaak niet globaal geldig, maar slechts binnen specifieke subgroepen van interventies.

De uitdaging: Een interventie op gen $a$ beïnvloedt de verdeling van een doelwitgen $i$ alleen als $i$ een causale afstammeling (descendant) is van $a$ . Voor niet-afstammelingen blijft de verdeling ongewijzigd (uitwisselbaar met de controlegroep).
Selectieve kalibratie: Als men alleen kalibratievoorbeelden gebruikt waarbij het doelwitgen niet is beïnvloed door de interventie, kunnen veel nauwkeurigere (smallere) voorspellingsintervallen worden verkregen dan bij het gebruik van alle data.
Het kernprobleem: De causale structuur (welke genen zijn afstammelingen van welke interventies) is zelden bekend. Het volledig leren van de causale graaf is computationeel duur en foutgevoelig. Fouten in het identificeren van "veilige" kalibratie-interventies leiden tot verontreiniging (contamination) van de kalibratieset, wat de dekking van de voorspelling ondermijnt. De vraag is hoe men de onzekerheid kan kwantificeren en corrigeren wanneer deze causale kennis imperfect is.

Methodologie

De auteurs stellen een raamwerk voor dat drie componenten combineert: een robuustheidstheorema, een taakgedreven leerformulering en specifieke algoritmen voor het schatten van de causale structuur.

1. $\delta$ -Robuustheidstheorema (Theorem 1)

De auteurs leiden een eindige-steekproef ondergrens af voor de dekking van selectieve conformale voorspelling wanneer de kalibratieset verontreinigd is met een fractie $\delta$ van verkeerd geclassificeerde interventies (interventies die het doelwit wel beïnvloeden, maar als "veilig" worden beschouwd).

De dekking wordt begrensd door: $P(\text{dekking}) \geq 1 - \alpha - g(\delta, n)$ .
Waarbij $g(\delta, n) = \frac{\delta n}{(1-\delta)n + 1}$ .
Conclusie: Zelfs met onvolmaakte causale kennis blijft de dekking gegarandeerd, mits men de nominale foutmarge $\alpha$ corrigeert met de term $g(\delta, n)$ . Als $\delta$ klein is, is de kosten van de correctie minimaal.

2. Taakgedreven Partial Causal Learning

In plaats van de volledige causale graaf te leren (wat $O(p^2)$ parameters vereist), formuleren de auteurs het probleem als het schatten van binaire labels $Z_{a,i} = \mathbb{1}\{i \in \text{desc}(a)\}$ .

Focus: Alleen het bepalen of een specifieke interventie $a$ een doelwit $i$ beïnvloedt.
Foutkosten: De False Positive Rate (FPR) is kritiek. Het is beter om een interventie ten onrechte als "beïnvloedend" te classificeren (wat de kalibratieset verkleint) dan ten onrechte als "veilig" (wat de dekking schendt).

3. Algoritmen voor Afstammeling-ontdekking

Twee complementaire algoritmen worden voorgesteld:

Algorithm 1: Afstammeling-ontdekking via intersectiepatronen.
- Gebruikt sets van "differently affected variables" (bijv. differentieel tot expressie gekomen genen, DEG) voor elke interventie.
- Logica: Als interventie $b$ stroomopwaarts is van $a$ ( $a \in \text{desc}(b)$ ), dan moet elke afstammeling van $a$ ook een afstammeling zijn van $b$ .
- De geschatte afstammelingen van $a$ worden geschat door de intersectie te nemen van de set van $a$ met de sets van alle geïdentificeerde stroomopwaartse interventies. Dit reduceert vals-positieven.
Algorithm 2: Lokale ICP voor afstandsschatting.
- Past Invariant Causal Prediction (ICP) lokaal toe om een afstandsschatting $\hat{d}(a, i)$ te maken zonder de volledige graaf te reconstrueren. Dit kan worden gebruikt voor gewogen kalibratie.

Belangrijkste Bijdragen

Theoretische Ondergrens: Een expliciete, distributie-vrije ondergrens voor de dekking onder verontreiniging, die de relatie kwantificeert tussen de fout in het leren van de causale structuur en de statistische validiteit.
Correctiemethode: Een procedure om de nominale dekking $\alpha$ aan te passen naar $\alpha' = \alpha - g(\hat{\delta}, n)$ om de gewenste dekking te garanderen, zelfs bij onzekerheid over de causale structuur.
Efficiënte Algoritmen: Methoden die specifiek zijn ontworpen voor hoge dimensies en interventie-gegevens, die alleen de nodige partiële structuur leren in plaats van de volledige graaf.
Empirische Validatie: Bewijs dat de theorie werkt op zowel synthetische data als echte biologische datasets.

Resultaten

Synthetische Experimenten (Linear SEMs)

Setup: Simulaties met $p=200$ genen en 150 interventies.
Gevonden:
- Zonder correctie degradeert de dekking monotoon naarmate de verontreiniging $\delta$ toeneemt (van 0.905 bij $\delta=0$ naar 0.867 bij $\delta=0.30$ ).
- De gecorrigeerde procedure (met $\alpha'$ -correctie) behoudt een dekking van $\geq 0.95$ over alle niveaus van verontreiniging, ten koste van iets bredere intervallen (1.2x - 1.8x).
- De geschatte verontreiniging door het leeralgoritme was zeer laag ( $\hat{\delta} \approx 0.018$ ) in de synthetische setting.

Real-Data Experiment (Replogle K562 CRISPRi)

Setup: Toepassing op een genome-wide CRISPRi-perturbatiescreen met ~5000 genen.
Gevonden:
- De gecorrigeerde methode was de enige die de nominale dekking van 0.9 overschreed (0.906), terwijl andere methoden (zoals de "Oracle" proxy) onder de 0.9 bleven (0.864) door schendingen van de uitwisselbaarheidsaanname in de echte data (bijv. indirecte effecten).
- Beperking: Vanwege de strenge correctie en een relatief kleine kalibratieset ( $n \approx 40$ ), was de methode alleen "haalbaar" (leefde een eindige kwantiel) voor 60% van de evaluaties; de rest resulteerde in oneindige intervallen. Dit benadrukt de noodzaak van grotere kalibratiesets in de praktijk.

Significantie

Dit werk is significant omdat het de kloof overbrugt tussen causale inferentie en onzekerheidskwantificering in interventie-omgevingen.

Het toont aan dat men niet de perfecte causale graaf nodig heeft om valide selectieve voorspellingen te doen; men heeft alleen een procedure nodig die de verontreiniging ( $\delta$ ) onder controle houdt.
Het biedt een praktische, theoretisch onderbouwde manier om om te gaan met de onzekerheid die inherent is aan het leren van causale structuren uit data.
Voor toepassingen zoals genetica en geneesmiddelenontwikkeling betekent dit dat onderzoekers betrouwbaardere en nauwkeurigere voorspellingen kunnen doen over de effecten van nieuwe genetische manipulaties, zelfs wanneer het onderliggende netwerk niet volledig bekend is.