Conformal e-prediction in the presence of confounding

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het paper "Conformal e-prediction in the presence of confounding" in eenvoudig, alledaags Nederlands, met behulp van creatieve analogieën.

De Kern: Het Voorspellen van de Toekomst in een Verwarde Wereld

Stel je voor dat je een waarzegger bent, maar dan niet met een kristallen bol, maar met wiskunde. Je wilt weten wat er gaat gebeuren als je een bepaalde knop omzet (bijvoorbeeld: "Wat gebeurt er met de gezondheid van een patiënt als we een nieuw medicijn geven?").

Het probleem is dat de wereld niet eerlijk is. Er zijn verwarrende factoren (confounders).

Voorbeeld: Stel je wilt weten of ijsjes (X) leiden tot verbrande huid (Y). Je ziet een correlatie: mensen die veel ijsjes eten, hebben vaak verbrande huid.
De valkuil: Het is niet het ijsje dat de huid verbrandt. Het is de zon (Z). De zon zorgt ervoor dat mensen ijsjes eten én dat ze verbranden. Als je gewoon kijkt naar de data, denk je dat ijsjes gevaarlijk zijn, terwijl dat niet zo is.

In dit paper maken de auteurs (Vovk en Wang) een nieuwe manier om voorspellingen te doen, zelfs als er zo'n "zon" (verwarrende factor) is. Ze noemen dit Conformal e-prediction.

1. De "Verstopte" Waarheid (De Mutilated Causal Model)

Stel je voor dat je een film hebt van de echte wereld (observatie). In deze film zien we mensen die ijsjes eten en verbranden. Maar jij wilt weten wat er gebeurt in een alternatieve realiteit, waarin je iedereen forced om een ijsje te eten, ongeacht of de zon schijnt of niet.

In de echte wereld is de "zon" (Z) de reden dat mensen ijsjes eten. In jouw alternatieve wereld (de interventie) heb je de "draad" van de zon naar het ijsje doorgesneden. Je hebt de film "gemutiliseerd" (verminkt). Je wilt nu weten: als we alleen het ijsje veranderen, wat gebeurt er dan met de huid?

De auteurs zeggen: "We hebben geen toegang tot die alternatieve wereld, maar we hebben wel de oude film (data). Laten we een slimme schatting maken die de invloed van de zon eruit filtert."

2. De "Rekenmachine" (De Formule)

Hoe doen ze dit? Ze gebruiken een slimme rekenmethode die lijkt op het tellen van hoe vaak dingen gebeuren, maar dan met een veiligheidsnetje.

De Simpele Versie (IID): Stel je hebt een grote bak met data van de afgelopen zomer. Je telt: "Hoe vaak was het zonnig en heeft men ijsje gegeten?" en "Hoe vaak was het zonnig en heeft men ijsje gegeten en verbrand?"
De Slimme Truc: Ze gebruiken een formule die eruitziet als een gemiddelde, maar met een klein trucje: ze tellen er altijd een "1" bij op. Dit is alsof je zegt: "Ik weet dat mijn data niet perfect is, dus ik geef elke mogelijkheid een klein beetje krediet voordat ik begin."
Het Resultaat: Je krijgt een getal ( $F_y$ ) dat een schatting is van de kans op verbranding in die alternatieve wereld (zonder de invloed van de zon op het ijsje).

3. Het "Waarschuwingslampje" (E-variabelen)

Dit is het meest creatieve deel. In plaats van te zeggen: "De kans is 80%", zeggen ze: "Hier is een waarschuwingslampje."

Stel je voor dat je een gokker bent. Je wilt weten of een bepaalde voorspelling (bijvoorbeeld: "De patiënt overlijdt") waar is of niet.

Je maakt een e-variabele. Dit is een soort "risico-meter".
Als de meter laag staat, is het veilig om te zeggen: "Dit is waarschijnlijk niet waar."
Als de meter hoog staat, moet je oppassen.

Het mooie van hun methode is dat ze garanties geven. Zelfs als je de data verkeerd interpreteert of als de wereld chaotisch is, garandeert hun wiskunde dat je niet te vaak fout zit.

De regel: Als je zegt "Ik ben 99% zeker dat de patiënt niet sterft", en je maakt een fout, dan mag dat maar heel zelden gebeuren. Hun methode zorgt ervoor dat de "frequentie van fouten" binnen de perken blijft, zelfs als je de data gebruikt om te gokken.

4. Wat als de Mensen niet Statisch zijn? (Geen Stabiele Mechanismen)

In het eerste deel gaan ze uit van een rustige wereld waar alles willekeurig gebeurt (zoals het gooien van dobbelstenen). Maar in de echte wereld kiezen mensen hun eigen acties.

Voorbeeld: Een dokter kiest niet willekeurig welk medicijn hij geeft; hij kiest op basis van hoe ziek de patiënt is.

In het tweede deel van het paper kijken ze naar deze "slimme" keuzes. Ze zeggen: "Oké, de dokter kiest het medicijn slim, maar laten we aannemen dat de reactie van de patiënt (de ziekte) nog steeds volgens vaste natuurwetten werkt."
Ze gebruiken een tijdlijn-analogie:

Stel je voor dat je een reeks van causaliteit hebt: Dag 1, Dag 2, Dag 3.
De keuze van de dokter op Dag 3 kan beïnvloed worden door alles wat er op Dag 1 en 2 is gebeurd.
Zelfs in deze complexe, chaotische situatie werkt hun methode nog steeds, zolang je maar kijkt naar de juiste "verwarrende factoren" (zoals de gezondheidsgeschiedenis) en die corrigeert.

Samenvatting in één zin

Dit paper geeft ons een wiskundig "bril" om door de verwarring van de echte wereld (waar dingen elkaar beïnvloeden) te kijken, zodat we betrouwbaar kunnen voorspellen wat er zou gebeuren als we een specifieke knop zouden omzetten (een interventie), zelfs als we nooit die specifieke situatie hebben meegemaakt.

De grote boodschap: Je kunt de toekomst voorspellen zonder de toekomst te hebben gezien, zolang je maar slim genoeg bent om de "verkeerslichten" (verwarrende factoren) te herkennen en je wiskundige "veiligheidsgordel" (conformal e-prediction) om te doen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Conformal e-prediction in the presence of confounding" van Vladimir Vovk en Ruodu Wang, weergegeven in het Nederlands.

Titel: Conformal e-prediction in de aanwezigheid van verwarding (confounding)

Auteurs: Vladimir Vovk en Ruodu Wang
Datum: 13 maart 2026 (Working Paper 46)

1. Probleemstelling

Het paper adresseert een fundamentele beperking in de huidige toepassing van conformele voorspelling (conformal prediction). Traditionele conformele voorspelling is strikt beperkt tot onafhankelijke en identiek verdeelde (IID) observaties. In het domein van causale inferentie echter, wil men vaak voorspellingen doen over de uitkomst van interventies (bijvoorbeeld: wat gebeurt er met $Y$ als we $X$ op een specifieke waarde $x$ zetten?), terwijl de beschikbare data afkomstig is van observationele studies.

De kernuitdaging is de aanwezigheid van verwarding (confounding). Er bestaat een gemeenschappelijke oorzaak $Z$ die zowel de behandeling $X$ als de uitkomst $Y$ beïnvloedt (zoals weergegeven in Figuur 1 van het paper). Het doel is om een voorspellingsgebied (prediction region) te genereren voor $Y$ onder de hypothetische interventie $do(X=x)$ , gebruikmakend van observationele data $(X, Y, Z)$ , met gegarandeerde geldigheid in eindige steekproeven (finite-sample guarantees).

2. Methodologie

De auteurs passen conformal e-prediction toe, een methode die werkt met e-variabelen (e-variables) in plaats van de traditionele p-waarden. Een e-variabele is een niet-negatieve random variabele met een verwachtingswaarde van maximaal 1 onder de nulhypothese.

De methode wordt in twee settings geanalyseerd:

A. De IID-setting (Standaard geval)

Aannames: De data $(X_n, Y_n, Z_n)$ voor $n \in [N]$ wordt gegenereerd door een gezamenlijke kansverdeling $P$ .
Doel: Schatten van de kans $p_y = P(Y=y \mid do(X=x))$ . Dit is de kans op $Y=y$ in het "gemutilleerde" causale model waarbij de pijl van $Z$ naar $X$ is verwijderd en $X$ is vastgezet op $x$ .
Schatter: De auteurs definiëren een schatter $F_y$ voor $p_y$ die een vorm van Laplace-glating (add-one smoothing) toepast om nul-tellingen te voorkomen:
$F_y := \sum_{z \in Z} \frac{|\{n : Z_n = z\}| + 1}{N + 1} \times \frac{|\{n : (X_n, Y_n, Z_n) = (x, y, z)\}| + 1}{|\{n : (X_n, Z_n) = (x, z)\}| + 1}$
E-variabele Constructie: Voor een nieuwe observatie $Y_{N+1}$ en een alternatieve kansverdeling $Q$ op $Y$ , wordt de e-variabele gedefinieerd als:
$E := \frac{Q(\{Y_{N+1}\})}{F_{Y_{N+1}}}$
Het paper bewijst dat $\mathbb{E}[E] \leq 1$ .

B. Setting zonder stabiele stochastische mechanisme voor X

Context: In veel causale scenario's is de keuze van $X$ niet het resultaat van een stabiel stochastisch proces, maar kan deze worden bepaald door een strategie die afhankelijk is van de geschiedenis (zoals in adaptieve experimenten).
Aannames: $Z_n$ en $Y_n$ worden nog steeds gegenereerd door stabiele mechanismen, maar $X_n$ kan worden gekozen op basis van eerdere observaties (de "Y-obliviouse" interpretatie, waarbij de keuze van $X_{n+1}$ afhankelijk is van eerdere $X_i$ en $Z_i$ , maar niet van eerdere $Y_i$ ).
Resultaat: De auteurs tonen aan dat Lemma 1 (de ongelijkheid voor de verwachting) ook geldt onder deze complexere, afhankelijke setting.

3. Belangrijkste Resultaten en Bijdragen

Uitbreiding van Conformal e-prediction: Het paper breidt de theorie van conformal e-prediction uit naar causale inferentie met verwarding. Dit biedt een wiskundig onderbouwde manier om causale effecten te voorspellen met gegarandeerde geldigheid.
Geldigheidsgarantie (Validity):
- De constructie garandeert dat voor elke alternatieve verdeling $Q$ , de variabele $E$ een e-variabele is.
- Dit leidt tot e-voorspellingsgebieden $\Gamma_\alpha = \{y \in Y : Q(\{y\}) / F_y < \alpha\}$ .
- De geldigheid wordt uitgedrukt door de ongelijkheid: $\int_0^\infty P(Y \notin \Gamma_\alpha) d\alpha \leq 1$ .
- Dit impliceert dat de kans op een fout bij een significantieniveau $\alpha$ niet groter is dan $1/\alpha$ (via de ongelijkheid van Markov).
Robuustheid tegen afhankelijke data: In Sectie 3 wordt bewezen dat de methode robuust blijft zelfs als de verdeling van $X$ niet IID is, zolang de strategie voor het kiezen van $X$ niet afhankelijk is van de toekomstige uitkomsten $Y$ (de Y-obliviouse interpretatie).
Praktische toepasbaarheid: De methode is eenvoudig te implementeren en vereist geen complexe modellen, zolang de verdelingen van $X, Y, Z$ discreet zijn (of benaderbaar).

4. Significatie en Toekomstperspectief

Causale Inferentie zonder Modelafhankelijkheid: Traditionele methoden voor causale inferentie vereisen vaak sterke aannames over het onderliggende model of grote steekproeven voor asymptotische eigenschappen. Deze methode biedt finite-sample garanties, wat cruciaal is voor toepassingen met beperkte data.
Veiligheid in Besluitvorming: De methode is bijzonder nuttig voor het uitsluiten van specifieke, kritieke uitkomsten (bijvoorbeeld "overlijden van een patiënt"). Als de geschatte kans $F_{y^*}$ laag is, kan men met hoge zekerheid voorspellen dat $Y \neq y^*$ , zelfs in de aanwezigheid van verwarding.
Verwantschap met Randomness Prediction: De auteurs merken op dat hun aanpak formeler dichter bij "randomness prediction" staat dan bij klassieke conformele voorspelling, wat de theoretische diepgang van de resultaten onderstreept.
Open Vragen: Het paper identificeert richtingen voor verder onderzoek, waaronder:
- Uitbreiding naar regressieproblemen (waarbij $Y$ reëel is).
- Optimalisatie van de regularisatieconstante in de schatter (de "+1" in de formule).
- Toepassing op complexere causale grafieken die verder gaan dan de back-door criterion.

Conclusie:
Dit paper levert een belangrijke theoretische bijdrage door conformal e-prediction te koppelen aan causale inferentie. Het biedt een wiskundig rigoureuze methode om voorspellingsintervallen te construeren voor interventies in de aanwezigheid van verwarding, met strikte geldigheidsbewijzen die gelden voor eindige steekproeven en zelfs onder bepaalde vormen van data-afhankelijkheid.