Conformal e-prediction in the presence of confounding

Each language version is independently generated for its own context, not a direct translation.

Imagine que vous êtes un médecin très prudent. Vous avez observé des milliers de patients dans le passé : leur âge, leur mode de vie, et si leur traitement a fonctionné ou non. Maintenant, vous devez prédire ce qui arrivera à un nouveau patient si vous lui donnez un traitement spécifique.

Le problème ? Dans la vraie vie, les choses sont compliquées. Parfois, ce n'est pas le traitement qui guérit, mais le fait que le patient mangeait déjà sainement (c'est ce qu'on appelle un facteur de confusion). Si vous ne faites pas attention, vous pourriez croire que le médicament est magique alors qu'il ne fait que suivre une bonne alimentation.

Ce papier, écrit par Vladimir Vovk et Ruodu Wang, propose une nouvelle méthode mathématique pour faire des prédictions sûres, même quand ces facteurs de confusion existent et que les données ne sont pas parfaitement "pures".

Voici l'explication de leur méthode, traduite en langage simple avec des analogies :

1. Le problème : La différence entre "Regarder" et "Agir"

En statistique classique, on suppose souvent que tout le monde est pareil et que les données arrivent au hasard (comme des cartes tirées d'un jeu bien mélangé). C'est ce qu'on appelle le modèle "IID".

Mais en médecine ou en économie, on veut souvent simuler une intervention. On veut dire : "Si je force ce patient à prendre le médicament X, que va-t-il se passer ?".
Le hic, c'est que dans nos observations passées, les gens n'ont pas pris le médicament au hasard ; ils l'ont choisi eux-mêmes ou ont été choisis par un médecin en fonction de leur état de santé (le facteur de confusion).

L'analogie du jardinier :
Imaginez que vous regardez un jardin. Vous voyez que les plantes qui ont reçu beaucoup d'eau sont plus grandes.

Observation : "L'eau fait grandir les plantes."
Intervention : "Si j'arrose cette plante précise, va-t-elle grandir ?"
Le problème, c'est que dans le jardin, les plantes qui ont reçu de l'eau étaient déjà dans un bon terreau (le facteur de confusion). Si vous arrosez une plante dans un mauvais terreau, l'eau seule ne suffira peut-être pas. La méthode de ce papier permet de corriger ce biais pour prédire le résultat de l'arrosage, même si les données passées étaient biaisées.

2. La solution : La "Boussole de la Vérité" (Conformal e-prediction)

Les auteurs utilisent une technique appelée prédiction conforme e. C'est un nom compliqué pour une idée simple : c'est un système d'alerte qui vous dit : "Attention, cette prédiction est très sûre" ou "Attention, il y a un risque".

Ils utilisent un outil mathématique appelé une "variable e".

L'analogie de la monnaie : Imaginez que vous jouez à un jeu contre la nature. Vous avez un billet de 1 euro. À chaque fois que vous faites une prédiction, vous pariez ce billet.
- Si votre prédiction est bonne, vous gardez votre billet (ou vous gagnez).
- Si votre prédiction est mauvaise, vous perdez le billet.
- La "variable e" est un indicateur qui vous dit : "Si vous continuez à parier comme ça, vous ne perdrez pas plus de votre argent à long terme."

Dans ce papier, ils montrent comment construire cette "boussole" même quand il y a des facteurs de confusion (comme le terreau du jardin).

3. Deux scénarios de prédiction

Les auteurs testent leur méthode dans deux situations :

Scénario A : Le monde calme (Données IID)

C'est le cas où les données passées sont un peu désordonnées mais globalement stables.

La méthode : Ils prennent leurs observations passées, nettoient mathématiquement le "bruit" causé par les facteurs de confusion, et calculent une probabilité pour chaque résultat possible.
Le résultat : Ils peuvent dire : "Je suis sûr à 99% que si on donne le traitement X, le patient ne mourra pas." Et ce n'est pas une simple intuition, c'est une garantie mathématique rigoureuse.

Scénario B : Le monde chaotique (Stratégie non stable)

C'est le cas le plus difficile. Imaginez que le jardinier (celui qui décide qui reçoit l'eau) change de stratégie à chaque fois, ou que le temps change de façon imprévisible. Les données ne sont plus "aléatoires" dans le sens classique.

Le défi : La méthode classique s'effondre ici.
L'astuce des auteurs : Ils utilisent une approche plus intelligente qui regarde l'historique complet (ce qui s'est passé avant) pour ajuster la prédiction. Ils montrent que même si le jardinier est capricieux, tant que les plantes réagissent de manière stable à l'eau, on peut encore faire des prédictions fiables.

4. Pourquoi c'est important ? (La "Zone de Sécurité")

Le but final de ce papier n'est pas de donner une seule réponse (ex: "Le patient va guérir"), mais de donner une zone de sécurité.

Imaginez que vous devez prédire la température de demain.

Une prédiction classique dirait : "Il fera 20°C". (Si c'est faux, vous avez tort).
La méthode de Vovk et Wang dit : "Je suis sûr à 95% que la température sera entre 18°C et 22°C."
Si la température sort de cette zone, leur système d'alerte (la variable e) vous dit : "Hé, quelque chose ne va pas, ma prédiction était trop confiante !".

En résumé

Ce papier est comme un guide de survie pour les prédictions dans un monde imparfait.

Il reconnaît que nos données passées sont souvent biaisées (à cause de facteurs cachés).
Il propose une méthode mathématique pour "nettoyer" ces biais et simuler ce qui se passerait si on intervenait.
Il garantit que même avec peu de données ou des données désordonnées, vous ne ferez pas d'erreur catastrophique sans que votre système d'alerte ne vous prévienne.

C'est une façon de dire aux médecins, aux économistes et aux ingénieurs : "Vous pouvez prendre des décisions basées sur des données imparfaites, tant que vous utilisez cette boussole spéciale pour vérifier que vous ne vous trompez pas trop."

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Conformal e-prediction in the presence of confounding » de Vladimir Vovk et Ruodu Wang, rédigé en français.

1. Problématique et Contexte

L'article aborde un défi fondamental à l'intersection de l'inférence causale et de la prédiction statistique.

Le problème : La prédiction conformale classique (et ses variantes) repose généralement sur l'hypothèse que les observations sont indépendantes et identiquement distribuées (IID) et proviennent d'un même mécanisme stochastique stable. Cependant, en inférence causale, l'objectif est souvent de prédire les résultats d'une intervention (par exemple, fixer une variable $X$ à une valeur $x$ ) sur un mécanisme générateur de données observé.
La difficulté : Dans les données observationnelles, la relation entre la variable d'intérêt $X$ et la variable de résultat $Y$ est souvent biaisée par des facteurs de confusion (notés $Z$ ). Le défi consiste à fournir des garanties de validité à échantillon fini pour prédire la distribution de $Y$ sous l'intervention $X := x$ , en présence de ces confusions, même lorsque la stratégie de sélection de $X$ dans les données observées n'est pas nécessairement IID (cas de dépendance ou de stratégies non triviales).

2. Méthodologie

Les auteurs proposent une extension de la prédiction e-conformale (conformal e-prediction) pour gérer ce scénario.

A. Cadre de base (Section 2 : Cas IID)

Dans le cadre standard où les données $(X_n, Y_n, Z_n)$ sont générées de manière IID selon une mesure de probabilité $P$ :

Estimation de la probabilité causale : Pour une intervention fixée $X := x$ , la probabilité causale $p_y = P(Y=y \mid do(X=x))$ est définie par la formule de standardisation (ou ajustement) :
$p_y = \sum_{z \in Z} P(Z=z)P(Y=y \mid X=x, Z=z)$
Estimateur régularisé : Les auteurs construisent un estimateur $\hat{F}_y$ de $p_y$ à partir d'un échantillon de taille $N$ . Cet estimateur utilise une régularisation de type Laplace (ajout de 1 au numérateur et au dénominateur) pour éviter les divisions par zéro et garantir des propriétés de martingale :
$\hat{F}_y := \sum_{z \in Z} \frac{|\{n : Z_n=z\}| + 1}{N + 1} \times \frac{|\{n : (X_n, Y_n, Z_n) = (x, y, z)\}| + 1}{|\{n : (X_n, Z_n) = (x, z)\}| + 1}$
Variable e (e-variable) : Ils démontrent que le rapport entre une mesure de probabilité arbitraire $Q$ sur $Y$ et l'estimateur $\hat{F}_Y$ forme une variable e. Plus précisément, si $Y_{N+1}$ est une nouvelle observation générée selon la distribution causale, alors :
$E = \frac{Q(\{Y_{N+1}\})}{\hat{F}_{Y_{N+1}}}$
est une variable e (non négative, d'espérance $\le 1$ ).

B. Cadre avec dépendance (Section 3 : Absence de mécanisme stable pour X)

L'article étend le résultat au cas où les variables $X_n$ ne sont pas générées par un mécanisme stochastique stable (par exemple, choisies par un adversaire ou selon une stratégie complexe), tandis que $Z_n$ et $Y_n$ restent stochastiques conditionnellement au passé.

Interprétation "Y-oblivious" : Les auteurs considèrent un scénario où le choix de $X_{n+1}$ peut dépendre de toutes les variables passées $X_i, Z_i$ (mais pas de $Y_i$ ).
Ils montrent que la propriété de validité de l'estimateur (Lemme 1) et la construction des régions de prédiction restent valables sous cette interprétation graphique (Figure 2).

3. Contributions Clés

Extension de la prédiction conformale : L'article généralise la prédiction conformale e-pour inclure explicitement la présence de facteurs de confusion ( $Z$ ) dans un cadre d'inférence causale.
Garanties à échantillon fini : Contrairement aux méthodes asymptotiques, les résultats offrent des garanties de validité strictes pour tout échantillon fini, sans hypothèses de régularité asymptotique.
Robustesse aux stratégies de sélection : La méthodologie fonctionne même lorsque les données d'observation ne sont pas IID en ce qui concerne la variable d'intérêt $X$ , ce qui est crucial pour les études observationnelles réelles où le traitement n'est pas aléatoire.
Construction de régions de prédiction : Définition de régions de prédiction $\Gamma_\alpha$ basées sur des seuils de variables e, permettant de rejeter des hypothèses spécifiques (ex: "le patient ne mourra pas") avec un contrôle rigoureux du risque d'erreur.

4. Résultats Principaux

Lemme 1 : Pour chaque $y$ , l'espérance de $p_y / \hat{F}_y$ est inférieure ou égale à 1 ( $E[p_y / \hat{F}_y] \le 1$ ). C'est la pierre angulaire qui garantit que l'estimateur est "conservateur" par rapport à la vraie probabilité causale.
Corollaire 2 : La variable $E = Q(\{Y_{N+1}\}) / \hat{F}_{Y_{N+1}}$ est une variable e. Cela implique que pour tout niveau de signification $\alpha$ , la région de prédiction définie par :
$\Gamma_\alpha := \left\{ y \in \mathcal{Y} : \frac{Q(\{y\})}{\hat{F}_y} < \alpha \right\}$
satisfait la propriété de validité forte : $\int_0^\infty P(Y \notin \Gamma_\alpha) d\alpha \le 1$ .
Interprétation causale : La région $\Gamma_\alpha$ fournit un ensemble de valeurs plausibles pour $Y$ sous l'intervention $X=x$ , en tenant compte de la confusion $Z$ .
Cas particuliers :
- Si $Q$ est uniforme, on obtient une région de prédiction symétrique.
- Si $Q$ est concentrée sur une valeur critique $y^*$ (ex: décès), on peut rejeter $y^*$ avec une confiance élevée si $\hat{F}_{y^*}$ est suffisamment petit.

5. Signification et Implications

Validité Causalité : Ce travail comble un vide théorique important en fournissant des outils de prédiction conformale directement applicables aux problèmes d'intervention causale, là où les méthodes standards échouent à cause de la confusion.
Flexibilité : La méthode s'adapte au critère de "back-door" de Pearl, permettant son application à des graphes causaux plus complexes que le triangle simple $X \to Y \leftarrow Z$ .
Sécurité statistique : L'utilisation des variables e (e-variables) offre une protection contre le sur-ajustement (overfitting) et permet une combinaison flexible de tests, ce qui est particulièrement utile dans les contextes de prise de décision critique (médicale, économique).
Limites et Perspectives : L'article note que l'approche suppose des variables discrètes (bien que l'extension à la régression soit naturelle). Il soulève également la question de l'optimalité des constantes de régularisation (le "+1" dans la formule) et suggère que des constantes plus petites pourraient améliorer la précision sans perdre la validité.

En résumé, cet article propose un cadre robuste pour transformer des données observationnelles confondues en prédictions causales fiables avec des garanties mathématiques rigoureuses, étendant ainsi l'utility de la prédiction conformale au domaine de la causalité.