Partial Causal Structure Learning for Valid Selective Conformal Inference under Interventions

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un chef cuisinier très exigeant. Votre travail consiste à prédire exactement combien de sel mettre dans une soupe pour qu'elle soit parfaite. Pour cela, vous avez un livre de recettes (votre modèle) et vous voulez savoir à quel point votre prédiction est fiable.

Normalement, pour vérifier votre livre, vous goûtez des soupes préparées dans des conditions identiques. C'est ce qu'on appelle la prédiction conforme : cela vous donne une fourchette de sécurité (par exemple, "ajoutez entre 1 et 2 cuillères de sel") avec une garantie mathématique que la vraie valeur sera dedans.

Mais voici le problème : dans la vraie vie, les conditions changent. Parfois, vous ajoutez du poivre, parfois vous changez le type de pot. Si vous mélangez toutes vos expériences (celles avec du poivre et celles sans) pour faire votre test, votre fourchette de sécurité devient énorme et inutile ("entre 0 et 10 cuillères !"). C'est trop large pour être utile.

Le Problème : Trouver les "Vrais Jumeaux"

L'idée brillante de cet article est la suivante : si vous ne testez que les soupes préparées dans des conditions très similaires à celle que vous voulez prédire, votre fourchette de sécurité devient beaucoup plus précise.

Dans le monde de la génétique (où cet article a été testé), c'est comme si vous vouliez savoir comment un gène réagit à un médicament.

Si le médicament touche le gène directement, la réaction est forte.
Si le médicament ne touche pas le gène, la réaction est normale (comme si rien ne s'était passé).

L'objectif est de ne comparer votre test qu'avec les médicaments qui ne touchent pas le gène. Cela permet de faire des prédictions beaucoup plus fines.

Le Défi : On ne connaît pas la carte du réseau

Le hic, c'est que nous ne connaissons pas la "carte routière" de ces gènes (qui influence qui). C'est comme essayer de deviner quels ingrédients sont liés sans avoir la recette complète.

Si vous essayez de reconstruire toute la carte du réseau génétique (toutes les relations possibles), c'est un cauchemar mathématique, très lent et plein d'erreurs. Et si vous vous trompez sur la carte, vous allez mélanger des soupes incompatibles dans votre test, ce qui fausse vos résultats.

La Solution Proposée : Une Approche "Ciblée" et "Robuste"

Les auteurs de cet article proposent une méthode en trois étapes, comme un détective malin :

1. La Théorie du "Filtre à Poussière" (Théorème de Robustesse)

Imaginez que vous avez un filtre pour trier vos soupes. Si vous mettez un peu de "mauvaise soupe" (des expériences qui ne devraient pas être là) dans votre filtre, votre résultat sera faussé.
Les chercheurs ont créé une formule magique qui dit : "Même si vous vous trompez et mettez 30% de mauvaises soupes dans votre filtre, vous pouvez toujours garantir que votre prédiction est correcte, à condition de l'élargir un tout petit peu."
C'est comme si le filtre avait un mécanisme de sécurité : il vous dit exactement de combien il faut élargir votre fourchette de sécurité pour compenser vos erreurs de tri.

2. L'Enquête "Ciblée" (Apprentissage Partiel)

Au lieu de essayer de dessiner toute la carte du réseau génétique (ce qui est trop dur), ils disent : "On s'en fiche de savoir tout. On veut juste savoir : 'Ce médicament A touche-t-il ce gène B ?' (Oui/Non)."
C'est beaucoup plus simple. C'est comme demander à un ami : "Est-ce que Paul a vu Marie ?" au lieu de lui demander de dessiner l'arbre généalogique complet de la ville. Ils utilisent des motifs d'intersection (si A touche C, et que B touche A, alors B touche probablement C) pour deviner ces liens sans tout reconstruire.

3. L'Expérience de Cuisine (Validation)

Ils ont testé leur méthode sur deux choses :

Des simulations informatiques : Ils ont créé de faux réseaux de gènes et ont volontairement ajouté des erreurs (de la "mauvaise soupe"). Résultat : leur méthode a maintenu une précision de 95% même avec beaucoup d'erreurs, alors que les méthodes classiques s'effondraient.
Des données réelles (CRISPR) : Ils l'ont appliqué sur de vraies données de laboratoire sur des cellules humaines. Là encore, leur méthode "corrigée" a été la seule à garantir une fiabilité suffisante, là où les autres méthodes échouaient.

En Résumé

Imaginez que vous voulez prédire le temps qu'il fera demain.

Méthode classique : Vous regardez les 100 dernières années de météo, peu importe la saison. Votre prévision sera large : "Il pleuvra ou il fera beau".
Méthode de l'article : Vous regardez seulement les jours de la même saison que demain. Votre prévision est précise : "Il pleuvra entre 10h et 14h".
Le problème : Vous ne savez pas exactement quels jours sont de la même saison.
La solution de l'article : Vous faites une estimation approximative de la saison. Même si vous vous trompez sur 30% des jours, vous avez une formule mathématique qui vous dit : "Ajoute 10 minutes de marge à ta prévision". Ainsi, même avec une carte imparfaite, vous restez sûr de votre coup.

C'est une façon intelligente de dire : "On n'a pas besoin d'être parfaits pour être sûrs. On a juste besoin de savoir combien on peut se tromper, et de s'adapter en conséquence."

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Le papier aborde le défi de l'inférence causale et de la quantification de l'incertitude dans des environnements interventionnels (par exemple, des expériences de perturbation génétique comme Perturb-seq).

Conformal Prediction (CP) Standard : La prédiction conforme offre des garanties de couverture marginales sans hypothèse de distribution, mais ces garanties peuvent être lâches (intervalles de prédiction larges) lorsque les données sont hétérogènes.
Le Potentiel de la CP Sélective : Si l'on peut identifier des sous-ensembles de données d'étalonnage qui sont échangeables avec l'exemple de test, la prédiction conforme sélective (ou Mondrian) permet d'obtenir des intervalles de prédiction beaucoup plus étroits.
Le Défi Causal : Dans les réseaux de régulation génique, l'échangeabilité n'est valable que pour les interventions qui n'affectent pas la variable cible (les non-descendants dans le graphe causal). Cependant, la structure causale complète (qui est le descendant de qui) est rarement connue.
Le Risque : Apprendre un graphe causal complet en haute dimension est coûteux et sujet à des erreurs. Si l'on sélectionne incorrectement des interventions « affectées » pour l'étalonnage d'une cible « non affectée », cela contamine l'ensemble d'étalonnage, brise l'échangeabilité et dégrade la couverture statistique (sous-estimation de l'incertitude).

L'objectif est de développer une méthode qui apprend uniquement la structure causale partielle nécessaire pour la calibration sélective, tout en quantifiant et en corrigeant les erreurs de classification.

2. Méthodologie

L'approche proposée se décompose en trois piliers principaux :

A. Théorème de Robustesse ( $\delta$ -Robustesse)

Les auteurs démontrent un théorème de couverture à échantillon fini (Théorème 1) qui quantifie l'impact d'une contamination de l'ensemble d'étalonnage.

Définition de la contamination ( $\delta$ ) : C'est la fraction d'interventions dans l'ensemble d'étalonnage sélectionné qui sont en réalité « affectées » (c'est-à-dire qu'elles ne sont pas échangeables avec le test).
Résultat clé : La couverture réelle est bornée inférieurement par $1 - \alpha - g(\delta, n)$ , où $n$ est la taille de l'ensemble d'étalonnage et $g(\delta, n) = \frac{\delta n}{(1-\delta)n + 1}$ .
Implication : Même avec une structure causale imparfaite, si le taux de contamination $\delta$ est faible, la couverture reste proche de la valeur nominale. De plus, cela permet de définir une correction conservative : en ajustant le niveau de confiance cible à $\alpha' = \alpha - g(\hat{\delta}, n)$ , on garantit une couverture de $1-\alpha$ .

B. Apprentissage Causal Partiel Orienté Tâche

Au lieu d'estimer le graphe causal complet $G$ , le problème est reformulé comme une tâche de classification binaire :

Pour chaque paire (intervention $a$ , cible $i$ ), estimer l'indicateur binaire $Z_{a,i} = \mathbb{1}\{i \in \text{desc}(a)\}$ .
L'objectif n'est pas de minimiser l'erreur globale, mais de contrôler spécifiquement le taux de faux positifs (FPR). Un faux positif (classer une intervention affectée comme non affectée) augmente directement $\delta$ et menace la validité de la couverture.
Cette approche réduit la complexité de l'estimation de $O(p^2)$ arêtes à l'estimation de labels binaires spécifiques.

C. Algorithmes de Découverte

Deux algorithmes sont proposés pour estimer les ensembles de descendants et la distance à l'intervention :

Découverte par Intersection de Modèles de Perturbation (Algorithm 1) :
- Utilise les ensembles de gènes différentiellement exprimés (DEG) $S_a$ pour chaque intervention.
- Identifie les interventions « amont » (upstream) d'une intervention $a$ (celles qui affectent $a$ ).
- Estime l'ensemble des descendants de $a$ par l'intersection de $S_a$ avec les ensembles $S_b$ des interventions amont. L'intuition est que les vrais descendants apparaissent de manière cohérente à travers les chaînes causales, tandis que les faux positifs sont éliminés par l'intersection.
ICP Local (Invariant Causal Prediction) :
- Une adaptation locale de l'ICP pour estimer une distance path-length $\hat{d}(a, i)$ sans reconstruire le graphe complet, permettant une calibration pondérée.

3. Résultats Expérimentaux

Les auteurs valident leur approche sur des données synthétiques et réelles :

Modèles Équationnels Structurels Linéaires (SEM) Synthétiques :
- Sur un graphe de 200 nœuds, la méthode « Estimée » (sans correction) montre une dégradation monotone de la couverture (de 0,905 à 0,867) lorsque la contamination injectée $\delta$ augmente de 0 à 0,30, confirmant la prédiction du Théorème 1.
- La méthode « Corrigée » (utilisant la correction $\alpha'$ ) maintient une couverture $\ge 0,95$ même avec une contamination élevée, au prix d'intervalles légèrement plus larges (1,2 à 1,8 fois plus grands).
Données Réelles (Replogle K562 CRISPRi) :
- Application sur des données de criblage génomique réelles.
- La méthode corrigée est la seule à dépasser la couverture nominale (0,906 vs 0,9), tandis que les méthodes non corrigées et l'oracle proxy tombent en dessous (0,864).
- Une limitation observée est que la correction stricte rend l'intervalle infini (non faisable) pour environ 40% des cas en raison de la petite taille de l'ensemble d'étalonnage disponible, soulignant le compromis entre validité stricte et faisabilité pratique.

4. Contributions Clés

Théorème de couverture robuste : Une borne inférieure explicite et distribution-free reliant l'erreur de structure causale ( $\delta$ ) à la perte de couverture, valable pour toute distribution de contamination.
Formulation orientée tâche : Un changement de paradigme passant de l'apprentissage de graphes complets à l'estimation de labels binaires de descendants, optimisée pour contrôler le taux de faux positifs.
Algorithmes scalables : Des méthodes basées sur l'intersection de sets de perturbations qui fonctionnent efficacement en haute dimension sans nécessiter la reconstruction complète du DAG.
Validation empirique : Preuve que la correction théorique fonctionne en pratique, maintenant la validité de l'inférence même avec des structures causales apprises imparfaitement.

5. Signification et Impact

Ce travail est significatif car il comble le fossé entre l'apprentissage causal et l'inférence statistique rigoureuse dans des contextes expérimentaux réels.

Pour la biologie computationnelle : Il permet d'utiliser la prédiction conforme pour prioriser les interventions génétiques avec une confiance statistique accrue, même sans connaître parfaitement le réseau de régulation.
Pour la théorie de l'apprentissage : Il démontre qu'il n'est pas nécessaire d'avoir un modèle causal parfait pour obtenir une inférence valide ; une estimation partielle, couplée à une correction de robustesse, suffit.
Robustesse : La méthode offre une voie pour gérer les violations d'échangeabilité inhérentes aux données biologiques complexes (effets hors cible, bruit technique) en quantifiant explicitement le coût de l'erreur de modélisation.

En résumé, le papier propose un cadre pratique et théoriquement fondé pour réaliser une inférence conforme sélective fiable dans des environnements interventionnels, en transformant le problème de l'apprentissage causal en un problème de contrôle de contamination gérable.

Partial Causal Structure Learning for Valid Selective Conformal Inference under Interventions

Le Problème : Trouver les "Vrais Jumeaux"

Le Défi : On ne connaît pas la carte du réseau

La Solution Proposée : Une Approche "Ciblée" et "Robuste"

1. La Théorie du "Filtre à Poussière" (Théorème de Robustesse)

2. L'Enquête "Ciblée" (Apprentissage Partiel)

3. L'Expérience de Cuisine (Validation)

En Résumé

1. Problématique et Contexte

2. Méthodologie

A. Théorème de Robustesse (δ\deltaδ-Robustesse)

B. Apprentissage Causal Partiel Orienté Tâche

C. Algorithmes de Découverte

3. Résultats Expérimentaux

4. Contributions Clés

5. Signification et Impact

Articles similaires

NS-RGS: Newton-Schulz based Riemannian gradient method for orthogonal group synchronization

Poisson-response Tensor-on-Tensor Regression and Applications

Virtual Dummies: Enabling Scalable FDR-Controlled Variable Selection via Sequential Sampling of Null Features

Eliciting core spatial association from spatial time series: a random matrix approach

Regularized estimation for highly multivariate spatial Gaussian random fields

A. Théorème de Robustesse ( $\delta$ -Robustesse)