Causal generalized linear models via Pearson risk invariance

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Détective des Causes : Trouver la Vérité sans Multiplier les Expériences

Imaginez que vous êtes un détective. Votre but n'est pas seulement de prédire ce qui va se passer, mais de comprendre pourquoi cela se passe. C'est la différence entre dire "Il va pleuvoir" (prédiction) et dire "C'est parce que les nuages sont noirs et lourds" (causalité).

Dans le monde de la science des données, trouver ces "pourquoi" est très difficile. Souvent, les chercheurs ont besoin de voir le même phénomène se produire dans différents environnements (par exemple, dans différentes villes, à différentes époques, ou sous différents climats) pour distinguer la vraie cause d'une simple coïncidence. C'est comme essayer de comprendre comment fonctionne un moteur en le regardant tourner dans la neige, puis dans le désert, puis sous la pluie.

Le problème ? Souvent, on n'a qu'un seul jeu de données. On a une photo, pas un film. Et les méthodes existantes pour trouver les causes réelles échouent souvent sans plusieurs "photos" différentes.

💡 La Nouvelle Solution : Le "Test de la Perfection"

Les auteurs de cet article (Alice, Veronica et Ernst) ont inventé une nouvelle méthode pour trouver les causes réelles, même avec une seule photo (un seul jeu de données). Ils s'attaquent à un problème spécifique : les modèles statistiques qui ne sont pas de simples lignes droites (comme la régression linéaire), mais des formes plus complexes (comme la régression logistique ou de Poisson).

Voici comment leur méthode fonctionne, avec une analogie culinaire :

1. Le Chef et les Ingrédients (Le Modèle)

Imaginez que vous essayez de reproduire le goût parfait d'un plat (la variable cible, disons "la réussite d'une entreprise"). Vous avez une liste d'ingrédients (les variables : éducation, âge, météo, etc.).

La plupart des méthodes disent : "Choisis les ingrédients qui donnent le meilleur goût ici et maintenant."
Le problème : Si vous changez légèrement la recette (par exemple, si vous ajoutez un peu de sel par hasard), le goût change radicalement. Ce n'est pas une cause stable.

2. La Règle d'Or : L'Invariance de Pearson

Les auteurs disent : "Attendez ! La vraie recette (la vraie cause) a une propriété magique."
Si vous utilisez les vrais ingrédients, la "perfection" de votre plat reste stable, peu importe comment vous mélangez les autres éléments autour.

Ils utilisent une mesure appelée "Risque de Pearson".

L'analogie : Imaginez que vous lancez des fléchettes sur une cible.
- Si vous utilisez les mauvais ingrédients (des corrélations fausses), vos fléchettes vont s'éparpiller de manière bizarre quand on change légèrement les conditions.
- Si vous utilisez les vrais ingrédients (les causes réelles), la dispersion de vos fléchettes reste parfaitement constante, comme si la cible était magnétique. Peu importe où vous vous placez, l'écart moyen entre vos fléchettes et le centre reste le même.

C'est ce qu'ils appellent l'invariance. La vraie cause est la seule qui garde cette "perfection statistique" stable.

🚀 Comment ça marche en pratique ?

Leur méthode suit deux étapes simples, comme un jeu de devinettes :

Le Test de la Perfection : Ils testent toutes les combinaisons possibles d'ingrédients. Pour chaque combinaison, ils vérifient : "Est-ce que la dispersion de mes erreurs (mes fléchettes) est exactement ce qu'elle devrait être théoriquement ?"
- Si oui, c'est un candidat sérieux !
- Si non, c'est faux.
Le Choix du Plus Simple (BIC) : Souvent, plusieurs combinaisons peuvent sembler "parfaites" (par exemple, ajouter un ingrédient inutile qui ne change rien). Ils utilisent une règle simple : "Choisis la recette avec le moins d'ingrédients possibles." C'est le principe du rasoir d'Ockham : la solution la plus simple est souvent la bonne.

🌟 Pourquoi c'est révolutionnaire ?

Avant, pour trouver ces causes, il fallait plusieurs environnements (des données de différents pays, par exemple).

Avant : "Je ne peux pas savoir ce qui cause le cancer du poumon car je n'ai pas de données de 10 pays différents."
Maintenant : "Je peux le savoir avec les données d'un seul pays, à condition que le phénomène suive certaines règles mathématiques (comme la régression logistique ou de Poisson)."

C'est comme si vous pouviez comprendre comment fonctionne un moteur en regardant une seule voiture rouler, au lieu d'avoir besoin de voir 10 voitures rouler sur 10 routes différentes.

📊 Les Exemples Concrets du Papier

Les auteurs ont testé leur méthode sur deux cas réels :

La Fertilité des Femmes : Ils ont analysé des données américaines pour trouver ce qui cause vraiment le nombre d'enfants.
- Résultat : Ils ont trouvé que l'âge, le niveau d'éducation et l'année de naissance sont les vraies causes. Ils ont même vu que l'effet de l'éducation n'est pas une ligne droite : plus on a d'éducation, plus le nombre d'enfants chute, mais de manière courbe (comme une pente raide).
Les Revenus Élevés : Ils ont cherché ce qui fait qu'une personne gagne plus de 50 000 $ par an.
- Résultat : L'âge, le niveau d'éducation, le statut marital et le type de métier sont les causes. Ils ont vu que le mariage augmente drastiquement les chances d'être riche (un effet de "multiplicateur"), et que les métiers de bureau ou de vente sont plus propices aux hauts revenus.

🎯 En Résumé

Cette recherche propose un nouveau détective statistique capable de distinguer la cause réelle de la simple coïncidence, même avec très peu de données.

L'outil : Il utilise une règle mathématique appelée "Risque de Pearson" qui agit comme un test de stabilité.
L'avantage : Il fonctionne avec une seule source de données, ce qui est une énorme économie de temps et d'effort.
L'impact : Cela permet de mieux comprendre le monde (santé, économie, société) sans avoir besoin de mener des expériences impossibles ou coûteuses.

C'est une avancée majeure pour rendre l'intelligence artificielle plus "intelligente" et capable de comprendre le monde réel, pas juste de prédire des chiffres.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'inférence causale vise à identifier les relations de cause à effet entre des variables, au-delà de la simple prédiction statistique. Une approche majeure, l'inférence causale invariante (Invariance Causal Prediction - ICP), repose sur le principe que la distribution conditionnelle d'une variable cible $Y$ étant donné ses causes directes (parents) reste stable (invariante) sous des perturbations de l'environnement (interventions sur d'autres variables).

Cependant, les méthodes existantes (comme l'ICP de Peters et al., 2016) présentent deux limitations majeures :

Hypothèses restrictives : Elles sont principalement conçues pour des modèles linéaires avec des erreurs gaussiennes.
Besoin de données multi-environnements : Elles nécessitent des données provenant de plusieurs environnements suffisamment différents pour détecter l'invariance. Or, dans de nombreuses applications (observatoires, études sociales), une seule base de données est disponible.

L'objectif de cet article est de proposer une méthode de découverte causale pour des variables de réponse générales (modélisées par des modèles linéaires généralisés - GLM) qui, dans certains cas importants, permet d'identifier le modèle causal à partir d'un seul environnement (un seul jeu de données).

2. Méthodologie

Les auteurs proposent une approche basée sur un modèle d'équations structurelles où la variable cible $Y$ , conditionnellement à ses parents causaux $X_{PA}$ , suit une loi de la famille exponentielle de dispersion (Exponential Dispersion Family - EDF).

2.1. Caractérisation du Modèle Causal

Le cœur de la méthode repose sur la caractérisation unique du modèle causal par deux propriétés théoriques (Théorème 2) :

Maximisation de la vraisemblance : Le vrai modèle causal $f_{PA}$ maximise l'espérance de la vraisemblance de $Y$ étant donné ses parents.
Invariance du risque de Pearson : Sous le modèle causal, le risque de Pearson (l'espérance du carré des résidus de Pearson normalisés par la variance conditionnelle) est égal au paramètre de dispersion $a(\phi)$ , et ce, quelle que soit la distribution des covariables $X$ (y compris sous intervention).

Mathématiquement, pour un modèle causal $f_{PA}$ :
$E_{X,Y} \left[ \frac{(Y - \dot{b}(f_{PA}(X)))^2}{\ddot{b}(f_{PA}(X))} \right] = a(\phi)$
où $\dot{b}$ et $\ddot{b}$ sont les dérivées première et seconde de la fonction génératrice de cumulants, et $a(\phi)$ est le paramètre de dispersion.

Point clé : Contrairement aux méthodes linéaires gaussiennes qui nécessitent plusieurs environnements pour vérifier l'invariance, si le paramètre de dispersion $a(\phi)$ est connu (cas des régressions Poisson et Logistique où $a(\phi)=1$ ), le modèle causal est identifiable à partir d'un seul environnement. Le vrai modèle causal est le seul (à un ensemble de mesure nulle près) qui satisfait simultanément la maximisation de la vraisemblance et l'égalité du risque de Pearson à $a(\phi)$ .

2.2. Algorithmes de Recherche

Pour identifier les parents causaux parmi un ensemble de $p$ variables, les auteurs proposent deux algorithmes :

Algorithme Exhaustif (Algorithme 2) :
1. Pour chaque sous-ensemble de variables candidats $X_S$ , estimer les paramètres par vraisemblance pénalisée.
2. Tester l'hypothèse nulle $H_0$ $H_{0}$ : le risque de Pearson empirique est égal à $a(\phi)$ $a (ϕ)$ .
  - Pour la régression Poisson, la statistique suit asymptotiquement une loi $\chi^2$ .
  - Pour d'autres cas, un test de bootstrap est utilisé.
3. Sélectionner parmi les modèles non rejetés celui qui minimise le Critère d'Information Bayésien (BIC) pour éviter la sur-paramétrisation (sélection des variables d-separées).
Algorithme Pas à Pas (Stepwise - Algorithme 3) :
Pour les systèmes à grand nombre de variables ($2^p$ modèles est prohibitif), une recherche gloutonne est proposée :
1. Phase d'ajout : Ajouter itérativement la variable qui améliore le plus le test d'invariance tant que le modèle reste "parfaitement dispersé".
2. Phase de suppression : Retirer itérativement les variables superflues en minimisant le BIC.

3. Résultats Principaux

Les auteurs valident leur méthode via des simulations et des études de cas réels.

3.1. Études de Simulation

Régression Poisson (Données de comptage) : Sur des données simulées avec des relations non linéaires (ex: $f(x) = \sin(5x_2) + x_3^3$ ), la méthode identifie correctement les parents causaux dans 91% des cas (pour $n=1000$ ), surpassant largement l'algorithme PC (qui nécessite des hypothèses de normalité et échoue souvent sur les variables de comptage).
Régression Logistique (Données binaires) : La méthode maintient une haute précision de détection avec des tailles d'échantillon croissantes. L'approche pas à pas offre un gain de temps de calcul significatif (environ 5x plus rapide) avec une perte de précision minime.
Comparaison avec la prédiction : Les simulations montrent que le modèle maximisant la vraisemblance sur les données observées n'est pas nécessairement le modèle causal (il peut inclure des enfants de la cible), tandis que le modèle causal est celui qui satisfait l'invariance du risque de Pearson.

3.2. Applications Empiriques

Expérience "Causal Chambers" (Lumière) : Validation sur des données physiques contrôlées. La méthode retrouve partiellement les parents causaux (couleurs de la lumière, intensité visible), bien que la non-linéarité réelle et la spécification du modèle aient introduit quelques biais.
Fertilité des femmes (GSS) : Identification des déterminants causaux du nombre d'enfants. La méthode détecte des effets non linéaires (ex: l'âge et les années d'études ont des effets non linéaires sur la fertilité) que les modèles linéaires classiques manqueraient. Elle confirme l'impact négatif de l'éducation sur la fertilité.
Revenus élevés (Census US) : Identification des facteurs causaux d'un revenu > 50k$. La méthode identifie l'âge, le niveau d'éducation, l'état civil et l'occupation comme déterminants causaux, avec des effets non linéaires clairs (ex: l'effet de l'âge sur le revenu est fort au début de carrière).

4. Contributions Clés

Extension aux GLM non linéaires : La méthode généralise l'inférence causale invariante aux modèles linéaires généralisés (Poisson, Logistique, etc.) avec des structures additives flexibles (splines), sans hypothèse de linéarité stricte.
Identification en environnement unique : C'est la contribution la plus novatrice. Pour les modèles avec un paramètre de dispersion connu (Poisson, Binomial), la méthode ne nécessite pas de données multi-environnements, contrairement aux méthodes ICP classiques.
Nouvelle propriété d'invariance : L'introduction du risque de Pearson invariant comme critère de sélection causale, qui tient compte de l'hétéroscédasticité inhérente aux modèles GLM (contrairement au risque quadratique gaussien).
Implémentation pratique : Le développement du package R causalreg rendant la méthode accessible, incluant des algorithmes efficaces pour les grands espaces de modèles.

5. Signification et Impact

Ce travail comble un vide important entre la théorie de la découverte causale et les applications pratiques en sciences sociales, épidémiologie et économie, où les données sont souvent de type comptage ou binaire et où les interventions expérimentales multiples sont impossibles.

En permettant d'identifier des relations causales robustes à partir d'une seule observation, tout en gérant des non-linéarités complexes, cette méthode offre un outil puissant pour :

Valider des politiques publiques (ex: impact de l'éducation sur la fertilité).
Améliorer la généralisation hors-distribution des modèles prédictifs.
Réduire la dépendance aux hypothèses de linéarité et de normalité souvent violées dans les données réelles.

L'article démontre que l'invariance causale peut être exploitée non seulement via la stabilité des coefficients entre environnements, mais aussi via la stabilité de la dispersion des résidus au sein d'un seul environnement, ouvrant ainsi de nouvelles voies pour l'analyse causale semi-paramétrique.