A Law of Iterated Expectation Primer for Causal Inference

Auteurs originaux : Ashley I. Naimi, Razieh Nabi, Lindsay J. Collin, Paul N. Zivich, Stephen R. Cole

Publié 2026-06-19

📖 7 min de lecture🧠 Analyse approfondie

Auteurs originaux : Ashley I. Naimi, Razieh Nabi, Lindsay J. Collin, Paul N. Zivich, Stephen R. Cole

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

La vue d'ensemble : Pourquoi en avons-nous besoin ?

Imaginez que vous vouliez savoir si un médicament spécifique (appelons-le « Tamoxifène ») prévient réellement la réapparition du cancer du sein. Dans un monde idéal, vous pourriez donner le médicament à un groupe de personnes et un placebo à un autre, puis comparer les résultats. C'est un essai randomisé.

Mais dans le monde réel, nous ne disposons souvent que de données observationnelles. Nous ne pouvons pas forcer les gens à prendre un médicament ; nous nous contentons d'observer ce qu'ils choisissent de faire. Le problème est que les personnes qui choisissent de prendre le médicament peuvent être différentes de celles qui ne le prennent pas (par exemple, elles peuvent être plus malades ou avoir une génétique différente). Ces différences sont appelées facteurs de confusion (confounders). Si nous ne tenons pas compte d'eux, nous pourrions attribuer au médicament quelque chose qui a en réalité été causé par l'état de santé sous-jacent du patient.

Cet article est un « primer » (un guide d'introduction) sur la façon de résoudre ce problème mathématique. Il explique un outil mathématique spécifique appelé la Loi de l'Espérance Itérée et montre comment elle aide à transformer des données réelles et désordonnées en une réponse claire sur la relation de cause à effet.

Le concept central : La « Loi de l'Espérance Itérée »

Considérez cette loi comme un moyen de calculer une moyenne pondérée.

Imaginez que vous êtes un directeur d'école essayant de trouver la note moyenne de toute l'école.

La méthode simple : Vous additionnez simplement les notes de chaque élève et divisez par le nombre total d'élèves. C'est l'« espérance marginale ».
La méthode « itérée » : Vous réalisez que l'école est divisée en différents niveaux (CP, CE1, etc.). Vous calculez la note moyenne des élèves de CP, puis la moyenne des élèves de CE1, et ainsi de suite. Ensuite, vous combinez ces moyennes par niveau, mais en les pondérant par le nombre d'élèves dans chaque niveau.

La Lée de l'Espérance Itérée dit simplement : Vous obtenez le même résultat final que vous fassiez la moyenne de tout le monde en une seule fois, ou que vous calculiez d'abord les moyennes par groupes pour ensuite combiner les groupes.

Dans l'article, les auteurs expliquent que cette identité mathématique est le moteur de la g-formule, un outil célèbre utilisé pour déterminer les effets causaux.

Deux façons de conduire la même voiture : NICE et ICE

L'article présente deux manières différentes d'utiliser ces mathématiques pour résoudre le problème causal. Elles sont mathématiquement identiques (elles donnent exactement la même réponse), mais elles analysent les données différemment. Les auteurs les appellent NICE et ICE.

1. NICE (Non-Iterative Conditional Expectation)

L'analogie : L'approche du « Livre de Recettes ».
Imaginez que vous vouliez connaître la taille moyenne de tous les habitants d'une ville, mais que vous n'ayez des données que sur les personnes portant des chapeaux rouges et des chapeurs bleus.

Comment fonctionne NICE : Vous regardez le groupe des « Chapeaux Rouges » et calculez leur taille moyenne. Vous regardez le groupe des « Chapeaux Bleus » et calculez leur taille moyenne. Ensuite, vous consultez le recensement de la ville pour voir quel pourcentage de la population porte des chapeaux rouges par rapport aux chapeaux bleus. Enfin, vous mélangez ces deux moyennes en utilisant les pourcentages du recensement comme poids.
Dans l'article : Les auteurs illustrent cela avec un exemple simple de Tamoxifène et de ganglions lymphatiques. Ils calculent le taux de récidive pour différents groupes, puis « injectent » les chiffres pour obtenir une moyenne pondérée finale.

2. ICE (Iterative Conditional Expectation)

L'analogie : L'approche de la « Machine à Prédiction ».
Imaginez que vous soyez un prévisionniste météo. Au lieu de simplement faire la moyenne des données passées, vous construisez un modèle qui prédit la météo pour chaque jour en fonction des conditions de ce jour-là.

Comment fonctionne ICE : Vous prenez vos données, vous les passez dans un modèle, et vous générez une « prédiction de résultat » pour chaque personne de votre ensemble de données (comme si elles avaient toutes pris le médicament). Ensuite, il vous suffit de faire la moyenne de toutes ces prédictions.
Dans l'article : Les auteurs montrent que vous pouvez faire cela en créant une liste de prédictions de type « et si » pour chaque personne, puis en faisant la moyenne de l'ensemble.

Le point clé à retenir : Que vous utilisiez le « Livre de Recettes » (NICE) ou la « Machine à Prédiction » (ICE), vous arrivez au même chiffre. L'article prouve que ces deux méthodes ne sont que deux façons différentes d'écrire la même phrase mathématique.

Quand cela devient complexe : Temps et éléments variables

L'article ne s'arrête pas aux exemples simples. Il montre comment cela fonctionne lorsque les choses se compliquent :

Plus de variables : Et si l'âge, le revenu, la race et le sexe étaient tous mélangés ? Le « Livre de Recettes » (NICE) devient très difficile à rédiger car il y a trop de combinaisons. La « Machine à Prédiction » (ICE) est beaucoup plus facile car vous laissez l'ordinateur gérer les calculs.
Facteurs de confusion variant dans le temps : C'est la partie la plus difficile. Imaginez un scénario où :
- Vous prenez un médicament au Temps 1.
- Ce médicament modifie votre santé (un facteur de confusion) au Temps 2.
- Ce nouvel état de santé influence la décision de prendre une seconde dose du médicament au Temps 2.
- Enfin, vous observez le résultat au Temps 3.
Dans ce scénario, les statistiques classiques échouent car le « facteur de confusion » (votre santé) a été modifié par le traitement lui-même. L'article montre que la g-formule (utilisant la Loi de l'Espérance Itée) est le seul moyen de démêler ce nœud. Elle y parvient en travaillant à rebours :
- D'abord, prédire le résultat final.
- Ensuite, remonter le temps pour prédire ce qui s'est passé au Temps 2.
- Puis, remonter au Temps 1.
- Enfin, faire la moyenne de tout cela.
L'article appelle cela la « récursion inversée ». C'est comme résoudre un labyrinthe en partant de la sortie pour remonter jusqu'à l'entrée.

Ce que les auteurs affirment réellement (et ce qu'ils n'affirment pas)

Ils AFFIRMENT que : La Loi de l'Espérance Itérée est le fondement mathématique qui nous permet de transformer « ce que nous avons observé » en « ce qui se serait passé » (effets causaux).
Ils AFFIRMENT que : Les méthodes NICE et ICE sont mathématiquement équivalentes. Elles représentent la même chose, simplement écrites différemment.
Ils AFFIRMENT que : Dans des situations simples (temps fixe), les deux méthodes sont faciles. Dans des situations complexes (temps variable), la méthode ICE (travailler à rebours) est souvent plus facile à coder et plus robuste face à certains types d'erreurs.
Ils N'AFFIRMENT PAS que : Cet article fournit de nouveaux résultats médicaux, de nouvelles directives cliniques ou des conseils spécifiques aux médecins sur la manière de traiter les patients. Il s'agit purement d'un guide sur les mathématiques et la logique de l'analyse des données.
Ils N'AFFIRMENT PAS qu'une méthode est « meilleure » que l'autre dans un sens général ; ce sont simplement des outils différents pour le même travail. Cependant, ils notent que si vos modèles mathématiques sont erronés, les deux méthodes peuvent donner de mauvaises réponses.

L'essentiel

Cet article est un traducteur. Il prend un concept mathématique très dense et intimidant (la Loi de l'Espérance Itérée) et explique comment il sert de pont entre les données brutes et la vérité causale. Il montre aux chercheurs que, qu'ils utilisent une approche de « moyenne pondérée » ou une approche de « prédiction étape par étape », ils utilisent la même logique fondamentale pour répondre à la question : « Que se serait-il passé si nous avions fait quelque chose de différent ? »

Résumé technique : Un guide d'introduction à la loi de l'espérance itérée pour l'inférence causale

Énoncé du problème
La formule g est un outil fondamental pour identifier les effets causaux à partir de données observationnelles, s'appuyant fortement sur la loi de l'espérance itérée (LIE). Cependant, la notation mathématique utilisée pour exprimer la LIE et la formule g — impliquant souvent l'intégration par rapport à des mesures de probabilité (par exemple, $\int \cdot dP(x)$ ) — peut être opaque pour les chercheurs ayant une formation limitée en statistiques mathématiques. Cette opacité crée une barrière à la compréhension des mécanismes des estimateurs causaux largement utilisés, tels que la g-computation paramétrique. De plus, il existe souvent une confusion concernant la relation entre l'identité statistique de la LIE et l'identification causale fournie par la formule g, ainsi que la distinction entre les deux formes non paramétriquement équivalentes de la formule g : l'espérance conditionnelle non itérative (NICE) et l'espérance conditionnelle itérative (ICE).

Méthodologie
Cet article sert de guide conçu pour combler le fossé entre les identités mathématiques abstraites et l'application pratique. Les auteurs emploient une approche pédagogique utilisant trois exemples numériques de complexité croissante pour illustrer l'application de la LIE et de la formule g :

Exemple à temps fixe (facteur de confusion binaire) : En utilisant des données sur l'utilisation du tamoxifène et la récurrence du cancer du sein, les auteurs démontrent la formule g avec un seul facteur de confusion binaire. Ils calculent explicitement la différence de risque causale en utilisant à la fois la forme NICE (une somme pondérée de moyennes conditionnelles) et la forme ICE (espérances imbriquées), montrant qu'elles produisent des résultats identiques.
Exemple à temps fixe (facteurs de confusion mixtes) : En utilisant les données NHANES pour estimer l'effet de l'arrêt du tabac sur le changement de poids, les auteurs abordent un scénario avec un vecteur multivarié de facteurs de confusion (continus, binaires et catégoriels). Ils contrastent la charge de calcul de la forme NICE (nécessitant une stratification et une pondération explicites) avec la simplicité de calcul de la forme ICE (moyennant des prédictions sur la distribution empirique).
Exemple à temps variable : À l'aide d'un ensemble de données simulées avec deux points dans le temps, les auteurs abordent des contextes où la régression standard échoue en raison de facteurs de confusion variant dans le temps affectés par une exposition antérieure. Ils démontent comment la LIE s'étend aux contexts séquentiels, dérivant la formule g pour les moyennes contrefactuelles. Ils détaillent la mise en œuvre de la forme NICE (nécessitant la modélisation de la distribution du facteur de confusion pour générer des poids) et de la forme ICE (utilisant la récursion vers l'arrière/régression séquentielle).

Tout au long de ces exemples, les auteurs s'appuient sur les hypothèses standard d'identification causale : la consistance causale, la positivité (et la positivité séquentielle) et l'échangeabilité conditionnelle (et l'échangeabilité conditionnelle séquentielle).

Contributions clés

Clarification de la notation : Le papier démystifie la notation d'intégration ( $\int \cdot dP(x)$ ) utilisée dans la LIE, l'expliquant comme une moyenne pondérée où les poids sont déterminés par la distribution de probabilité des covariables. Il distingue l'identité statistique de la LIE de la formule g causale, notant que cette dernière est dérivée en combinant la LIE avec des hypothèses d'identification causale qui permettent de remplacer les quantités contrefactuelles par des quantités de données observées.
Double formulation de la formule g : Les auteurs définissent et démontrent explicitement deux formes non paramétriquement équivalentes de la formule g :
- NICE (Non-Iterative Conditional Expectation) : Une moyenne pondérée unique de moyennes de résultats conditionnelles. Dans les contextes à temps variable, cela nécessite de modéliser la distribution des facteurs de confusion variables dans le temps pour générer les poids.
- ICE (Iterative Conditional Expectation) : Une séquence d'espérances imbriquées. Dans les contextes à temps variable, cela est mis en œuvre via une récursion vers l'arrière (g-computation), en régressant les résultats sur les covariables et les expositions à chaque étape temporelle en remontant vers l'arrière depuis la fin du suivi.
Équivalence computationnelle vs mathématique : Le papier clarifie que bien que NICE et ICE soient mathématiquement équivalents (représentant le même estimand causal), ils diffèrent sur le plan computationnel. Dans les contextes à temps variable, NICE nécessite la spécification correcte des modèles de distribution des facteurs de confusion, tandis que ICE n'en a pas besoin, rendant l'ICE robuste à la spécification erronée des modèles de facteurs de confusion (bien que les deux nécessitent des modèles de résultats corrects).

Résultats
À travers les exemples numériques, les auteurs démontent que :

Les deux formulations NICE et ICE produisent des estimations identiques des effets causaux dans les contextes à temps fixe (par exemple, $\hat{\psi} = -0,03$ dans l'exemple du tamoxifène et $\hat{\psi} = 3,1$ kg dans l'exemple de l'arrêt du tabac).
Dans les contextes à temps variable, l'approche ICE (via la récursion vers l'arrière) évite la nécessité de modéliser explicitement la distribution jointe des facteurs de confusion variables dans le temps, alors que l'approche NICE nécessite ces modèles pour construire les poids nécessaires.
L'approche ICE, implémentée comme une séquence de régressions, s'aligne naturellement sur la mécanique de la g-computation longitudinale et de l'estimation de la maximum de vraisemblance ciblée (TMLE).

Signification et affirmations
Les auteurs positionnent ce travail comme un « guide » destiné à construire l'intuition des chercheurs appliqués. Ils affirment qu'une compréhension ferme de la LIE et de ses deux formes rend les mécanismes des estimateurs causaux transparents. Le papier soutient que la compréhension de la LIE fournit un « pont conceptuel » reliant l'identification causale à l'estimation pratique.

Les auteurs déclarent modestement que bien que NICE et ICE soient deux implémentations computationnelles différentes qui peuvent produire des valeurs numériques différentes dans des échantillons finis ou sous une spécification erronée de modèle, elles sont des représentations non paramétriquement équivalentes du même fonctionnel de données observées. Le papier conclut que la familiarité avec la moyenne pondérée structurée et justifiée par des hypothèses des moyennes de résultats conditionnelles — que ce soit sous forme itérative ou non itérative — permet aux chercheurs de comprendre, de mettre en œuvre et d'évaluer de manière critique tout le spectre des méthodes g en inférence causale. Les auteurs ne proposent pas de nouveaux algorithmes ou d'applications futures au-delà de la portée de la clarification des méthodologies existantes.