A Law of Iterated Expectation Primer for Causal Inference

Cet article propose un guide clarifiant la relation entre la loi de l'espérance itérée et la formule g pour l'inférence causale, en présentant les formes non itératives et itératives de la formule et en illustrant leur application à travers des exemples numériques de complexité progressive.

Auteurs originaux : Ashley I. Naimi, Razieh Nabi, Lindsay J. Collin, Paul N. Zivich, Stephen R. Cole

Publié 2026-06-19
📖 7 min de lecture🧠 Analyse approfondie

Auteurs originaux : Ashley I. Naimi, Razieh Nabi, Lindsay J. Collin, Paul N. Zivich, Stephen R. Cole

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

La vue d'ensemble : Pourquoi en avons-nous besoin ?

Imaginez que vous vouliez savoir si un médicament spécifique (appelons-le « Tamoxifène ») prévient réellement la réapparition du cancer du sein. Dans un monde idéal, vous pourriez donner le médicament à un groupe de personnes et un placebo à un autre, puis comparer les résultats. C'est un essai randomisé.

Mais dans le monde réel, nous ne disposons souvent que de données observationnelles. Nous ne pouvons pas forcer les gens à prendre un médicament ; nous nous contentons d'observer ce qu'ils choisissent de faire. Le problème est que les personnes qui choisissent de prendre le médicament peuvent être différentes de celles qui ne le prennent pas (par exemple, elles peuvent être plus malades ou avoir une génétique différente). Ces différences sont appelées facteurs de confusion (confounders). Si nous ne tenons pas compte d'eux, nous pourrions attribuer au médicament quelque chose qui a en réalité été causé par l'état de santé sous-jacent du patient.

Cet article est un « primer » (un guide d'introduction) sur la façon de résoudre ce problème mathématique. Il explique un outil mathématique spécifique appelé la Loi de l'Espérance Itérée et montre comment elle aide à transformer des données réelles et désordonnées en une réponse claire sur la relation de cause à effet.

Le concept central : La « Loi de l'Espérance Itérée »

Considérez cette loi comme un moyen de calculer une moyenne pondérée.

Imaginez que vous êtes un directeur d'école essayant de trouver la note moyenne de toute l'école.

  • La méthode simple : Vous additionnez simplement les notes de chaque élève et divisez par le nombre total d'élèves. C'est l'« espérance marginale ».
  • La méthode « itérée » : Vous réalisez que l'école est divisée en différents niveaux (CP, CE1, etc.). Vous calculez la note moyenne des élèves de CP, puis la moyenne des élèves de CE1, et ainsi de suite. Ensuite, vous combinez ces moyennes par niveau, mais en les pondérant par le nombre d'élèves dans chaque niveau.

La Lée de l'Espérance Itérée dit simplement : Vous obtenez le même résultat final que vous fassiez la moyenne de tout le monde en une seule fois, ou que vous calculiez d'abord les moyennes par groupes pour ensuite combiner les groupes.

Dans l'article, les auteurs expliquent que cette identité mathématique est le moteur de la g-formule, un outil célèbre utilisé pour déterminer les effets causaux.

Deux façons de conduire la même voiture : NICE et ICE

L'article présente deux manières différentes d'utiliser ces mathématiques pour résoudre le problème causal. Elles sont mathématiquement identiques (elles donnent exactement la même réponse), mais elles analysent les données différemment. Les auteurs les appellent NICE et ICE.

1. NICE (Non-Iterative Conditional Expectation)

L'analogie : L'approche du « Livre de Recettes ».
Imaginez que vous vouliez connaître la taille moyenne de tous les habitants d'une ville, mais que vous n'ayez des données que sur les personnes portant des chapeaux rouges et des chapeurs bleus.

  • Comment fonctionne NICE : Vous regardez le groupe des « Chapeaux Rouges » et calculez leur taille moyenne. Vous regardez le groupe des « Chapeaux Bleus » et calculez leur taille moyenne. Ensuite, vous consultez le recensement de la ville pour voir quel pourcentage de la population porte des chapeaux rouges par rapport aux chapeaux bleus. Enfin, vous mélangez ces deux moyennes en utilisant les pourcentages du recensement comme poids.
  • Dans l'article : Les auteurs illustrent cela avec un exemple simple de Tamoxifène et de ganglions lymphatiques. Ils calculent le taux de récidive pour différents groupes, puis « injectent » les chiffres pour obtenir une moyenne pondérée finale.

2. ICE (Iterative Conditional Expectation)

L'analogie : L'approche de la « Machine à Prédiction ».
Imaginez que vous soyez un prévisionniste météo. Au lieu de simplement faire la moyenne des données passées, vous construisez un modèle qui prédit la météo pour chaque jour en fonction des conditions de ce jour-là.

  • Comment fonctionne ICE : Vous prenez vos données, vous les passez dans un modèle, et vous générez une « prédiction de résultat » pour chaque personne de votre ensemble de données (comme si elles avaient toutes pris le médicament). Ensuite, il vous suffit de faire la moyenne de toutes ces prédictions.
  • Dans l'article : Les auteurs montrent que vous pouvez faire cela en créant une liste de prédictions de type « et si » pour chaque personne, puis en faisant la moyenne de l'ensemble.

Le point clé à retenir : Que vous utilisiez le « Livre de Recettes » (NICE) ou la « Machine à Prédiction » (ICE), vous arrivez au même chiffre. L'article prouve que ces deux méthodes ne sont que deux façons différentes d'écrire la même phrase mathématique.

Quand cela devient complexe : Temps et éléments variables

L'article ne s'arrête pas aux exemples simples. Il montre comment cela fonctionne lorsque les choses se compliquent :

  1. Plus de variables : Et si l'âge, le revenu, la race et le sexe étaient tous mélangés ? Le « Livre de Recettes » (NICE) devient très difficile à rédiger car il y a trop de combinaisons. La « Machine à Prédiction » (ICE) est beaucoup plus facile car vous laissez l'ordinateur gérer les calculs.

  2. Facteurs de confusion variant dans le temps : C'est la partie la plus difficile. Imaginez un scénario où :

    • Vous prenez un médicament au Temps 1.
    • Ce médicament modifie votre santé (un facteur de confusion) au Temps 2.
    • Ce nouvel état de santé influence la décision de prendre une seconde dose du médicament au Temps 2.
    • Enfin, vous observez le résultat au Temps 3.

    Dans ce scénario, les statistiques classiques échouent car le « facteur de confusion » (votre santé) a été modifié par le traitement lui-même. L'article montre que la g-formule (utilisant la Loi de l'Espérance Itée) est le seul moyen de démêler ce nœud. Elle y parvient en travaillant à rebours :

    • D'abord, prédire le résultat final.
    • Ensuite, remonter le temps pour prédire ce qui s'est passé au Temps 2.
    • Puis, remonter au Temps 1.
    • Enfin, faire la moyenne de tout cela.

    L'article appelle cela la « récursion inversée ». C'est comme résoudre un labyrinthe en partant de la sortie pour remonter jusqu'à l'entrée.

Ce que les auteurs affirment réellement (et ce qu'ils n'affirment pas)

  • Ils AFFIRMENT que : La Loi de l'Espérance Itérée est le fondement mathématique qui nous permet de transformer « ce que nous avons observé » en « ce qui se serait passé » (effets causaux).
  • Ils AFFIRMENT que : Les méthodes NICE et ICE sont mathématiquement équivalentes. Elles représentent la même chose, simplement écrites différemment.
  • Ils AFFIRMENT que : Dans des situations simples (temps fixe), les deux méthodes sont faciles. Dans des situations complexes (temps variable), la méthode ICE (travailler à rebours) est souvent plus facile à coder et plus robuste face à certains types d'erreurs.
  • Ils N'AFFIRMENT PAS que : Cet article fournit de nouveaux résultats médicaux, de nouvelles directives cliniques ou des conseils spécifiques aux médecins sur la manière de traiter les patients. Il s'agit purement d'un guide sur les mathématiques et la logique de l'analyse des données.
  • Ils N'AFFIRMENT PAS qu'une méthode est « meilleure » que l'autre dans un sens général ; ce sont simplement des outils différents pour le même travail. Cependant, ils notent que si vos modèles mathématiques sont erronés, les deux méthodes peuvent donner de mauvaises réponses.

L'essentiel

Cet article est un traducteur. Il prend un concept mathématique très dense et intimidant (la Loi de l'Espérance Itérée) et explique comment il sert de pont entre les données brutes et la vérité causale. Il montre aux chercheurs que, qu'ils utilisent une approche de « moyenne pondérée » ou une approche de « prédiction étape par étape », ils utilisent la même logique fondamentale pour répondre à la question : « Que se serait-il passé si nous avions fait quelque chose de différent ? »

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →