Prediction decomposition for causal analysis

✨

Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Each language version is independently generated for its own context, not a direct translation.

🎯 Le Problème : La Prédiction n'est pas la Causalité

Imaginez que vous êtes un agriculteur. Vous voulez savoir si un nouvel engrais (le traitement) augmente vraiment le rendement de vos champs.

Pour le savoir, vous avez deux options :

La méthode classique : Mesurer le rendement réel de chaque champ. C'est précis, mais très cher et long.
La méthode "Machine Learning" (IA) : Vous prenez un petit échantillon de champs pour mesurer le vrai rendement, vous entraînez une IA avec ces données, et ensuite, l'IA devine le rendement de tous les autres champs en utilisant des photos satellites ou des données mobiles. C'est moins cher et plus rapide.

Le piège : L'IA peut être excellente pour prédire le rendement global (elle sait dire quel champ est naturellement plus fertile que l'autre), mais elle peut être totalement aveugle à l'effet de votre engrais.

L'analogie du voyageur :
Imaginez une IA qui prédit la vitesse d'une voiture. Elle apprend très bien que les voitures de luxe vont plus vite que les vieilles berlines (c'est la différence entre les voitures). Mais si vous changez la route (le traitement), l'IA pourrait continuer à prédire la même vitesse parce qu'elle se base uniquement sur le modèle de la voiture, pas sur la route. Elle rate l'effet de votre intervention !

🔍 La Solution : Découper la Prédiction en trois morceaux

L'auteur propose de ne pas regarder la prédiction de l'IA comme un bloc unique, mais de la décomposer en trois ingrédients différents :

L'Ingrédient "Identité" (Entre les unités) : C'est ce que l'IA apprend sur les différences fixes entre les gens ou les champs (ex: la richesse d'un quartier, la qualité du sol). C'est très facile à prédire, mais cela ne change jamais, même si vous donnez de l'argent ou de l'engrais.
L'Ingrédient "Dynamique" (Dans le temps) : C'est ce que l'IA apprend sur les changements naturels (ex: la météo, les habitudes qui changent d'une semaine à l'autre).
L'Ingrédient "Magique" (L'effet du traitement) : C'est la capacité de l'IA à prédire spécifiquement ce que votre intervention va changer.

Le constat crucial : Souvent, les IA sont super fortes sur l'ingrédient 1 (Identité) mais nulles sur l'ingrédient 3 (Magie). Si vous choisissez votre IA uniquement parce qu'elle a un "score de précision" élevé, vous risquez de choisir celle qui est bonne pour l'ingrédient 1, mais qui échouera complètement à détecter votre effet causal.

🛠️ L'Outil Magique : La "Balance Temporelle"

Comment savoir si votre IA est capable de voir l'effet de votre intervention sans avoir à mesurer tout le monde ?

L'auteur propose une astuce intelligente qui nécessite des données sur deux moments différents (avant et après, ou deux périodes).

Imaginez que vous avez un petit groupe de contrôle (des gens qui n'ont pas reçu l'engrais).

Regardez comment leurs vrais rendements ont changé entre le temps 1 et le temps 2.
Regardez comment les prédictions de l'IA ont changé pour ces mêmes gens entre le temps 1 et le temps 2.

L'analogie du miroir :
Si l'IA est "aveugle" aux changements, elle dira : "Rien n'a changé !" (Prédiction stable) alors que la réalité a bougé (Météo, saison, etc.).
Si l'IA est "sensible", elle dira : "Ah, le rendement a bougé !" en suivant le mouvement réel.

L'auteur propose de mesurer la pente de cette relation.

Si la pente est proche de 1 : L'IA suit bien les changements naturels. C'est un bon signe ! Elle est probablement capable de voir aussi les changements causés par votre traitement.
Si la pente est proche de 0 : L'IA est figée. Elle ne voit que les différences fixes entre les gens. Fuyez ce modèle pour votre analyse causale !

💡 Pourquoi c'est génial ?

On ne se fie plus au "Score de Précision" : Un modèle peut avoir un score de 99% de précision (il devine bien qui est riche) mais un score de 0% pour détecter l'effet d'une politique. L'auteur nous dit : "Oubliez le score global, regardez la capacité à suivre les changements dans le temps."
On peut corriger le tir : Si l'IA voit bien les changements naturels mais un peu moins bien les changements "magiques" (le traitement), on peut utiliser cette mesure pour ajuster mathématiquement le résultat final et obtenir une estimation juste, même sans avoir mesuré tout le monde.

📝 En résumé pour le praticien

Si vous voulez utiliser l'IA pour étudier l'effet d'une politique (argent, santé, agriculture) :

Ne choisissez pas votre modèle d'IA uniquement parce qu'il prédit bien les valeurs absolues.
Assurez-vous d'avoir des données sur deux moments pour un petit échantillon.
Testez votre IA : Est-ce qu'elle réagit aux changements naturels dans le temps ?
Si oui, c'est un bon candidat pour votre analyse. Si non, même si elle est très "intelligente" par ailleurs, elle vous donnera de faux résultats sur l'efficacité de votre action.

C'est comme choisir un détective : vous ne voulez pas quelqu'un qui connaît très bien à quoi ressemble le quartier (prédiction statique), mais quelqu'un qui remarque quand quelque chose a changé dans le quartier (prédiction dynamique).

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'utilisation croissante des prédictions de modèles d'apprentissage automatique (ML) comme variables de résultat (outcomes) dans les analyses causales soulève un paradoxe critique. Bien que ces prédictions permettent d'augmenter la taille de l'échantillon et de réduire les coûts (par exemple, en utilisant des données de téléphonie mobile pour prédire la consommation ou des images satellitaires pour les rendements agricoles), elles échouent souvent à révéler les véritables effets de traitement.

Le problème central réside dans le fait que les modèles ML sont optimisés pour la précision prédictive globale (minimiser l'erreur quadratique moyenne), ce qui les incite à capturer les variations inter-unités (différences stables entre les individus, comme la richesse ou la localisation géographique). Or, l'inférence causale s'intéresse aux variations intra-unités (changements au sein d'un même individu sous l'effet d'un traitement). Un modèle peut donc prédire parfaitement le niveau de consommation d'un individu basé sur son quartier, mais échouer totalement à prédire l'impact d'une transfère d'argent sur cette même consommation, car le traitement ne modifie pas les caractéristiques stables du quartier.

La littérature actuelle manque d'outils pour diagnostiquer si un modèle ML, bien qu'accurat en prévision, est capable de restituer l'effet causal réel, en particulier lorsque les données d'étiquetage (ground truth) ne sont disponibles que pour un sous-échantillon.

2. Méthodologie et Cadre Théorique

L'auteur propose une décomposition structurelle de la prédiction ML en trois composantes distinctes pour un résultat $Y_{i,t}$ (où $i$ est l'unité et $t$ le temps) :

$\text{predictedOutcome}_{i,t} = \alpha + \eta_\mu \mu_i + \eta_T \gamma \text{Treat}_{i,t} + \eta_\epsilon \epsilon_{i,t} + \nu_{i,t}$

Où :

$\mu_i$ : Caractéristiques fixes de l'unité (variation inter-unités).
$\epsilon_{i,t}$ : Variation temporelle naturelle au sein de l'unité (bruit ou chocs transitoires).
$\text{Treat}_{i,t}$ : Indicateur de traitement.
$\gamma$ : Le véritable effet causal.
$\eta_\mu, \eta_\epsilon, \eta_T$ : Coefficients de projection mesurant la capacité du modèle à capturer respectivement la variation inter-unités, la variation intra-unités temporelle, et l'effet de traitement contre-factuel.

Hypothèse clé : La composante $\eta_T$ détermine si l'effet de traitement est correctement récupéré. Cependant, $\eta_T$ ne peut être estimé sans variation expérimentale sur l'ensemble de l'échantillon (ce qui annulerait l'intérêt du ML).

Solution proposée : L'auteur postule que la précision de la prédiction sur la variation intra-unités ( $\eta_\epsilon$ ) est un meilleur proxy structurel de la capacité à capturer l'effet de traitement ( $\eta_T$ ) que la précision globale ( $R^2$ ). En effet, les deux ( $\eta_\epsilon$ et $\eta_T$ ) dépendent de la capacité du modèle à réagir à des signaux dynamiques et transitoires, contrairement à $\eta_\mu$ qui repose sur des caractéristiques statiques.

Métrique de diagnostic (Diff-vs-Diff) :
Pour estimer $\eta_\epsilon$ sans variation de traitement, l'auteur propose d'utiliser des données de panel (au moins deux périodes) sur un sous-échantillon non traité :

Calculer les différences temporelles : $\Delta \text{actual} = Y_{i,2} - Y_{i,1}$ et $\Delta \text{predicted} = \hat{Y}_{i,2} - \hat{Y}_{i,1}$ .
Régresser $\Delta \text{predicted}$ sur $\Delta \text{actual}$ (sans constante) :
$\Delta \text{predicted}_i = \hat{\beta} \Delta \text{actual}_i + \text{erreur}$
La pente estimée $\hat{\beta}$ est l'estimateur de $\eta_\epsilon$ .

3. Contributions Clés

Décomposition Théorique : Introduction d'un cadre formel séparant la performance prédictive en composantes inter-unités, intra-unités et traitement. Cela explique pourquoi un modèle peut avoir un $R^2$ élevé tout en ayant un effet de traitement biaisé (souvent nul).
Nouvelle Métrique de Sélection de Modèle : Proposition d'utiliser la pente de régression "diff-vs-diff" ( $\hat{\eta}_\epsilon$ ) comme critère principal pour sélectionner les modèles ML destinés à l'analyse causale, plutôt que la précision globale ( $R^2$ ).
Correction de Biais : Sous l'hypothèse forte que $\eta_T \approx \eta_\epsilon$ , l'auteur montre comment corriger l'estimation de l'effet de traitement pour obtenir une estimation non biaisée :
$\widehat{\text{TE}}_{\text{unbiased}} = \frac{\widehat{\text{TE}}_{\text{estimé}}}{\hat{\eta}_\epsilon}$
Validation par Simulation : Démonstration via des données synthétiques que la précision globale est un mauvais indicateur de la puissance statistique pour détecter un effet de traitement, alors que $\hat{\eta}_\epsilon$ y est fortement corrélé.

4. Résultats des Simulations

Les simulations menées sur des données synthétiques (avec une forte prédominance de la variance inter-unités, typique des données réelles) confirment :

Corrélation faible avec $R^2$ : Un modèle avec un $R^2$ élevé peut avoir un $\eta_T$ proche de zéro (échec total à détecter le traitement) s'il s'ajuste principalement aux caractéristiques fixes ( $\eta_\mu$ ).
Prédictivité de $\eta_\epsilon$ : Lorsque $\eta_T = \eta_\epsilon$ , la pente de la régression diff-vs-diff prédit avec précision l'effet de traitement redimensionné (Scaled Treatment Effect).
Compression de distribution : La compression de la distribution des prédictions (souvent utilisée comme indicateur de qualité) est principalement pilotée par $\eta_\mu$ et ne prédit pas la compression de l'effet de traitement (pilotée par $\eta_T$ ). Corriger la compression globale ne suffit donc pas à rétablir l'effet causal.
Puissance Statistique : Le t-statistique pour la détection du traitement est déterminé par $\eta_T$ , et non par la précision globale du modèle.

5. Signification et Implications Pratiques

Ce travail offre une feuille de route critique pour les chercheurs utilisant le ML dans l'analyse causale :

Changement de paradigme de sélection : Ne pas choisir un modèle uniquement sur la base de sa précision prédictive ( $R^2$ ) sur un jeu de test. Un modèle trop "lisse" (qui ignore les variations temporelles) sera inutile pour l'inférence causale.
Nécessité de données de panel : La méthode exige la collecte de données d'étiquetage réelles sur au moins deux périodes pour un sous-échantillon. C'est un compromis nécessaire pour valider la capacité du modèle à capturer la dynamique temporelle.
Guide de pratique :
1. Entraîner le modèle uniquement sur les unités non traitées.
2. Calculer $\hat{\eta}_\epsilon$ via la régression diff-vs-diff sur les unités non traitées.
3. Sélectionner le modèle avec le $\hat{\eta}_\epsilon$ le plus élevé.
4. Si $\hat{\eta}_\epsilon$ est faible, le modèle est inadapté. Si $\hat{\eta}_\epsilon$ est proche de 1, le modèle est prometteur.
5. Appliquer la correction de biais (division par $\hat{\eta}_\epsilon$ ) uniquement si l'hypothèse $\eta_T \approx \eta_\epsilon$ est jugée raisonnable, tout en signalant clairement cette hypothèse.

En conclusion, l'article démontre que la qualité d'un modèle pour l'inférence causale ne se mesure pas à sa capacité à prédire des niveaux, mais à sa capacité à prédire des changements. Cette approche permet d'éviter les pièges courants où des modèles performants en prévision produisent des résultats causaux erronés.