Covariate balancing estimation and model selection for difference-in-differences approach

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Détective des Causes : Comment mesurer l'impact réel d'une action ?

Imaginez que vous êtes un détective. Vous voulez savoir si une nouvelle méthode d'enseignement (le "traitement") améliore vraiment les notes des élèves.

Vous avez deux groupes :

Le groupe test : Ceux qui ont suivi la nouvelle méthode.
Le groupe témoin : Ceux qui ont suivi la méthode classique.

Le problème ? Les élèves ne sont pas identiques. Le groupe test pourrait avoir eu plus de chance au départ (des parents plus riches, plus motivés, etc.). Si vous comparez simplement les notes finales, vous ne saurez pas si la méthode a fonctionné ou si c'était juste la chance des élèves.

C'est là qu'intervient la méthode DID (Différence dans les Différences). Au lieu de comparer les notes finales, on regarde l'évolution :

Comment les notes du groupe témoin ont-elles changé ?
Comment les notes du groupe test ont-elles changé ?
On soustrait l'évolution du témoin à celle du test. Si la différence est positive, c'est que la méthode a fonctionné.

Mais attention ! Cette méthode repose sur une hypothèse fragile : "Si le groupe test n'avait pas eu la nouvelle méthode, son évolution aurait été exactement la même que celle du groupe témoin." C'est ce qu'on appelle l'hypothèse des "tendances parallèles".

🎯 Le Problème : Les "Poids" mal ajustés

Pour rendre cette comparaison plus juste, les statisticiens utilisent des scores de propension. C'est comme une balance numérique.

Si un élève du groupe test ressemble beaucoup à un élève du groupe témoin, on lui donne un poids normal.
Si un élève du groupe test est très différent (ex: très riche) et qu'il n'y a pas d'équivalent dans le groupe témoin, on doit "lourdement" pondérer les données pour compenser ce déséquilibre.

Le problème, c'est que pour calculer ces poids, il faut faire une hypothèse sur la façon dont les élèves ont été sélectionnés. Si cette hypothèse est fausse (ce qui arrive souvent dans la vraie vie), toute l'analyse s'effondre. C'est comme construire une maison sur des fondations en mousse : ça tient tant que tout va bien, mais ça s'écroule au premier choc.

💡 La Solution : L'Équilibre des "Covariables" (La Méthode CBD)

Les auteurs de cet article, Baba et Ninomiya, proposent une nouvelle méthode appelée CBD (Covariate Balancing for Difference-in-Differences).

Imaginez que vous préparez deux salades (le groupe test et le groupe témoin) et que vous voulez qu'elles aient exactement le même goût, même si les ingrédients de base sont différents.

L'ancienne méthode : Essayait de deviner la recette exacte de la sauce (le modèle de propension). Si on se trompait sur la recette, le goût était faux.
La méthode CBD : Ne se soucie pas de la recette exacte. Elle force simplement les deux salades à avoir exactement la même répartition d'ingrédients (même quantité de tomates, de concombres, de carottes, etc.) en ajustant les poids.

La découverte clé de l'article :
Pour que cette méthode soit infaillible (ce qu'ils appellent "double robustesse"), il ne suffit pas d'équilibrer les ingrédients principaux (comme le nombre de tomates). Il faut aussi équilibrer les interactions entre les ingrédients (par exemple, la relation entre le nombre de tomates et la quantité de sel).

Analogie : C'est comme si, pour équilibrer une balance, on ne pesait pas seulement les pommes, mais aussi la façon dont les pommes se comportent ensemble avec les poires. C'est une astuce mathématique inattendue mais puissante.

Résultat : Même si on se trompe sur la façon dont les élèves ont été sélectionnés, ou même si on se trompe sur la façon dont les notes évoluent, la méthode CBD trouve quand même la bonne réponse. C'est comme avoir un parachute qui s'ouvre même si le premier mécanisme de déclenchement échoue.

🎲 Le Choix du Modèle : Comment ne pas se tromper de recette ?

Une fois qu'on a la bonne méthode, il reste un problème : Quels ingrédients (variables) faut-il inclure ?
Doit-on prendre en compte l'âge, le revenu, le nombre d'heures de travail, la couleur des yeux ?

Si on en met trop, on crée du "bruit" (on sélectionne des variables inutiles).
Si on en met trop peu, on rate des détails importants.

Habituellement, les statisticiens utilisent une règle appelée AIC (comme un "score de qualité" pour les modèles). Mais dans ce cas précis (avec les poids complexes), l'AIC classique ne fonctionne pas : il est comme un compteur de calories qui ne compte que les pommes, et oublie les poires. Il sous-estime le risque de se tromper.

Les auteurs ont créé un nouveau score de qualité (un nouveau critère d'information).

C'est comme si, au lieu de simplement compter le nombre d'ingrédients, on pesait chaque ingrédient en tenant compte de sa difficulté à trouver et de son impact réel.
Ce nouveau score a un "pénalité" (un coût) beaucoup plus élevé que les règles habituelles. Cela force le modèle à être plus économe et plus précis, évitant d'inclure des variables inutiles.

🧪 Les Résultats : Ça marche dans la vraie vie !

Les auteurs ont testé leur méthode :

Sur des données simulées : Ils ont créé des milliers de scénarios où ils savaient déjà la vérité. La méthode CBD a toujours trouvé la bonne réponse, même quand les autres méthodes échouaient.
Sur des données réelles : Ils ont utilisé un célèbre jeu de données sur la formation professionnelle aux États-Unis.
- Les méthodes anciennes (comme QICW) ont choisi tous les ingrédients possibles, rendant le modèle compliqué et peu fiable.
- La nouvelle méthode a sélectionné seulement les ingrédients essentiels, produisant un résultat plus clair et plus robuste.

🚀 En résumé

Cet article nous donne deux outils magiques pour les détectives des données :

Une balance infaillible (CBD) : Une façon de comparer deux groupes qui reste juste même si nos hypothèses initiales sont imparfaites, à condition d'équilibrer non seulement les ingrédients, mais aussi leurs relations.
Un nouveau guide de cuisine : Une règle pour choisir les bons ingrédients sans en mettre trop, évitant ainsi de cuisiner un plat trop complexe et mauvais.

C'est une avancée majeure pour rendre les études d'impact (en économie, en santé publique, etc.) plus fiables et moins sujettes aux erreurs de calcul.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article de recherche de Takamichi Baba et Yoshiyuki Ninomiya, intitulé « Covariate balancing estimation and model selection for difference-in-differences approach » (Estimation par équilibrage des covariables et sélection de modèle pour l'approche différence-de-différences).

1. Problématique et Contexte

L'approche Différence-de-Différences (DID) est une méthode standard en économétrie et en épidémiologie pour estimer l'effet moyen du traitement sur les traités (ATT). L'approche DID semi-paramétrique (SDID), proposée par Abadie (2005), intègre l'analyse du score de propension pour estimer l'ATT sans nécessiter de modélisation complète de la relation entre les covariables et le résultat.

Cependant, deux défis majeurs persistent dans la pratique :

Robustesse à la spécification du modèle : Les estimateurs SDID classiques reposent sur la spécification correcte du modèle de score de propension. Si ce modèle est mal spécifié, l'estimateur est biaisé. Bien que des méthodes "doubly robust" (doublement robustes) existent (ex: Sant'Anna and Zhao, 2020), elles nécessitent souvent de modéliser et d'estimer à la fois le score de propension et le modèle de résultat.
Absence de critères de sélection de modèle : La sélection des covariables pertinentes est cruciale pour évaluer l'hétérogénéité de l'ATT. Pourtant, il n'existe pas de critère d'information raisonnable (comme l'AIC ou le BIC) spécifiquement dérivé pour l'approche SDID de base. Les critères existants, comme le QICW (extension du QIC pondéré), ne sont pas théoriquement justifiés dans ce cadre car ils ne tiennent pas compte de la nature aléatoire des poids basés sur le score de propension et de l'hypothèse de tendance parallèle conditionnelle.

2. Méthodologie Proposée

Les auteurs proposent deux contributions méthodologiques principales : une nouvelle méthode d'estimation et un nouveau critère de sélection de modèle.

A. Estimation par Équilibrage des Covariables pour le DID (CBD)

Les auteurs introduisent la méthode CBD (Covariate Balancing for DID).

Principe : Au lieu d'estimer le score de propension par maximum de vraisemblance (MLE), ils utilisent la méthode des moments généralisés (GMM) pour trouver les paramètres du score de propension qui satisfont des conditions de moment spécifiques.
Condition de moment innovante : Contrairement à l'équilibrage classique qui vise les moments d'ordre 1 (moyennes des covariables), la méthode CBD impose l'équilibrage des moments d'ordre 2 (matrices de covariance $xx^T$ ) entre les groupes traités et témoins, pondérés par le score de propension.
Double Robustesse : Le théorème principal (Théorème 1) démontre que l'estimateur $\hat{\theta}_{CBD}$ $\hat{θ}_{C B D}$ est doublement robuste. Il converge vers la vraie valeur de l'ATT si :
1. Le modèle de score de propension est correctement spécifié, OU
2. Le modèle décrivant l'évolution des résultats (changement de $y$ ) est correctement spécifié comme une fonction linéaire des covariables (même si le modèle de résultat n'est pas estimé explicitement).
Avantage : Cette approche évite la nécessité d'estimer un modèle de résultat complexe tout en garantissant la consistance de l'estimateur même en cas de mauvaise spécification du score de propension.

B. Critère de Sélection de Modèle (Information Criterion)

Les auteurs dérivent un critère de sélection de modèle asymptotiquement sans biais pour l'approche SDID (avec scores connus ou estimés par CBD/MLE).

Approche : Ils définissent un risque basé sur la fonction de perte utilisée pour l'estimation SDID. Ils calculent le biais asymptotique de l'estimation de ce risque.
Terme de pénalité : Le terme de pénalité dérivé est différent du terme classique "2 fois le nombre de paramètres" (comme dans l'AIC). Il dépend de la structure de la variance des erreurs et de la matrice d'information du score de propension.
Différence avec QICW : Le critère proposé (appelé "Proposal") corrige la sous-estimation systématique du biais faite par le QICW (Platt et al., 2013). Le QICW suppose souvent une variance constante et ignore la complexité de l'estimation des poids, conduisant à une pénalité trop faible et à une sur-sélection de variables.

3. Résultats Principaux

Les résultats sont validés par des simulations numériques et une analyse de données réelles (jeu de données LaLonde).

Simulations Numériques

Robustesse de l'estimation : Dans des scénarios où le modèle de score de propension est mal spécifié (omission de covariables pertinentes), la méthode MLE classique produit des estimateurs biaisés. La méthode CBD maintient une faible erreur quadratique moyenne et une couverture de confiance correcte, confirmant la propriété de double robustesse.
Performance du critère de sélection :
- Précision du terme de pénalité : Les simulations montrent que le terme de pénalité du critère proposé approxime très précisément le biais réel du risque. En revanche, le QICW sous-estime massivement ce biais (parfois de moitié ou plus).
- Sélection de modèle : Le critère proposé sélectionne le bon sous-ensemble de covariables avec une probabilité plus élevée. Le QICW tend à sélectionner trop de variables (taux de faux positifs élevé), augmentant ainsi le risque de prédiction. Cette supériorité est particulièrement marquée lorsque le nombre de covariables candidates est grand par rapport à la taille de l'échantillon.

Analyse de Données Réelles (LaLonde)

L'application sur le jeu de données LaLonde (programme de formation professionnelle) montre des différences substantielles entre les modèles sélectionnés par le critère proposé et le QICW.
Le QICW sélectionne systématiquement toutes les covariables disponibles, tandis que le critère proposé élimine certaines variables jugées non pertinentes. Cela illustre l'importance d'utiliser un critère théoriquement valide plutôt qu'une extension intuitive de critères existants.

4. Contributions Clés et Signification

Nouvelle méthode d'estimation (CBD) : L'article établit que pour obtenir une double robustesse dans le cadre de l'ATT conditionnel (SDID), il est nécessaire d'équilibrer les moments d'ordre 2 des covariables, et non seulement les moments d'ordre 1. C'est une découverte théorique contre-intuitive mais cruciale.
Fondation théorique pour la sélection de modèle : C'est la première dérivation rigoureuse d'un critère d'information pour l'approche SDID de base, ne reposant pas sur l'hypothèse forte d'assignation de traitement ignorable, mais uniquement sur l'hypothèse de tendance parallèle conditionnelle.
Supériorité empirique : Les résultats démontrent que l'utilisation de critères d'information standards (comme le QICW) dans ce contexte conduit à des modèles sur-ajustés et à une estimation moins précise de l'effet causal.
Extensibilité : Les auteurs discutent de la possibilité d'étendre cette méthode aux modèles non linéaires (via des noyaux/Kernels) et aux cadres DID plus complexes (plusieurs périodes, traitements multiples), ouvrant la voie à des recherches futures.

En résumé, cet article fournit un cadre statistique complet et robuste pour l'estimation et la sélection de modèles dans les études d'impact causal utilisant la méthode différence-de-différences, résolvant des problèmes de biais de spécification et de sur-ajustement qui limitaient les applications pratiques précédentes.