A formal approach to variable selection in difference-in-differences

Cet article propose un cadre formel, basé sur les graphes, pour sélectionner des covariables afin de satisfaire les tendances parallèles conditionnelles dans l'analyse des différences de différences, en soutenant que les défis d'identification découlent souvent d'un décalage entre les ensembles de contrôle requis pour la validité et ceux utilisés par les estimateurs populaires, plutôt que des estimateurs eux-mêmes.

Auteurs originaux : Daniela Rodrigues, Laura A. Hatfield

Publié 2026-05-05
📖 6 min de lecture🧠 Analyse approfondie

Auteurs originaux : Daniela Rodrigues, Laura A. Hatfield

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de déterminer si une nouvelle vitamine, coûteuse, aide réellement les gens à grandir. Vous avez deux groupes : l'un prend la vitamine (le groupe « traité »), l'autre non (le groupe « témoin »).

La méthode classique pour tester cela est la méthode des Différences de Différences (DiD). C'est comme regarder une course. Vous vérifiez la taille de chacun au départ de la course (avant la vitamine). Ensuite, vous vérifiez leur taille à l'arrivée (après la vitamine). La logique est la suivante : Si le groupe sans vitamine a continué à grandir à la même vitesse qu'avant, nous pouvons supposer que le groupe traité aurait fait de même s'il n'avait pas pris la vitamine. La différence entre ce qui s'est réellement produit et ce qui « aurait pu se produire » est l'effet de la vitamine.

Cependant, cela ne fonctionne que si les deux groupes couraient sur le même parcours au départ. Si le groupe traité était déjà naturellement plus grand ou avait de meilleures chaussures, la course n'est pas équitable. C'est l'hypothèse des « tendances parallèles ».

Cet article est comme un manuel de règles pour les arbitres sur la façon de s'assurer que la course est réellement équitable. Voici le détail de leurs nouvelles règles, expliquées simplement :

1. Le problème du « Lavabo »

Par le passé, les chercheurs jetaient souvent chaque morceau de données qu'ils possédaient dans le mélange (taille, poids, pointure, couleur préférée) sans réfléchir au pourquoi. Ils appelaient cela l'approche « lavabo ».

  • La solution de l'article : Vous ne pouvez pas tout jeler dedans. Vous avez besoin d'une carte (un « diagramme causal ») pour voir quelles variables comptent réellement. Certaines variables peuvent sembler importantes mais perturbent en réalité la course.

2. Le mythe de la « parfaite équilibre »

L'ancienne façon de penser supposait que si vous regardiez simplement les groupes dans leur ensemble, leurs tendances de croissance s'équilibreraient naturellement parfaitement.

  • La solution de l'article : C'est comme espérer que deux voitures différentes roulent à exactement la même vitesse simplement parce qu'elles sont toutes deux des voitures. C'est une hypothèse très forte et irréaliste. L'article montre que souvent, les groupes ne sont pas équilibrés à moins que vous ne preniez en compte des différences spécifiques (comme la taille du moteur ou la pression des pneus).
  • Le piège : Parfois, si vous essayez de les équilibrer en ajoutant trop de variables, vous risquez de briser accidentellement l'équilibre parfait qui existait déjà, rendant le résultat pire au lieu de meilleur.

3. La variable « ennuyeuse »

Habituellement, les chercheurs ignorent les variables qui ne changent pas au fil du temps (comme le sexe d'une personne ou sa ville de naissance) parce qu'ils pensent : « Eh bien, cela ne change pas, donc cela ne peut pas être la raison pour laquelle la vitamine a fonctionné. »

  • La solution de l'article : Parfois, ces variables « ennuyeuses » sont en réalité l'ingrédient secret ! Même si une variable ne change pas, elle peut être la raison pour laquelle les deux groupes étaient différents au départ. L'ajuster peut sauver l'étude. C'est comme réaliser que même si les voitures n'ont pas changé de couleur, la couleur a en fait déterminé sur quel parcours elles se trouvaient.

4. La variable « a posteriori »

Les conseils standards disent : « Ne regardez jamais les données collectées après le début du traitement. » Par exemple, ne regardez pas combien le groupe traité a mangé après avoir pris la vitamine, car peut-être que la vitamine les a rendus affamés.

  • La solution de l'article : Cela dépend de pourquoi les habitudes alimentaires ont changé.
    • Si la vitamine les a rendus affamés, ne comptez pas l'alimentation (c'est une partie de l'effet).
    • Mais si autre chose les a poussés à manger plus (comme l'ouverture d'un nouveau restaurant à proximité), vous devez en tenir compte, sinon vous obtiendrez la mauvaise réponse.
    • La métaphore : C'est comme un détective. Si l'alibi d'un suspect change à cause du crime, vous l'ignorez. Mais si l'alibi change à cause d'un embouteillage (sans rapport avec le crime), vous devez prendre en compte l'embouteillage pour résoudre l'affaire.

5. Le départ « échelonné »

Parfois, différents groupes reçoivent le traitement à des moments différents (comme des États mettant en œuvre une nouvelle loi en 2020, 2021 et 2022).

  • La solution de l'article : L'article distingue quand le traitement commence et ce qu'est le traitement. Si le traitement lui-même change au fil du temps en fonction de l'évolution des choses (dynamique), cela crée une boucle de rétroaction difficile à démêler. Si le traitement n'est qu'une chose unique qui se produit à des moments différents pour différentes personnes (statique), c'est beaucoup plus facile à gérer.

6. Le « mauvais outil » contre les « mauvais réglages »

Il y a eu beaucoup de débats dans la communauté scientifique sur lequel « calculateur » (estimateur statistique) est le meilleur pour ce travail.

  • La grande découverte de l'article : Peu importe quel calculateur vous utilisez ! Le problème n'est pas le calculateur ; ce sont les réglages que vous y mettez.
  • La métaphore : Imaginez que vous cuisiniez un gâteau. Vous pouvez utiliser un batteur électrique sophistiqué ou une simple cuillère en bois. Si vous utilisez les mauvais ingrédients (les mauvaises variables), le gâteau aura mauvais goût, peu importe l'outil utilisé.
  • La solution : Les auteurs vous montrent exactement comment régler les « ingrédients » (l'ensemble d'ajustement) pour n'importe quel calculateur que vous souhaitez utiliser. Si vous nourrissez la machine avec les bonnes variables, même la machine la plus simple vous donnera la bonne réponse.

La conclusion

Cet article dit aux chercheurs : Arrêtez de deviner quelles variables utiliser.

  1. Dessinez une carte de cause à effet.
  2. Utilisez cette carte pour choisir les exactes bonnes variables afin d'équilibrer vos groupes.
  3. Ne vous inquiétez pas de choisir l'outil statistique le plus complexe ; assurez-vous simplement de nourrir l'outil que vous avez avec les bonnes variables.

Si vous faites cela, vous obtenez une course équitable et une réponse vraie. Si vous ne le faites pas, vous risquez de mesurer complètement la mauvaise chose.

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →