Jackknife inference with two-way clustering

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Dilemme du Détective : Comment compter les erreurs quand tout est lié ?

Imaginez que vous êtes un détective essayant de comprendre pourquoi certaines choses se produisent (par exemple, pourquoi le salaire des gens varie). Vous avez une liste de suspects (vos données) et vous voulez savoir si votre théorie est vraie. Pour cela, vous devez calculer une "marge d'erreur" (l'intervalle de confiance). Si cette marge est trop petite, vous pourriez conclure à tort que vous avez trouvé un coupable, alors que c'est juste le hasard.

Le problème, c'est que dans le monde réel, les données ne sont pas isolées. Elles sont souvent regroupées, comme des familles, des entreprises ou des régions. C'est ce qu'on appelle le clustering.

🧩 Le Problème : Le "Double Piège" (Le Clustering Bidimensionnel)

Dans la vie, les gens appartiennent souvent à deux groupes en même temps.

Analogie : Imaginez une classe d'école. Les élèves sont regroupés par classe (ex: 10A, 10B) et par équipe de sport (ex: Équipe Rouge, Équipe Bleue).
Si vous étudiez les notes des élèves, les élèves d'une même classe se ressemblent (ils ont le même prof). Mais ils se ressemblent aussi s'ils sont dans la même équipe de sport (ils passent du temps ensemble).

Les statisticiens appellent cela un clustering bidimensionnel (deux directions). Le problème, c'est que les méthodes classiques pour calculer la marge d'erreur échouent souvent ici. Elles peuvent donner un résultat mathématique impossible (comme une "erreur négative" ou un chiffre qui n'a pas de sens), un peu comme si votre détective disait : "La probabilité que le suspect soit innocent est de -50% !" C'est absurde, mais cela arrive souvent avec les outils actuels.

🛠️ La Solution 1 : Le "Système du Plus Grand" (La Méthode Max-SE)

Les auteurs proposent une astuce simple et intelligente pour éviter ces résultats absurdes.

L'Analogie : Imaginez que vous devez mesurer la taille d'un objet avec trois règles différentes.
1. Une règle qui mesure selon la longueur (Classe).
2. Une règle qui mesure selon la largeur (Équipe).
3. Une règle complexe qui essaie de mesurer les deux en même temps (Intersection).

Parfois, la règle complexe (la troisième) est cassée ou donne un chiffre fou. Au lieu de paniquer, les auteurs disent : "Prenez simplement la règle qui vous donne la marge d'erreur la plus grande (la plus prudente)."

Si la règle complexe est cassée, vous utilisez la plus grande des deux autres. Cela garantit que vous ne serez jamais trop confiant dans vos résultats. C'est comme porter un casque plus gros que nécessaire : c'est peut-être un peu encombrant, mais c'est sûr.

🧪 La Solution 2 : Le "Jackknife" (La Méthode du Pinceau)

C'est la grande innovation de l'article. Ils utilisent une technique appelée Jackknife (qui vient du mot "couteau suisse", mais en statistique, cela signifie "enlever un morceau à la fois").

L'Analogie : Imaginez que vous essayez de deviner le goût d'une grande soupe en goûtant une cuillère. Pour être sûr, vous retirez une cuillère de soupe, vous goûtez le reste, puis vous remettez la cuillère, vous en retirez une autre, etc.
En statistique, cela signifie : on enlève un groupe entier de données (par exemple, toute l'Équipe Rouge), on recalcule le résultat, on remet l'équipe, on enlève l'Équipe Bleue, on recalcule, etc.
En regardant comment le résultat change chaque fois qu'on enlève un groupe, on obtient une mesure de la fiabilité beaucoup plus précise que les méthodes classiques.

Les auteurs ont adapté cette méthode pour fonctionner avec nos deux groupes (Classe et Équipe) en même temps. Ils montrent que cette méthode est plus robuste : elle résiste mieux aux données bizarres, aux groupes de tailles très différentes (une classe de 5 élèves et une autre de 100), et aux intersections vides (des équipes qui n'ont aucun membre dans une certaine classe).

📊 Les Résultats : Ce que disent les simulations

Les auteurs ont fait des milliers de simulations informatiques (des "mondes virtuels") pour tester leurs méthodes.

Les anciennes méthodes (CV1) : Elles ont tendance à dire "C'est significatif !" trop souvent, même quand ce n'est pas vrai. C'est comme un détective qui accuse tout le monde.
La nouvelle méthode (CV3 Jackknife + Max-SE) : Elle est beaucoup plus calme. Elle ne condamne que lorsqu'elle est vraiment sûre. Elle évite les faux positifs.

🌍 Exemples Réels

Ils ont appliqué leur méthode à deux études réelles :

La mouche tsé-tsé en Afrique : Une étude sur le développement économique. Les anciennes méthodes disaient que la mouche avait un impact énorme et certain. La nouvelle méthode dit : "Attendez, l'impact est réel, mais peut-être pas aussi certain qu'on le pensait."
Le salaire minimum au Canada : Une étude sur l'effet du salaire minimum sur les jeunes immigrants. Les anciennes méthodes disaient : "C'est significatif !" (P-value très basse). La nouvelle méthode dit : "En fait, avec nos outils plus précis, on ne peut pas être sûr à 95% que l'effet existe."

💡 En Résumé

Cet article nous apprend que :

Quand les données sont liées de deux façons (comme par lieu et par temps), les outils statistiques classiques sont souvent en panne.
Les auteurs proposent une nouvelle boîte à outils (le package Stata twowayjack) qui utilise une méthode de "répétition" (Jackknife) et une règle de prudence (prendre la marge d'erreur la plus grande).
Cette nouvelle approche est plus honnête : elle évite de faire des découvertes fausses et nous donne des résultats plus fiables, même quand les données sont désordonnées ou rares.

C'est un peu comme passer d'une boussole magnétique défectueuse à un GPS satellite : cela ne change pas la destination, mais cela vous assure de ne pas vous perdre en route.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Jackknife Inference with Two-Way Clustering » de James G. MacKinnon, Morten Ørregaard Nielsen et Matthew D. Webb.

1. Le Problème : Inférence avec Clustering Bidimensionnel

Dans les modèles de régression linéaire avec des données de section transversale ou de panel, il est courant d'assumer que les perturbations (erreurs) sont corrélées selon deux dimensions (par exemple, par pays et par année, ou par entreprise et par secteur). Pour obtenir des inférences valides, les économètres utilisent des estimateurs de variance robustes au clustering bidimensionnel (CRVE).

Cependant, les propriétés en échantillon fini de ces tests et intervalles de confiance sont souvent médiocres. Le problème central identifié par les auteurs est la non-définie positivité de l'estimateur de variance robuste standard à trois termes (noté $\hat{V}^{(3)}_1$ ou CV1).

L'estimateur classique est construit comme la somme des variances estimées pour chaque dimension moins la variance estimée pour les intersections : $\hat{V}^{(3)}_1 = \hat{V}_G + \hat{V}_H - \hat{V}_I$ .
En raison de la soustraction du terme d'intersection ( $\hat{V}_I$ ), la matrice de variance estimée peut ne pas être définie positive en échantillon fini, conduisant à des erreurs standards non définies ou à des statistiques de test absurdes (négatives ou extrêmement grandes).
Les méthodes existantes pour contourner ce problème (comme la décomposition en valeurs propres pour forcer la positivité) peuvent altérer les erreurs standards de manière arbitraire et dépendre de la paramétrisation du modèle (ex: choix de la catégorie de référence pour les effets fixes).

2. Méthodologie Proposée

Les auteurs proposent deux contributions méthodologiques majeures pour améliorer l'inférence :

A. La Procédure « Max-SE » (Solution au problème de positivité)

Pour éviter les erreurs standards non définies ou trompeusement grandes sans recourir à des corrections numériques complexes (comme la décomposition spectrale), les auteurs proposent une procédure simple :

Calculer trois statistiques de Wald (ou trois erreurs standards pour un seul coefficient) :
- Basée sur l'estimateur bidimensionnel complet ( $\hat{V}^{(3)}_1$ ).
- Basée uniquement sur le clustering de la première dimension ( $\hat{V}_G$ ).
- Basée uniquement sur le clustering de la deuxième dimension ( $\hat{V}_H$ ).
Pour un test d'hypothèse, utiliser la statistique correspondant à l'erreur standard la plus grande (ou la statistique de Wald la plus petite positive).

Justification : Asymptotiquement, si le clustering bidimensionnel est réel, l'estimateur complet devrait être le plus grand. En échantillon fini, si l'estimateur complet devient non défini positif ou très instable, cette procédure garantit une inférence conservatrice et valide en choisissant la borne supérieure des trois estimateurs.

B. L'Estimateur Jackknife de Cluster Bidimensionnel (CV3)

Les auteurs étendent l'estimateur de variance basé sur le jackknife de cluster (souvent appelé CV3 dans le cas unidimensionnel) au cas bidimensionnel.

Principe : Au lieu d'utiliser les résidus OLS directement (comme dans CV1), on calcule $J$ estimations du modèle en omettant successivement chaque cluster (dans la dimension $G$ , $H$ et leurs intersections $I$ ).
Construction : La variance est estimée à partir de la variation entre ces estimations « leave-one-out » ( $\hat{\beta}^{(j)}$ ).
Formule bidimensionnelle : $\hat{V}^{(3)}_3 = \hat{V}^{JK}_G + \hat{V}^{JK}_H - \hat{V}^{JK}_I$ .
Avantage théorique : Contrairement aux estimateurs CV1, les estimateurs jackknife (CV3) sont moins biaisés vers le bas et gèrent mieux l'hétérogénéité de la taille des clusters. Ils sont prouvés être consistants sous des conditions raisonnables.

3. Contributions Clés

Preuve de Consistance : Les auteurs démontrent théoriquement que l'estimateur jackknife bidimensionnel ( $\hat{V}^{(3)}_3$ ) est consistant, même en présence d'effets fixes bidimensionnels et d'hétérogénéité dans la taille des clusters.
Solution Pratique au Problème de Positivité : La procédure « Max-SE » offre une alternative simple et robuste aux méthodes de décomposition en valeurs propres, évitant les artefacts numériques tout en assurant la validité asymptotique.
Performance Supérieure en Échantillon Fini : Les simulations montrent que la combinaison de l'estimateur jackknife (CV3) avec la procédure Max-SE offre une précision bien supérieure aux méthodes conventionnelles (CV1), en particulier dans des scénarios réalistes (petit nombre de clusters, tailles de clusters hétérogènes, intersections vides).
Outil Logiciel : Développement du package Stata twowayjack qui implémente ces estimateurs et fournit des diagnostics de clustering (coefficients de variation, nombre effectif de clusters, etc.).

4. Résultats des Simulations

Les auteurs ont mené de nombreuses expériences de simulation (100 000 répétitions) couvrant divers scénarios :

Variation de la taille des clusters : Les estimateurs CV1 surestiment fortement le taux de rejet (surestimation de la significativité) lorsque les tailles de clusters varient. Les estimateurs CV3 restent proches de la taille nominale (5%).
Corrélations intra-cluster faibles : Les méthodes CV1 et les estimateurs à deux termes (qui omettent le terme d'intersection) sous-estiment sévèrement la variance (sous-rejet) lorsque la corrélation est faible. Les méthodes CV3 sont plus robustes.
Nombre de régresseurs : L'augmentation du nombre de variables explicatives dégrade les performances des estimateurs CV1 (surestimation du rejet), tandis que les CV3 restent stables.
Intersections vides : Dans les cas où de nombreuses intersections de clusters sont vides (fréquent en données réelles), les estimateurs CV3 continuent de bien performer, là où les méthodes CV1 échouent souvent.
Conclusion des simulations : L'estimateur CV(max)3 (Jackknife + procédure Max-SE) est systématiquement le plus fiable, offrant des taux de rejet très proches de la taille nominale dans presque tous les cas, y compris ceux avec des effets fixes bidimensionnels.

5. Applications Empiriques

Les auteurs appliquent leurs méthodes à deux exemples réels :

Mouche tsé-tsé et développement en Afrique (Alsan, 2015) : L'analyse montre que les conclusions de l'article original (basées sur le clustering unidimensionnel) sont trop optimistes. L'utilisation du CV3 bidimensionnel réduit la significativité statistique de plusieurs résultats, suggérant que les preuves sont moins fortes qu'initialement pensé.
Salaires minimums au Canada : Avec un faible nombre de clusters (12 années, 10 provinces) et une forte hétérogénéité, les méthodes conventionnelles indiquent un effet significatif du salaire minimum. Cependant, les simulations de placebo (regressions factices) montrent que les méthodes CV1 rejettent l'hypothèse nulle beaucoup trop souvent (jusqu'à 89%). Les méthodes CV3, en revanche, donnent des taux de rejet proches de 5% et des p-values non significatives, suggérant que l'effet observé pourrait être un artefact statistique.

6. Signification et Conclusion

Cet article est une contribution majeure à l'économétrie appliquée car il résout un problème pratique persistant : l'instabilité des inférences avec le clustering bidimensionnel.

Pour la pratique : Il déconseille l'usage des estimateurs CV1 standards (comme ceux de Cameron, Gelbach et Miller, 2011) en faveur des estimateurs Jackknife (CV3), surtout lorsqu'ils sont combinés avec la procédure « Max-SE ».
Fiabilité : Il démontre que les méthodes conventionnelles peuvent mener à des conclusions erronées (faux positifs) dans des contextes très courants (effets fixes, petites tailles de clusters).
Accessibilité : La mise à disposition du package twowayjack permet aux chercheurs d'appliquer immédiatement ces méthodes plus robustes dans leurs propres travaux.

En résumé, les auteurs recommandent d'utiliser l'estimateur de variance jackknife bidimensionnel combiné à la procédure de sélection de l'erreur standard maximale pour obtenir des inférences fiables, conservatrices et asymptotiquement valides dans les modèles à clustering bidimensionnel.