Testing for Endogeneity: A Moment-Based Bayesian Approach

Each language version is independently generated for its own context, not a direct translation.

Voici une explication de ce papier de recherche, traduite en langage simple et illustrée par des métaphores pour rendre le tout accessible.

Le Titre : "Comment savoir si notre recette de cuisine est truquée ?"

Imaginez que vous êtes un chef cuisinier (un économiste) qui essaie de comprendre la relation entre deux ingrédients : le prix d'un produit (disons, une voiture) et la quantité vendue.

En théorie, si le prix monte, les ventes devraient baisser. C'est simple. Mais dans la vraie vie, il y a souvent un problème caché : l'ingrédient "prix" n'est pas aussi innocent qu'il en a l'air. Il pourrait être influencé par des facteurs secrets (comme la qualité de la voiture ou la demande cachée) qui faussent votre recette. En jargon économique, on appelle cela de l'endogénéité.

Si vous ne détectez pas ce trucage, votre recette (votre modèle mathématique) sera fausse, et vous ne saurez jamais quel est le vrai goût (l'effet causal) du prix sur les ventes.

Le Problème : La recette standard est trop confiante

Jusqu'à présent, la plupart des méthodes statistiques (surtout dans le monde "Bayésien", qui utilise beaucoup les probabilités) faisaient une hypothèse de départ très risquée : elles supposaient que l'ingrédient "prix" était exogène, c'est-à-dire qu'il était parfaitement neutre et non influencé par les secrets de la cuisine.

C'est comme si un chef disait : "Je suis sûr à 100 % que le prix est juste le prix, sans aucune manipulation." Si cette hypothèse est fausse, tout le plat est raté.

La Solution : Le test de la "Recette Étendue"

Les auteurs de ce papier (Chib, Shin et Simoni) ont développé un nouveau test pour savoir si l'on doit faire confiance à la recette simple ou non. Voici comment ils procèdent, avec une analogie :

1. Les deux modèles (les deux recettes)

Imaginez que vous avez deux façons de cuisiner :

Le Modèle de Base (La recette simple) : Vous supposez que le prix est honnête. Vous utilisez toutes les informations disponibles pour faire votre plat. C'est la méthode classique.
Le Modèle Étendu (La recette de sécurité) : Vous supposez que le prix pourrait être truqué. Vous ajoutez un "ingrédient secret" (une variable cachée) dans votre recette pour corriger ce trucage potentiel. C'est une recette plus complexe, mais elle fonctionne même si le prix est truqué.

2. Le Dilemme du Chef

Si le prix est honnête (exogène), la recette simple est parfaite et la recette complexe est inutilement lourde (comme ajouter du sel à un plat qui n'en a pas besoin).
Si le prix est truqué (endogène), la recette simple est catastrophique, mais la recette complexe sauve le repas.

Le défi est de savoir laquelle choisir sans savoir à l'avance si le prix est truqué.

3. L'outil magique : La "Balance de la Preuve" (Le Facteur Bayésien)

Les auteurs utilisent une balance mathématique appelée Facteur Bayésien.

Cette balance compare les deux recettes.
Elle ne dit pas juste "Oui" ou "Non". Elle vous dit : "Regardez, les données (les ingrédients) soutiennent la recette complexe 10 fois plus que la recette simple." ou "La recette simple est beaucoup plus probable."

C'est comme si vous goûtiez le plat final : si le goût correspond parfaitement à la recette simple, vous choisissez celle-ci. Si le goût est bizarre et que seule la recette complexe (avec le correctif) explique ce goût, vous choisissez celle-là.

Comment ça marche techniquement (sans les maths) ?

Pour faire ce test, les auteurs utilisent une technique appelée "Vraisemblance Empirique Exponentiellement Inclina" (ETEL).

L'analogie : Imaginez que vous avez un tas de données (des observations de prix et de ventes). Normalement, on essaie de les faire rentrer dans une forme prédéfinie (une courbe).
La méthode ETEL : Au lieu de forcer les données dans une forme rigide, cette méthode "incline" légèrement les données pour qu'elles s'adaptent parfaitement aux règles mathématiques, tout en restant aussi proches que possible de la réalité brute. C'est comme si vous ajustiez la lumière d'une photo pour voir les détails cachés sans changer les objets eux-mêmes.

Les Résultats Clés

C'est fiable : Les auteurs ont prouvé mathématiquement que si vous avez assez de données (un grand nombre de clients), cette balance finira toujours par choisir la bonne recette.
- Si le prix est honnête, elle choisira la recette simple (parce qu'elle est plus économe).
- Si le prix est truqué, elle choisira la recette complexe (parce que la simple ne fonctionne pas).
Pas besoin de deviner la distribution : Contrairement à d'autres méthodes qui exigent de savoir exactement à quoi ressemble la "distribution" des erreurs (comme si on devait deviner la forme exacte de chaque goutte d'eau), cette méthode est très robuste. Elle fonctionne même si on ne connaît pas parfaitement la nature des erreurs.

Exemples concrets dans le papier

Les auteurs ont testé leur méthode sur deux cas réels :

Le marché automobile : Est-ce que le prix d'une voiture influence vraiment la demande, ou est-ce que le prix est juste un reflet d'autres facteurs (comme la qualité) ? Leur test a confirmé que le prix est bien endogène (truqué), et qu'il faut corriger le modèle pour avoir la vraie valeur de l'effet du prix.
Les billets d'avion : Est-ce que le prix d'un billet détermine le nombre de passagers ? Là encore, le test a permis de vérifier si l'on pouvait faire confiance aux données brutes ou s'il fallait corriger les biais.

En résumé

Ce papier propose une méthode intelligente pour détecter les mensonges dans les données.
Au lieu de faire confiance aveuglément à une hypothèse simple ("le prix est honnête"), il construit une balance qui compare une hypothèse simple contre une hypothèse plus prudente. Grâce à des mathématiques avancées mais élégantes, cette balance permet de choisir automatiquement la bonne approche, garantissant que les économistes ne tirent pas de conclusions fausses sur la façon dont les prix affectent notre vie quotidienne.

C'est un peu comme avoir un détecteur de mensonge statistique qui vous dit : "Attention, votre modèle de base est biaisé, passez au modèle de sécurité !"

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "Testing for Endogeneity: A Moment-Based Bayesian Approach" de Siddhartha Chib, Minchul Shin et Anna Simoni.

1. Problématique et Contexte

L'inférence bayésienne standard dans les modèles de régression linéaire repose souvent sur l'hypothèse d'exogénéité des régresseurs (c'est-à-dire l'absence de corrélation entre les variables explicatives et le terme d'erreur). En pratique, cette hypothèse est souvent violée, conduisant à des estimations biaisées et à une mauvaise spécification du modèle.

Bien que des méthodes fréquentistes existent pour tester l'exogénéité (comme le test de Durbin-Wu-Hausman), leur traduction dans un cadre bayésien n'est pas naturelle. La littérature bayésienne manque d'approches systématiques pour tester l'endogénéité en comparant directement des modèles, plutôt que des paramètres.

Objectif de l'article : Développer un test bayésien rigoureux pour l'endogénéité basé sur le Facteur de Bayes, utilisant le cadre de la Vraisemblance Empirique Exponentiellement Tiltée (ETEL - Exponentially Tilted Empirical Likelihood).

2. Méthodologie

L'approche proposée repose sur la comparaison de deux modèles concurrents au sein d'un cadre de modèles à conditions de moments semi-paramétriques.

A. Les Modèles Concurrents

Modèle de Base ( $M_b$ ) :
- Impose l'hypothèse d'exogénéité stricte : $E[\varepsilon(\theta)x] = 0$ .
- Si les régresseurs sont réellement endogènes, ce modèle est mal spécifié (misspecified).
- Il contient un nombre plus élevé de restrictions de sur-identification.
Modèle Étendu ( $M_e$ ) :
- Relâche la restriction d'exogénéité en paramétrant explicitement la covariance entre l'erreur et la variable endogène : $E[\varepsilon(\theta)x] = v$ .
- Le vecteur de paramètres devient $\psi = (\theta, v)$ .
- Ce modèle est correctement spécifié dans les deux cas (exogénéité ou endogénéité), car il inclut le paramètre $v$ qui peut être nul.

B. L'Estimation via ETEL

Au lieu de spécifier une distribution paramétrique pour les erreurs (ce qui risquerait une mauvaise spécification), les auteurs utilisent l'ETEL.

Fonction de vraisemblance : La vraisemblance est définie comme la solution à un problème d'optimisation qui maximise l'entropie (ou minimise la divergence de Kullback-Leibler) sous les contraintes de moments empiriques.
Postérieure : La distribution a posteriori est proportionnelle au produit de la vraisemblance ETEL et d'une densité a priori.
Calcul : Les vraisemblances marginales (nécessaires au Facteur de Bayes) sont calculées en utilisant l'identité de Chib (1995), adaptée aux chaînes MCMC de type Metropolis-Hastings.

C. Le Critère de Décision

Le test est basé sur le Facteur de Bayes ( $BF_{eb}$ ) comparant les vraisemblances marginales des deux modèles :
$BF_{eb} = \frac{m(w_{1:n} | M_e)}{m(w_{1:n} | M_b)}$

Si $\log(BF_{eb}) > 0$ , on sélectionne le modèle étendu ( $M_e$ ), concluant à l'endogénéité.
Sinon, on sélectionne le modèle de base ( $M_b$ ), concluant à l'exogénéité.

3. Contributions Clés

Construction explicite des modèles pour le test : Contrairement à des travaux antérieurs (Chib et al., 2018) qui expliquent comment comparer des modèles, cet article construit spécifiquement les modèles nécessaires pour tester l'hypothèse d'endogénéité dans un contexte de régression linéaire.
Nouvelle hypothèse d'existence de l'ETEL : Les auteurs introduisent une hypothèse garantissant que l'ensemble de faisabilité du problème d'optimisation ETEL n'est pas vide dans un voisinage du vrai paramètre avec une probabilité tendant vers 1. Cela résout un problème technique majeur où la fonction ETEL pourrait ne pas être définie pour certaines valeurs de paramètres.
Preuve directe de l'équivalence quadratique : Ils fournissent une preuve plus directe que la fonction log-ETEL est asymptotiquement équivalente à une fonction quadratique, exploitant la linéarité des restrictions de moments dans le cadre des variables instrumentales (VI).
Théorème de Bernstein-von Mises (BvM) et Consistance :
- Ils établissent un théorème BvM pour les modèles ETEL, même en cas de mauvaise spécification.
- Ils démontrent la consistance fréquentiste du test : lorsque la taille de l'échantillon $n \to \infty$ , le Facteur de Bayes sélectionne le modèle correct avec une probabilité tendant vers 1.
Décomposition de la vraisemblance marginale : Ils dérivent une nouvelle représentation asymptotique de la vraisemblance marginale log-ETEL. Celle-ci se décompose en :
- Un terme de divergence de Kullback-Leibler (KL) entre la vraie distribution et la distribution la plus proche satisfaisant les restrictions du modèle.
- Une pénalité de type BIC (Bayesian Information Criterion) qui émerge naturellement de la transformation de variables dans la densité a posteriori (via le Jacobien), et non imposée arbitrairement.

4. Résultats Théoriques et Asymptotiques

Cas d'Exogénéité : Si $x$ est exogène ( $v=0$ ), les deux modèles sont correctement spécifiés. Le terme de vraisemblance ETEL est asymptotiquement identique pour les deux modèles. Le choix se fait alors sur la base du principe de parcimonie : le modèle de base ( $M_b$ ), ayant moins de paramètres, est sélectionné car il possède une pénalité de dimension plus faible.
Cas d'Endogénéité : Si $x$ est endogène ( $v \neq 0$ ), le modèle de base est mal spécifié. La divergence KL pour $M_b$ est strictement positive, tandis qu'elle est nulle pour $M_e$ . La différence dans les termes de vraisemblance ETEL domine la pénalité de dimension, conduisant à la sélection du modèle étendu.
Comportement du Facteur de Bayes : Le test est cohérent : il sélectionne le modèle le plus proche de la vérité (en termes de KL) et, en cas d'égalité, le modèle le plus parcimonieux.

5. Applications et Résultats Empiriques

Les auteurs illustrent leur méthode par des simulations et deux exemples de données réelles :

Données Simulées : Les simulations montrent que le test sélectionne correctement le modèle étendu même pour des niveaux d'endogénéité faibles et des tailles d'échantillon modérées. La puissance du test augmente avec $n$ .
Demande Automobile (Modèle BLP) :
- Application à l'effet causal du prix sur la demande d'automobiles.
- Le test rejette l'hypothèse d'exogénéité du prix (le modèle étendu est préféré).
- L'estimation bayésienne de l'élasticité-prix est plus forte (en valeur absolue) lorsque l'endogénéité est prise en compte.
- L'ajout de contrôles non linéaires (splines) affine les résultats, montrant que la sensibilité excessive observée dans des modèles linéaires simples était partiellement due à l'omission de non-linéarités.
Trafic Aérien (Données de panel) :
- Analyse de l'effet des tarifs aériens sur le volume de passagers.
- Contrairement au cas automobile, ici, le test ne rejette pas l'exogénéité (le modèle de base est préféré), suggérant que le prix peut être traité comme exogène dans ce contexte spécifique.

6. Signification et Conclusion

Cet article apporte une contribution majeure à l'inférence bayésienne semi-paramétrique en offrant un outil rigoureux pour détecter l'endogénéité sans faire d'hypothèses distributionnelles fortes sur les erreurs.

Avantage méthodologique : Le test évite le risque de mauvaise spécification distributionnelle tout en fournissant une mesure de la force de l'évidence (Facteur de Bayes) plutôt qu'un simple rejet/non-rejet.
Pénalité intrinsèque : Une découverte théorique importante est que la pénalité nécessaire pour la consistance du modèle (analogue au BIC) émerge naturellement de la structure bayésienne via la concentration de la densité a posteriori, sans avoir besoin d'être ajoutée artificiellement.
Généralité : La méthode est extensible à des situations plus complexes, comme la sélection de modèles avec plusieurs variables potentiellement endogènes ou des spécifications fonctionnelles différentes (linéaire vs non-linéaire).

En résumé, cette approche fournit une alternative bayésienne robuste et cohérente aux tests classiques d'endogénéité, particulièrement utile dans les contextes économétriques où la distribution des erreurs est inconnue ou complexe.