Testing for Endogeneity: A Moment-Based Bayesian Approach

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die probeert het verhaal van een economisch fenomeen te reconstrueren. Je hebt een lijst met feiten (data) en je wilt weten: Wat veroorzaakt wat?

In de econometrie (de wiskunde van economie) is dit vaak lastig. Stel, je wilt weten of een hogere prijs voor auto's leidt tot minder verkopen. Dat lijkt logisch: prijs omhoog, verkoop omlaag. Maar wat als er een verborgen factor is? Misschien zijn de auto's in die periode ook gewoon van hogere kwaliteit, of is de economie zo goed dat mensen minder op de prijs letten? Als je die verborgen factor niet meet, lijkt het alsof de prijs de verkoop beïnvloedt, terwijl het eigenlijk de kwaliteit is. In de vakjargon noemen we dit endogeniteit: de variabele die je bestudeert (prijs) is "besmet" door andere onbekende krachten.

Dit paper, geschreven door Chib, Shin en Simoni, biedt een nieuwe, slimme manier om dit probleem op te lossen, specifiek binnen de Bayesiaanse statistiek. Hier is de uitleg in simpele taal, met een paar creatieve metaforen.

1. Het Probleem: De Twee Verdachten

Stel je een rechtszaak voor. Je hebt twee verdachten die elk een verhaal vertellen over hoe de wereld werkt:

Verdachte A (Het Basismodel): Dit verhaal zegt: "Alles is eerlijk. De prijs is puur toevallig gekoppeld aan de verkoop, er is geen verborgen samenzwering." Dit is het standaard verhaal dat economen vaak aannemen omdat het makkelijk is.
Verdachte B (Het Uitgebreide Model): Dit verhaal zegt: "Nee, wacht! Er is een verborgen samenzwering. De prijs is beïnvloed door iets anders (zoals kwaliteit), en dat moeten we meerekenen."

De vraag is: Welk verhaal is waar?

In de oude methoden (frequentistische statistiek) keek je vaak naar p-waarden en probeerde je te bewijzen dat Verdachte A onschuldig is. Maar in de wereld van Bayesiaanse statistiek (waar dit paper over gaat) kijken we naar bewijskracht. We vragen: "Welk verhaal past het beste bij de feiten die we hebben?"

2. De Oplossing: De "Exponentiële Tilt" (De Magische Weegschaal)

Het paper gebruikt een techniek genaamd Exponentially Tilted Empirical Likelihood (ETEL). Dat klinkt als wiskundige onzin, maar stel het je voor als een magische weegschaal.

Normaal gesproken zou je elke data-punt (bijvoorbeeld de verkoop van auto's op dag 1, dag 2, etc.) even zwaar laten wegen. Maar als je vermoedt dat je model (Verdachte A) niet klopt, dan passen de gewichten niet.

De ETEL-techniek is als een slimme weegschaal die de gewichten van de data-punten verandert (tilt) zodat ze precies in evenwicht komen met de regels van het model.

Als het model klopt, hoeft de weegschaal nauwelijks te schuiven.
Als het model niet klopt (bijvoorbeeld omdat er endogeniteit is), moet de weegschaal de gewichten extreem verdraaien om de regels toch maar te laten kloppen. Dat kost veel "energie" (of in wiskundige termen: het kost veel informatie).

3. De Test: De Bayes Factor (De Rechter)

De auteurs bouwen nu een Bayes Factor. Dit is de rechter die de twee verhalen vergelijkt.

De rechter kijkt naar de marginal likelihood: hoe waarschijnlijk is het dat de data precies zo is ontstaan onder Verdachte A versus Verdachte B?
Als Verdachte A (de simpele, eerlijke versie) waar is, past de data er perfect bij. De "energie" die nodig is om de weegschaal in evenwicht te brengen, is minimaal.
Als Verdachte B (de versie met verborgen samenzwering) waar is, dan faalt Verdachte A. De weegschaal moet extreem verdraaid worden, wat betekent dat het verhaal van Verdachte A slecht past bij de data.

De grote doorbraak van dit paper:
Ze bewijzen wiskundig dat hun methode altijd de juiste keuze maakt als je genoeg data hebt.

Als er geen verborgen samenzwering is (de regressoren zijn exogeen), kiest de rechter automatisch voor het simpele verhaal (Verdachte A).
Als er wel een verborgen samenzwering is (endogeniteit), kiest de rechter automatisch voor het uitgebreide verhaal (Verdachte B).

Het is alsof je een detector hebt die onfeilbaar is: hoe meer data je verzamelt, hoe zekerder je wordt dat je de juiste oorzaak-gevolg relatie hebt gevonden.

4. De Praktijk: Auto's en Vliegtickets

Om te laten zien dat dit niet alleen theorie is, testen ze het op twee echte problemen:

Autoverkopen: Ze kijken naar de relatie tussen auto-prijzen en vraag. Het oude verhaal (dat prijs exogeen is) bleek te simpel. De data toonde aan dat er een verborgen factor was. Het uitgebreide model (dat rekening hield met endogeniteit) won het ruimschoots. Dit betekent dat als je de "verborgen factor" negeert, je de prijsgevoeligheid van consumenten verkeerd inschat.
Vliegtickets: Ze keken naar de prijs van vliegtickets en het aantal passagiers. Ook hier bleek dat de prijs vaak endogeen is (bijvoorbeeld omdat vliegtuigen op drukke routes duurder zijn én meer passagiers trekken). Het nieuwe model kon dit onderscheid maken en gaf een nauwkeuriger beeld van de werkelijke elasticiteit.

Samenvatting in één zin

Dit paper introduceert een slimme, wiskundige "detective" die, door de data op een unieke manier te wegen, onfeilbaar kan bepalen of een economische variabele (zoals prijs) eerlijk is of "besmet" door verborgen factoren, en zo de juiste conclusie trekt over oorzaak en gevolg.

Het is een stap voorwaarts in het begrijpen van de echte wereld, waar dingen zelden zo simpel zijn als ze op het eerste gezicht lijken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Testing for Endogeneity: A Moment-Based Bayesian Approach" van Chib, Shin en Simoni, geschreven in het Nederlands.

1. Probleemstelling

In de Bayesiaanse schatting van lineaire regressiemodellen wordt vaak aangenomen dat de regressors exogeen zijn, d.w.z. dat ze niet gecorreleerd zijn met de foutterm ( $\varepsilon$ ). In de praktijk is deze aanname echter vaak ongeldig (endogeniteit), wat leidt tot ernstige specificatiefouten en vertekende schattingen van causale effecten.

Hoewel frequentistische methoden bestaan om endogeniteit te testen (zoals de Durbin-Wu-Hausman test), zijn deze niet direct vertaalbaar naar het Bayesiaanse raamwerk. Bestaande Bayesiaanse benaderingen voor momentvoorwaardenmodellen (zoals Chib et al., 2018) focussen op modelvergelijking, maar bieden geen specifieke constructie voor het testen van endogeniteit in praktische toepassingen. Er is behoefte aan een methode die:

Endogeniteit test door modellen te vergelijken in plaats van parameters.
Geen sterke distributieaannames maakt (robustheid).
Consistent is (in grote steekproeven het juiste model selecteert).

2. Methodologie

De auteurs ontwikkelen een Bayesiaanse test voor endogeniteit binnen het raamwerk van Exponentially Tilted Empirical Likelihood (ETEL). Dit is een semiparametrische aanpak die alleen steun op momentvoorwaarden en geen parametrische aannames over de gezamenlijke verdeling van de data maakt.

Het Modelraamwerk:
Er worden twee concurrerende modellen gedefinieerd:

Het Basismodel ( $M_b$ ): Dit model veronderstelt exogeniteit. De momentvoorwaarden zijn:
$E[\varepsilon(\theta)x] = 0, \quad E[\varepsilon(\theta)z_1] = 0, \quad E[\varepsilon(\theta)z_2] = 0$
Hierbij is $x$ de behandeling, $z_1$ exogene controles en $z_2$ instrumentvariabelen. Als $x$ endogeen is, is dit model verkeerd gespecificeerd (misspecified).
Het Uitgebreide Model ( $M_e$ ): Dit model maakt de endogeniteit expliciet door een extra parameter $v$ in te voeren die de covariantie tussen de foutterm en $x$ vastlegt:
$E[\varepsilon(\theta)x] = v$
De momentvoorwaarden worden:
$E[\varepsilon(\theta)x] = v, \quad E[\varepsilon(\theta)z_1] = 0, \quad E[\varepsilon(\theta)z_2] = 0$
Dit model is correct gespecificeerd in zowel de exogene als de endogene situatie.

De Testprocedure:
De test is gebaseerd op de Bayes-factor ( $BF_{eb}$ ), gedefinieerd als de verhouding van de marginale waarschijnlijkheid (marginal likelihood) van het uitgebreide model versus het basismodel:
$BF_{eb} = \frac{m(w_{1:n}|M_e)}{m(w_{1:n}|M_b)}$
De auteurs gebruiken de identiteit van Chib (1995) om de log-marginale waarschijnlijkheid te decomponeren in:

De log-ETEL (sample likelihood).
De log-prior.
De negatieve log-posterior dichtheid (ordinaten).

Asymptotische Analyse:
De kern van de methodologie ligt in de analyse van het gedrag van de log-marginale ETEL bij grote steekproeven ( $n \to \infty$ ). De auteurs tonen aan dat deze log-waarde asymptotisch gelijk is aan:
$-n \cdot KL(P || Q^*) + \text{Penalty} + O_p(1)$
Waarbij $KL$ de Kullback-Leibler-divergentie is tussen de ware verdeling $P$ en de dichtstbijzijnde verdeling die voldoet aan de momentvoorwaarden ( $Q^*$ ), en de "Penalty" term afhangt van het aantal parameters (vergelijkbaar met BIC).

3. Belangrijkste Bijdragen

De paper levert drie significante methodologische bijdragen:

Constructie van Testmodellen: In tegenstelling tot eerdere werken (zoals Chib et al., 2018) die uitleggen hoe modellen vergeleken moeten worden, construeren de auteurs hier expliciet de specifieke modellen ( $M_b$ en $M_e$ ) die nodig zijn om het specifieke probleem van endogeniteit te testen.
Bestaansvoorwaarde voor ETEL: De auteurs introduceren een nieuwe aanname die garandeert dat de ETEL-functie bestaat in een omgeving van de ware parameterwaarde. Dit lost een fundamenteel probleem op: bij bepaalde parameterwaarden kan het optimisatieprobleem van de ETEL een lege toelaatbare set hebben. Zonder deze aanname kunnen afgeleiden niet worden gedefinieerd, wat essentieel is voor zowel frequentistische als Bayesiaanse inferentie.
Directe Bewijsvoering en Asymptotiek: Ze leveren een directer bewijs dat de ETEL-functie asymptotisch equivalent is aan een kwadratische functie. Dit ondersteunt een Bernstein-von Mises stelling voor momentvoorwaardenmodellen. Hieruit volgt een nieuwe asymptotische representatie van de log-marginale waarschijnlijkheid die de rol van de "penalty" (afkomstig van de Jacobiaan van een transformatie van lokale parameters) expliciet maakt.

4. Resultaten

Theoretische Consistentie:
De auteurs bewijzen dat de testprocedure consistent is vanuit een frequentistisch oogpunt:

Als $x$ exogeen is: De log-marginale waarschijnlijkheid van het basismodel ( $M_b$ ) is asymptotisch groter dan die van het uitgebreide model ( $M_e$ ), omdat $M_b$ minder parameters heeft (parsimonie) en beide modellen correct gespecificeerd zijn. De Bayes-factor selecteert dus $M_b$ .
Als $x$ endogeen is: Het basismodel is verkeerd gespecificeerd, wat leidt tot een grote KL-divergentie. De log-ETEL term van het uitgebreide model domineert de straffende termen. De Bayes-factor selecteert dus $M_e$ met waarschijnlijkheid 1 naarmate $n$ toeneemt.

Dit betekent dat de test correct onderscheidt tussen de twee data-genererende processen en dat de "penalty" term alleen een rol speelt bij het selecteren van het juiste model wanneer de regressors exogeen zijn.

Empirische Illustraties:

Simulaties: De methode presteert uitstekend in Monte Carlo experimenten, zelfs bij kleine steekproeven en bij zwakke endogeniteit. Het slaagt erin het juiste model te selecteren met hoge frequentie.
Autorequest (BLP Model): Toepassing op de vraag naar auto's (Berry, Levinsohn, Pakes). De test bevestigt dat prijzen endogeen zijn. Het uitgebreide model levert een groter (in absolute waarde) prijselasticiteit op dan het basismodel, wat aangeeft dat het negeren van endogeniteit de gevoeligheid voor prijzen onderschat.
Vliegticketprijzen: Toepassing op passagiersvolume en vliegticketprijzen. Hier concludeert de test dat prijzen exogeen zijn, wat resulteert in de selectie van het basismodel.

5. Betekenis en Conclusie

Deze paper biedt een robuust, semiparametrisch Bayesiaans alternatief voor het testen van endogeniteit. De belangrijkste implicaties zijn:

Vermijden van Distributieaannames: Door alleen te vertrouwen op momentvoorwaarden (via ETEL) is de methode robuust tegen mis-specificatie van de verdeling van de fouttermen, wat vaak een probleem is in traditionele Bayesiaanse IV-methoden.
Bayesiaanse Analogie van de Hausman-test: De methode fungeert als een Bayesiaanse tegenhanger van de klassieke Hausman-test, maar gebruikt modelvergelijking (via Bayes-factoren) in plaats van parametervergelijking.
Intrinsieke Straffing: De consistentie van de test wordt niet afgedwongen door een externe straffingsparameter (zoals bij AIC/BIC), maar ontstaat organisch uit de Bayesiaanse berekening van de marginale waarschijnlijkheid en de dimensie van het model.
Praktische Toepasbaarheid: De methode is toepasbaar op complexe scenario's, inclusief niet-lineaire specificaties en geclusterde longitudinale data, zoals aangetoond in de empirische voorbeelden.

Kortom, de auteurs bieden een theoretisch onderbouwde en praktisch bruikbare oplossing voor een van de meest voorkomende problemen in de econometrie: het betrouwbaar testen en corrigeren van endogeniteit binnen een Bayesiaans raamwerk.

Testing for Endogeneity: A Moment-Based Bayesian Approach

1. Het Probleem: De Twee Verdachten

2. De Oplossing: De "Exponentiële Tilt" (De Magische Weegschaal)

3. De Test: De Bayes Factor (De Rechter)

4. De Praktijk: Auto's en Vliegtickets

Samenvatting in één zin

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Mathematical Proof

On the intrinsic geometry of polyhedra: Convex polygon coordinates

A finite element continuous data assimilation framework for a Navier--Stokes--Cahn--Hilliard system

An efficient predictor-corrector approach with orthogonal spline collocation finite element technique for FitzHugh-Nagumo problem

The structure of group-labeled graphs forbidding an immersion