Testing for Endogeneity: A Moment-Based Bayesian Approach

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que eres un detective intentando resolver un misterio en un mundo de datos. El caso es: "¿Están los sospechosos (las variables que estudiamos) realmente inocentes, o están conspirando con el crimen (el error del modelo)?"

Este paper, escrito por Chib, Shin y Simoni, presenta una nueva herramienta para la "estadística bayesiana" (una forma de pensar basada en la probabilidad y la evidencia) para resolver este problema. Aquí te lo explico como si fuera una historia:

1. El Problema: El Sospechoso "Endógeno"

Imagina que quieres saber si el precio de un auto afecta a cuánta gente lo compra.

La teoría simple: Si el precio sube, la gente compra menos.
La realidad (El problema): A veces, el precio no es solo un número que cae del cielo. Puede que los fabricantes suban el precio porque saben que la gente está muy emocionada con el modelo (un factor oculto).
En estadística, llamamos a esto endogeneidad. Significa que la variable que estudias (el precio) está "contaminada" o conectada con el error oculto. Si ignoras esto, tu conclusión será falsa (como culpar al clima por un accidente que fue culpa del conductor borracho).

La mayoría de los métodos estadísticos asumen que los sospechosos son inocentes (exógenos) hasta que se prueba lo contrario. Pero en la vida real, ¡a menudo no lo son!

2. La Solución: Dos Escenarios de Investigación

Los autores proponen una prueba muy inteligente que compara dos "historias" o modelos:

Modelo Base (La historia inocente): Asumimos que el precio es inocente. No hay conspiración. Todo es limpio.
Modelo Extendido (La historia realista): Asumimos que el precio podría ser culpable. Le damos un "espacio" en la ecuación para admitir que podría estar conspirando con el error.

La pregunta es: ¿Cuál de las dos historias explica mejor los datos que tenemos?

3. La Herramienta Mágica: La "Búsqueda de la Verdad" (ETEL)

Para comparar estas historias, no usan una fórmula rígida y antigua. Usan algo llamado Verdad Empírica Exponencialmente Inclinada (ETEL).

La analogía: Imagina que tienes un montón de datos (pesos, alturas, precios) y quieres encontrar el "peso promedio" perfecto que encaje con todos ellos.
Si los datos son "inocentes" (exógenos), el modelo base encuentra el peso perfecto fácilmente.
Si los datos son "culpables" (endógenos), el modelo base se queda atascado, como un coche en un charco de barro. No puede encontrar un peso que encaje bien.
El Modelo Extendido, en cambio, tiene un "traje de buceo". Puede sumergirse en el barro, ajustar su peso y encontrar la solución perfecta, incluso si hay conspiración.

La herramienta ETEL es como un detector de mentiras matemático. Calcula qué tan bien encaja cada historia con los datos reales sin tener que asumir que los datos siguen una forma de campana perfecta (lo cual es raro en la vida real).

4. El Veredicto: El "Factor Bayes"

Al final, el método calcula un Factor Bayes. Piensa en esto como un termómetro de confianza:

Si el termómetro marca "frío" (el modelo base es mejor), significa: "¡Cuidado! Los datos son limpios, el precio es inocente."
Si el termómetro marca "caliente" (el modelo extendido es mejor), significa: "¡Alerta! Hay una conspiración. El precio está endógeno y necesitamos ajustar nuestra historia."

Lo genial es que este método es consistente. Esto significa que si tienes suficientes datos (como un detective con miles de testigos), siempre encontrará la verdad. No se equivoca a largo plazo.

5. ¿Por qué es importante? (Los Ejemplos Reales)

Los autores probaron su método con dos casos reales:

Autos: Analizaron cómo el precio afecta la demanda de autos. Descubrieron que, si ignoras la endogeneidad, subestimas cuánto odia la gente los precios altos. Al usar su método, vieron que el efecto del precio es aún más fuerte de lo que pensábamos.
Aviones: Miraron cómo el precio de los boletos afecta cuánta gente vuela. De nuevo, el método detectó que el precio no es tan inocente como parecía, y ajustó la predicción correctamente.

En Resumen

Imagina que estás cocinando.

El Modelo Base es como seguir una receta a ciegas, asumiendo que todos los ingredientes son perfectos.
El Modelo Extendido es como un chef experto que prueba la salsa y dice: "Oye, esta sal está un poco extraña, hay algo raro aquí".
Este paper nos da la lengua de prueba perfecta (el método Bayesiano con ETEL) para saber cuándo debemos seguir la receta simple y cuándo debemos admitir que hay un ingrediente secreto (endogeneidad) que está arruinando el plato.

La moraleja: No asumas que todo es limpio. Usa esta nueva herramienta para detectar si tus variables están "sucias" y ajusta tu análisis para obtener la verdad real. ¡Es como tener superpoderes para ver la conspiración en los datos!

Each language version is independently generated for its own context, not a direct translation.

1. El Problema

En la estimación bayesiana de modelos de regresión lineal, un supuesto estándar es que los regresores son exógenos (no correlacionados con el término de error). Sin embargo, en la práctica, esta suposición a menudo es inválida debido a la endogeneidad (por ejemplo, por variables omitidas o simultaneidad).

El desafío: Los métodos frecuentistas para probar la endogeneidad (como la prueba de Durbin-Wu-Hausman) no se traducen naturalmente al marco bayesiano.
La necesidad: Se requiere un método bayesiano que pueda comparar modelos con y sin endogeneidad sin depender de supuestos distribucionales paramétricos fuertes sobre los errores o las variables, y que sea consistente en grandes muestras.

2. Metodología Propuesta

Los autores desarrollan una prueba basada en el Factor de Bayes utilizando el marco de la Verosimilitud Empírica Exponencialmente Inclinada (ETEL, por sus siglas en inglés).

A. Estructura de los Modelos

Se comparan dos especificaciones de modelos de condiciones de momento:

Modelo Base ( $M_b$ ): Asume exogeneidad. Impone las condiciones de momento:
$E[\varepsilon(\theta)x] = 0, \quad E[\varepsilon(\theta)z_1] = 0, \quad E[\varepsilon(\theta)z_2] = 0$
Donde $x$ es el tratamiento de interés, $z_1$ son controles y $z_2$ son instrumentos. Si $x$ es endógeno, este modelo está mal especificado.
Modelo Extendido ( $M_e$ ): Relaja la restricción de exogeneidad de $x$ introduciendo un parámetro adicional $v$ que captura la covarianza entre el error y $x$ :
$E[\varepsilon(\theta)x] = v$
Este modelo está correctamente especificado tanto si $x$ es exógeno ( $v=0$ ) como endógeno ( $v \neq 0$ ).

B. Estimación y Verosimilitud

ETEL: En lugar de asumir una distribución paramétrica para los datos, el método utiliza la verosimilitud empírica inclinada exponencialmente. Esto permite inferencia semiparamétrica robusta a la mala especificación de la distribución conjunta de $(y, x, z)$ .
Factor de Bayes: La prueba se basa en la comparación de las verosimilitudes marginales de ambos modelos:
$BF_{eb} = \frac{m(w_{1:n}|M_e)}{m(w_{1:n}|M_b)}$
Si $\log(BF_{eb}) > 0$ , se selecciona el modelo extendido (evidencia de endogeneidad); de lo contrario, se selecciona el modelo base.

C. Descomposición de la Verosimilitud Marginal

Utilizando la identidad de Chib (1995), los autores descomponen el log-verosimilitud marginal en tres partes:

El log-ETEL (que se comporta asintóticamente como $-n \times KL$ ).
El log-prior.
El log-posterior (que introduce una penalización dependiente de la dimensión del modelo, análoga al criterio BIC).

3. Contribuciones Clave

El artículo aporta varias innovaciones teóricas y metodológicas significativas:

Construcción explícita de modelos para pruebas de endogeneidad: A diferencia de trabajos previos (como Chib et al., 2018) que se centran en la comparación general de modelos, este trabajo define explícitamente cómo construir los modelos base y extendidos necesarios para probar hipótesis de endogeneidad específicas.
Nueva suposición de existencia para ETEL: Introducen una suposición (Asunción 1) que garantiza que el conjunto de distribuciones que satisfacen las condiciones de momento no es vacío con probabilidad tendiente a 1, incluso bajo mala especificación. Esto asegura que la función ETEL esté bien definida en una vecindad del parámetro verdadero, un requisito previo ausente en la literatura ETEL existente.
Prueba directa de la propiedad LAN (Local Asymptotic Normality): Proporcionan una prueba más directa y simplificada de que la función log-ETEL satisface la propiedad de Normalidad Asintótica Local Estocástica, aprovechando la linealidad en $\theta$ de las restricciones de momento en la regresión IV. Esto evita el uso de teoría de procesos empíricos complejos utilizados en trabajos anteriores.
Teorema de Bernstein-von Mises y Consistencia: Establecen un teorema de Bernstein-von Mises para modelos de momentos bajo especificación correcta y incorrecta. Demuestran que la prueba es consistente:
- Si $x$ es exógeno, el Factor de Bayes selecciona el modelo base ( $M_b$ ) con probabilidad 1 (debido a la penalización por el número de parámetros, favoreciendo la parsimonia).
- Si $x$ es endógeno, selecciona el modelo extendido ( $M_e$ ) con probabilidad 1 (porque la diferencia en la divergencia KL domina la penalización).
Interpretación de la penalización: Clarifican que la penalización en la selección de modelos surge endógenamente de la concentración del posterior a través de una reparametrización local, en lugar de ser impuesta ad hoc.

4. Resultados Principales

Resultados Teóricos

Teorema 4.1: Establece la equivalencia entre la endogeneidad y una divergencia de Kullback-Leibler (KL) estrictamente positiva entre la distribución verdadera y la proyección del modelo base.
Teoremas 4.4 y 4.5: Demuestran la consistencia del procedimiento de prueba. El factor de Bayes selecciona el modelo correcto (el que minimiza la divergencia KL) con probabilidad asintótica 1. Cuando ambos modelos son correctos (exogeneidad), se selecciona el más parsimonioso.
Descomposición Asintótica: Se muestra que el log-verosimilitud marginal se comporta como una suma de la divergencia KL y una penalización tipo BIC ( $\frac{k}{2}\log n$ ).

Resultados Empíricos y Simulaciones

Simulaciones Monte Carlo: Los experimentos muestran que el método tiene un alto poder de discriminación incluso en muestras pequeñas y con niveles bajos de endogeneidad ( $\rho$ cercano a 0). El método supera a criterios de selección de modelos frecuentistas basados en GMM (como GMM-BIC, GMM-AIC) en términos de precisión para detectar endogeneidad en muestras finitas.
Ejemplo 1: Demanda de Automóviles (Modelo BLP):
- Se aplica al modelo clásico de Berry, Levinsohn y Pakes (1995).
- Se comparan especificaciones lineales y no lineales (con splines) bajo exogeneidad y endogeneidad.
- Hallazgo: El modelo extendido (endógeno) tiene una verosimilitud marginal mayor, confirmando que el precio es endógeno. Además, al incorporar no linealidades, el efecto del precio estimado es más preciso y la sensibilidad excesiva observada en modelos lineales simples disminuye.
Ejemplo 2: Tarifas Aéreas y Tráfico de Pasajeros:
- Se utiliza un modelo de datos longitudinales agrupados (panel).
- Se prueba la exogeneidad de las tarifas aéreas ( $lfare$ ) en la demanda de pasajeros.
- Hallazgo: La prueba sugiere que las tarifas pueden considerarse exógenas en este contexto específico, demostrando la flexibilidad del método para diferentes estructuras de datos.

5. Significado e Impacto

Este trabajo es fundamental por varias razones:

Puente entre Frecuentismo y Bayesiano: Ofrece un análogo bayesiano riguroso a la prueba de especificación de Hausman, permitiendo a los investigadores bayesianos realizar pruebas de endogeneidad sin depender de la especificación paramétrica completa de la distribución de errores.
Robustez: Al basarse en condiciones de momento y ETEL, el método es robusto a la mala especificación de la forma funcional de la distribución de los datos, un problema común en econometría aplicada.
Selección de Modelos Consistente: Proporciona una justificación teórica sólida para el uso del Factor de Bayes en la selección de modelos de momentos, demostrando que el criterio de parsimonia emerge naturalmente de la estructura del posterior.
Aplicabilidad Práctica: Los ejemplos empíricos demuestran que el método es computacionalmente viable (usando algoritmos MCMC adaptados) y útil para problemas económicos reales complejos, como la estimación de elasticidades de demanda con variables endógenas.

En resumen, el artículo proporciona un marco teórico y práctico robusto para diagnosticar y manejar la endogeneidad en un entorno bayesiano semiparamétrico, resolviendo una brecha importante en la literatura econométrica.