Verifying the existence of maximum likelihood estimates for generalized linear models

Each language version is independently generated for its own context, not a direct translation.

Imagina que eres un chef intentando crear la receta perfecta para un plato (un modelo estadístico) basándote en los ingredientes que tienes en tu cocina (tus datos). Tu objetivo es encontrar la combinación exacta de especias (los parámetros del modelo) que haga que el plato sepa increíblemente bien (maximice la probabilidad de que tus datos sean reales).

En el mundo de la economía y las estadísticas, esto se llama Estimación de Máxima Verosimilitud. Pero, como explican Sergio Correia, Paulo Guimarães y Tom Zylkin en este artículo, a veces hay un problema fundamental: a veces, no importa cuánto intentes, no existe una receta perfecta.

Aquí te explico de qué trata el artículo usando analogías sencillas:

1. El Problema de la "Separación" (El Muro Invisible)

Imagina que estás intentando predecir si un cliente comprará un producto (Sí/No) o cuántas unidades comprará. Tienes una variable, digamos "tener un cupón", que parece ser el factor decisivo.

La situación normal: Algunos clientes con cupón compran, otros no. Algunos sin cupón compran, otros no. Hay mezcla. Tu modelo puede encontrar un punto medio y decir: "El cupón aumenta las ventas en un 20%".
La "Separación": Imagina que ocurre algo extraño: Todos los clientes que tienen el cupón compran, y nadie que no tenga el cupón compra. O peor aún, en un modelo de conteo (como cuántas veces alguien viaja), hay un grupo de personas que nunca viajan, y tu modelo descubre que si le das una "especia" infinita a esa variable, el modelo predice perfectamente que no viajarán.

En este caso, el modelo intenta ajustar la "especia" (el coeficiente) para que sea infinita para lograr esa predicción perfecta. Pero en la realidad, no puedes tener un número infinito. Es como intentar llenar un vaso con agua hasta el infinito; el vaso se desborda y el modelo se rompe. A esto los autores lo llaman Separación.

2. ¿Por qué es un problema nuevo y peligroso?

Antes, los economistas sabían que esto pasaba en modelos simples (como predecir si alguien vota o no). Pero ahora, con los modelos modernos que usan miles de variables fijas (como datos de millones de personas, empresas, años y países a la vez), el problema se ha vuelto mucho más común y difícil de detectar.

Es como si tuvieras un rompecabezas de 10 millones de piezas. Si una sola pieza está mal colocada (separación), todo el modelo puede fallar, pero es tan grande que nadie nota cuál es la pieza defectuosa hasta que el resultado final es un desastre.

3. La Solución: "El Filtro de la Realidad"

El artículo no solo explica el problema, sino que ofrece una solución práctica y elegante.

La idea clave:
Si el modelo se rompe porque intenta predecir algo con una "especia infinita", la solución no es cambiar la receta, sino reconocer que ciertas observaciones son "demasiado perfectas" para el modelo.

La analogía del entrenador: Imagina un entrenador de fútbol que quiere predecir quién ganará el partido. Si un equipo nunca ha perdido en casa, el entrenador podría intentar decir que su habilidad es "infinita". Pero eso no es útil. En su lugar, el entrenador dice: "Estos partidos en casa son casos especiales. Los pondré en una lista aparte y analizaré el resto del equipo para ver quiénes son realmente buenos".

Lo que hacen los autores:

Detectan los casos "perfectos": Identifican qué observaciones (datos) están causando que el modelo quiera usar números infinitos.
Los apartan: Eliminan temporalmente esos datos "problemáticos" de la ecuación principal.
Recalculan: Con el resto de los datos (que sí tienen mezcla y variación), el modelo encuentra una solución perfecta y estable.
El resultado: Los coeficientes que sí importan (los que no son infinitos) se calculan correctamente. Y, curiosamente, el modelo sigue siendo capaz de predecir los casos "perfectos" que se apartaron, porque ya sabemos que son casos extremos.

4. La Nueva Herramienta: "El Rectificador Iterativo"

El mayor aporte del artículo es un nuevo algoritmo (un método de cálculo) llamado "Rectificador Iterativo".

El problema anterior: Para encontrar estos datos "perfectos" en un modelo gigante, antes había que resolver un problema matemático tan complejo (programación lineal de alta dimensión) que las computadoras tardaban años o se quedaban colgadas. Era como intentar encontrar una aguja en un pajar usando un microscopio de mano.
La nueva herramienta: Los autores crearon un método que es como un tamiz inteligente. En lugar de buscar la aguja a ciegas, el método "sacude" los datos repetidamente (iterativamente) usando una técnica de regresión pesada.
- Si un dato es "normal", pasa a través del tamiz.
- Si un dato es "separado" (el problema), queda atrapado en el tamiz.
- Es rápido, funciona incluso con millones de datos y no necesita superordenadores.

5. ¿Por qué nos importa esto?

Este artículo es vital para economistas, científicos de datos y cualquier persona que use modelos para tomar decisiones.

Sin esta solución: Un investigador podría publicar un estudio diciendo "El libre comercio aumenta las exportaciones en un 500%" (un número inflado por un error de separación), cuando en realidad el modelo estaba roto.
Con esta solución: Pueden limpiar sus datos, encontrar los casos extremos, separarlos y obtener resultados honestos y precisos.

En resumen:
El artículo nos dice: "No te asustes si tu modelo no encuentra una solución perfecta. A veces, es porque hay algunos datos que son demasiado extremos. En lugar de forzar el modelo, identifica esos datos extremos, ponlos a un lado, y deja que el modelo trabaje con el resto. Así obtendrás respuestas reales y confiables".

Es como decir: "Si intentas adivinar el precio de una casa y hay una casa que se vendió por un millón de dólares porque era un castillo mágico, no uses ese dato para calcular el precio promedio de los barrios normales. Sepáralo, calcula el promedio de los barrios normales, y luego trata el castillo por separado".

Each language version is independently generated for its own context, not a direct translation.

A continuación presento un resumen técnico detallado del artículo "Verifying the existence of maximum likelihood estimates for generalized linear models" de Sergio Correia, Paulo Guimarães y Tom Zylkin.

1. El Problema: No Existencia de Estimadores MLE en GLMs

El problema central abordado en el artículo es la no existencia de estimadores de máxima verosimilitud (MLE) en modelos lineales generalizados (GLM) no lineales. Aunque este fenómeno es bien conocido en los modelos de respuesta binaria (logit y probit) bajo el concepto de "separación" (separation), los autores señalan que:

Ambigüedad Generalizada: La no existencia de soluciones MLE es un problema potencial para una amplia clase de GLMs, incluyendo modelos de conteo (Poisson, Binomial Negativo) y modelos de respuesta continua (Gamma, Gaussiano), pero a menudo pasa desapercibido en la investigación aplicada económica.
Desafío de Dimensionalidad: El problema se magnifica en modelos con efectos fijos de alta dimensión (múltiples niveles de efectos fijos), comunes en la literatura de comercio internacional y economía aplicada.
Falta de Criterios Claros: A diferencia de los modelos binarios, para modelos como Poisson o Gamma no existen criterios agudos y ampliamente conocidos para determinar cuándo fallan las estimaciones, especialmente cuando hay ceros en la variable dependiente.
Consecuencias Prácticas: La falta de detección puede llevar a que los algoritmos de optimización no converjan, converjan a valores incorrectos o produzcan estimaciones infinitas que se interpretan erróneamente como valores finitos extremos.

2. Metodología y Marco Teórico

Los autores desarrollan un marco teórico unificado basado en la literatura estadística previa (Verbeek, 1989; Aickin, 1979; Geyer, 1990) pero extendiéndolo a estimadores de pseudo-máxima verosimilitud (PML) y a entornos de alta dimensión.

A. Condiciones de Existencia (Separación)

Definen la separación como la existencia de una combinación lineal de regresores $z_i = x_i \gamma^*$ que cumple ciertas condiciones dependiendo del valor de la variable dependiente $y_i$ :

Para $y_i = 0$ : $z_i \leq 0$ .
Para $0 < y_i < y $(valores intermedios):$ z_i = 0$.
Para $y_i = y$ (límite superior, si existe): $z_i \geq 0$ .

Si existe tal vector $\gamma^*$ , la función de verosimilitud crece indefinidamente en la dirección de $\gamma^*$ y no existe un máximo finito.

B. Diferencias entre Estimadores

El artículo hace una distinción crucial entre diferentes tipos de GLMs:

Modelos con Likelihood Acotada (Poisson, Logit, Probit): Si ocurre separación, los estimadores de los parámetros lineales que no están involucrados en la separación siguen siendo consistentes y finitos. La separación actúa de manera similar a la colinealidad perfecta en la submuestra de observaciones no separadas.
Modelos con Likelihood No Acotada (Gamma PML, Inverse Gaussian PML): Estos estimadores tienen condiciones de existencia mucho más estrictas. Incluso si hay "solapamiento" (overlap) en los datos, la verosimilitud puede divergir si hay ceros en la variable dependiente. Esto implica que el uso de Gamma PML en datos con ceros (común en comercio y salud) es riesgoso y puede no tener solución.

C. Solución Teórica: El Modelo Compactificado

Los autores proponen tratar el problema en un espacio de parámetros "compactificado" donde los coeficientes pueden tomar valores en $[-\infty, +\infty]$ .

Resultado Clave (Proposición 3): En un modelo compactificado, la función de verosimilitud siempre tiene un máximo. Las observaciones separadas (aquellas donde el predictor lineal tiende a $\pm \infty$ ) tienen un gradiente (score) que tiende a cero.
Implicación Práctica: Se puede obtener estimaciones consistentes y válidas para los parámetros finitos excluyendo las observaciones separadas de la muestra de estimación. Esto es equivalente a estimar un modelo reparametrizado donde los coeficientes separados son infinitos, pero las combinaciones lineales finitas y los otros coeficientes se mantienen consistentes.

D. Algoritmo de Detección: "Iterative Rectifier" (IR)

Para resolver el problema de detectar separación en modelos de alta dimensión (donde la programación lineal tradicional es computacionalmente inviable), proponen un nuevo algoritmo:

Mecanismo: Utiliza una regresión de mínimos cuadrados ponderados (WLS) iterativa.
Procedimiento:
1. Define una variable artificial $u_i$ (negativa si $y_i=0$ , cero si $y_i>0$ ) y pesos $\omega_i$ (muy altos para $y_i>0$ ).
2. Regresa $u_i$ sobre $x_i$ con los pesos.
3. Actualiza $u_i$ en las observaciones con $y_i=0$ usando una función rectificadora lineal ( $u_i = \min(\hat{u}_i, 0)$ ).
4. Repite hasta convergencia.
Ventaja: Si el algoritmo converge con predicciones $\hat{u}_i < 0$ para algunas observaciones, estas son las observaciones separadas. El método aprovecha las innovaciones de Correia (2017) para resolver problemas de mínimos cuadrados de alta dimensión en tiempo casi lineal, evitando la programación lineal explícita.

3. Contribuciones Clave

Unificación Teórica: Demuestran que la no existencia de MLE es un problema generalizado en GLMs, no solo en modelos binarios, y clarifican las condiciones necesarias y suficientes para Poisson, Gamma PML, etc.
Consistencia Parcial: Establecen que, incluso cuando los MLE no existen (coeficientes infinitos), los parámetros lineales que no participan en la separación pueden estimarse consistentemente excluyendo las observaciones separadas.
Advertencia sobre Gamma PML: Alertan que los estimadores Gamma PML e Inverse Gaussian PML tienen condiciones de existencia más restrictivas que Poisson y son más propensos a fallar en presencia de ceros, desaconsejando su uso sin verificación rigurosa en contextos con muchos ceros.
Algoritmo Escalable (IR): Introducen el algoritmo "Iterative Rectifier", la primera herramienta práctica y escalable para detectar separación en modelos con efectos fijos de alta dimensión (miles de categorías), superando las limitaciones de la programación lineal y los métodos basados en matrices de información de Fisher.
Implementación Práctica: Proporcionan comandos en Stata (ppmlhdfe) que integran la detección y corrección automática de la separación.

4. Resultados Empíricos

El artículo presenta un ejemplo empírico utilizando datos de Baier et al. (2019) sobre acuerdos de libre comercio (FTA) y flujos comerciales.

Caso de Estudio: Un modelo Poisson PML con efectos fijos de alta dimensión (origen-tiempo, destino-tiempo, pares).
Hallazgo: Se identifica una separación perfecta para el par Islandia-Rumanía antes de 1993 (no hubo exportaciones).
Comparación de Métodos:
- Sin corrección: El algoritmo estándar reporta un coeficiente finito pero extremadamente grande (ilusión numérica) con significancia estadística falsa.
- Método de Santos Silva y Tenreyro (2010): Detecta colinealidad pero falla en identificar la separación específica en este contexto de alta dimensión, dejando observaciones separadas en la muestra.
- Algoritmo Iterative Rectifier (IR): Identifica correctamente las 7 observaciones separadas y las excluye. Al hacerlo, los coeficientes de los demás parámetros (incluyendo otros FTAs) permanecen inalterados y consistentes, y los errores estándar son correctos.

5. Significado e Impacto

Rigor en la Economía Aplicada: El artículo resuelve una ambigüedad crítica en la estimación de modelos no lineales con efectos fijos, que son omnipresentes en la economía moderna (comercio, finanzas, salud).
Mejora de la Inferencia: Al permitir la estimación consistente de parámetros finitos incluso en presencia de separación, evita que los investigadores descarten modelos útiles o interpreten mal coeficientes infinitos como valores finitos extremos.
Viabilidad Computacional: Hace factible la detección de separación en conjuntos de datos masivos (millones de observaciones, miles de efectos fijos), algo que anteriormente era computacionalmente prohibitivo.
Guía de Buenas Prácticas: Proporciona una hoja de ruta clara para los investigadores: verificar la separación, excluir las observaciones problemáticas (en lugar de eliminar regresores arbitrariamente) y utilizar métodos robustos como el IR para modelos con ceros.

En resumen, el papel transforma un problema teórico de "no existencia" en un procedimiento práctico de diagnóstico y corrección, asegurando que las estimaciones de modelos GLM complejos sean fiables y válidas.