Jackknife inference with two-way clustering

Este artículo propone una nueva familia de estimadores de varianza robustos al agrupamiento bidireccional basados en el jackknife de conglomerados, que garantizan inferencias válidas y mejoran significativamente el rendimiento en muestras finitas, acompañados de un paquete de software para Stata.

James G. MacKinnon, Morten Ørregaard Nielsen, Matthew D. Webb

Publicado Fri, 13 Ma
📖 6 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que eres un detective tratando de resolver un misterio: ¿Cómo afecta realmente una variable (como el salario mínimo o el clima) a otra (como los ingresos o el desarrollo)?

Para resolverlo, usas una herramienta matemática llamada "regresión". Pero hay un problema: tus datos no son una mezcla homogénea de personas; están agrupados. Tienes grupos de personas por país y por año, o por estado y por industria. A esto los economistas le llaman "agrupamiento en dos direcciones" (two-way clustering).

El problema es que las herramientas tradicionales que usamos para medir la certeza de nuestras conclusiones (los "errores estándar") a menudo fallan cuando los grupos son desiguales, hay muchos grupos vacíos o los datos son complejos. A veces, la herramienta se rompe y te da un error que dice: "No puedo calcular esto" o te da un resultado tan exagerado que parece mentira.

Aquí es donde entra este paper de MacKinnon, Nielsen y Webb. Vamos a explicarlo con analogías sencillas:

1. El Problema: La Balanza Rota

Imagina que tienes una balanza (tu modelo estadístico) para pesar la importancia de una variable.

  • El método antiguo (CV1): Es como usar una balanza de cocina barata. Si pones muchos objetos pesados en un lado y pocos en el otro, o si los objetos tienen formas raras, la balanza se desequilibra, se vuelve inestable y a veces te dice que el peso es negativo (¡imposible!) o que es infinito. En estadística, esto significa que tu "error estándar" no tiene sentido y tus conclusiones pueden ser falsas.
  • El síntoma: A veces, la balanza te dice que un efecto es "muy significativo" (¡Eureka!) cuando en realidad es solo ruido. Otras veces, te dice que no puedes calcular nada.

2. La Solución Vieja: "Parches"

Los investigadores anteriores intentaron arreglar la balanza rota de dos formas:

  • El parche de los "valores negativos": Si la balanza te da un número negativo, simplemente lo cambias por cero o un número muy pequeño. Es como decir: "Bueno, si la balanza está rota, asumamos que pesa un poco". Esto funciona, pero a veces te da resultados engañosamente grandes.
  • El parche de "ignorar una parte": Decir: "Vamos a ignorar la intersección entre los grupos y solo mirar los grupos grandes". Esto hace que la balanza sea más estable, pero a veces es demasiado conservadora (te dice que nada es importante cuando sí lo es).

3. La Gran Innovación: El "Jackknife" (La Navaja Suiza)

Los autores proponen una nueva herramienta llamada Jackknife de Agrupamiento.

  • La analogía del "Quitar y Poner": Imagina que tienes un equipo de 100 personas (tus datos) y quieres saber quién es el más fuerte. En lugar de medir a todos juntos, tomas al equipo, le quitas a una persona, mides al resto, anotas el resultado. Luego, le quitas a otra persona (y vuelves a poner la primera), mides de nuevo, y así sucesivamente.
  • ¿Por qué es mejor? Al ver cómo cambia el resultado cuando quitas a cada grupo individualmente, obtienes una medida de la variabilidad mucho más real y robusta. No te fías de la "balanza" estática; te fías de cómo se comporta el sistema cuando lo "torturas" un poco quitando piezas.
  • En dos dimensiones: Ellos hicieron esto no solo quitando grupos de un lado (países), sino también del otro (años) y de las intersecciones (país-año). Es como tener tres navajas suizas trabajando a la vez para asegurar que la medida sea precisa.

4. El Truco del "Máximo" (Max-SE)

A veces, incluso con la navaja suiza, la balanza sigue siendo inestable. Entonces, proponen una regla de oro muy simple: Elige el error estándar más grande.

  • Imagina que tienes tres reglas para medir la misma mesa: una de madera, una de metal y una de plástico.
    • La de madera te dice: "Mide 1 metro".
    • La de metal te dice: "Mide 1.2 metros".
    • La de plástico (que está rota) te dice: "Mide 0.5 metros" o "No sé".
  • La regla de los autores dice: "Si tienes dudas, usa la medida más grande (la más conservadora)". Si la regla de metal dice 1.2, usas 1.2. Esto evita que te ilusiones con resultados falsos. Es mejor ser un poco más cauteloso y decir "no estoy seguro" que decir "¡es un hecho!" cuando no lo es.

5. ¿Qué descubrieron en sus pruebas?

Hicieron miles de simulaciones (como jugar miles de veces a un videojuego con reglas diferentes) y descubrieron:

  • Los métodos antiguos a menudo mienten: dicen que hay un efecto cuando no lo hay (falsos positivos), especialmente si los grupos son de tamaños muy diferentes o hay muchos grupos vacíos.
  • Su nuevo método (Jackknife + Regla del Máximo) es mucho más honesto. A veces es un poco más conservador (dice que es menos probable que algo sea importante), pero cuando dice que algo es importante, realmente lo es.
  • Funciona incluso en casos difíciles: cuando hay pocos grupos, cuando los grupos son desiguales (como tener un estado gigante y otro pequeño) o cuando hay muchos datos faltantes.

6. Ejemplos Reales

  • El caso de la mosca tsetsé en África: Un estudio famoso decía que el clima para moscas destruía el desarrollo económico. Los autores re-analizaron los datos. Con el método antiguo, el resultado era muy fuerte. Con su nuevo método, la evidencia se debilitó un poco. No desapareció, pero dejó de ser "absolutamente segura". Es como si antes dijeras "¡Es 100% culpa de la mosca!" y ahora digas "Es muy probable, pero hay que tener cuidado".
  • El salario mínimo en Canadá: Un estudio decía que subir el salario mínimo aumentaba los ingresos. Los autores aplicaron su método y descubrieron que, con los datos reales y los grupos pequeños, la evidencia no era suficiente para afirmar eso con certeza. El método antiguo estaba "gritando" resultados que no se sostenían.

Conclusión

En resumen, este paper nos dice: "No confíes ciegamente en las herramientas estadísticas antiguas cuando tus datos están agrupados de formas complejas. Usa el método de 'quitar y poner' (Jackknife) y, si tienes dudas, elige la opción más conservadora (el error más grande)."

Han creado un software gratuito para Stata (llamado twowayjack) para que cualquier investigador pueda usar esta "navaja suiza" y evitar conclusiones falsas. Es como pasar de usar una brújula oxidada a usar un GPS de alta precisión en un terreno difícil.