Spatially Robust Inference with Predicted and Missing at Random Labels

Each language version is independently generated for its own context, not a direct translation.

Imagina que eres un alcalde que quiere saber el promedio de ingresos de todos los ciudadanos de tu ciudad. El problema es que tienes un presupuesto muy limitado y solo puedes entrevistar a un puñado de personas (digamos, el 20%).

Para llenar los huecos, contratas a un inteligente asistente de IA (un modelo de aprendizaje automático) que, basándose en datos públicos como el barrio donde vives o tu nivel de educación, adivina el ingreso de los ciudadanos que no entrevistaste.

Ahora tienes dos tipos de datos:

Datos reales: Lo que dijeron las pocas personas que entrevistaste.
Datos predichos: Las "adivinanzas" de la IA para el resto de la ciudad.

El artículo que me has pasado trata sobre cómo usar esa mezcla de datos reales y predichos para sacar conclusiones estadísticas sin mentirte a ti mismo sobre la precisión de tu resultado.

Aquí te explico los tres problemas principales que resuelven los autores y cómo lo hacen, usando analogías sencillas:

1. El problema del "Entrevistador Selectivo" (Datos que faltan no al azar)

Imagina que, por error, el entrevistador solo fue a los barrios ricos y evitó los barrios pobres. Si simplemente promedias los datos reales, tu resultado será demasiado optimista.

La solución del papel: Usan un método llamado "Doble Robustez". Imagina que tienes dos guardias de seguridad:
- El Guardia A revisa si la predicción de la IA es buena.
- El Guardia B revisa si el entrevistador fue justo al elegir a quién entrevistar.
- Si uno de los dos guardias hace bien su trabajo, el resultado final es correcto. No necesitas que ambos sean perfectos, solo uno. Esto corrige el sesgo de que no entrevistaste a todo el mundo por igual.

2. El problema de los "Vecinos Pegajosos" (Dependencia Espacial)

En el mundo real, las personas no son independientes. Si vives en un barrio, es probable que tus vecinos tengan ingresos similares a los tuyos. Si el entrevistador elige a un vecino, es muy probable que también elija a su vecino de al lado.

El error común: La mayoría de los métodos estadísticos asumen que cada persona es como un dado independiente. Si ignoras que los vecinos están "pegados" entre sí, calculas que tu resultado es mucho más preciso de lo que realmente es. Es como si creyeras que lanzar una moneda 10 veces y sacar 10 caras seguidas es normal, cuando en realidad es una señal de que la moneda está trucada o hay un patrón.

3. El problema de la "Burbuja de Entrenamiento" (El efecto del "Cross-Fitting")

Para que la IA no se "engañe" a sí misma (sobreajuste), los estadísticos dividen los datos en grupos (como si fueran equipos de fútbol) y entrenan a la IA con un equipo para probarla con otro. Esto se llama cross-fitting.

El efecto secundario: Como todos los miembros de un mismo "equipo" (grupo) usan la misma versión de la IA entrenada, sus predicciones comparten un "ruido" o error común.
La trampa: Cuando los estadísticos intentan medir la incertidumbre (el margen de error), ven que los vecinos del mismo grupo se parecen mucho entre sí. ¡Pero no es porque sean vecinos reales! Es porque usaron la misma IA. El método tradicional confunde este "ruido de grupo" con "vecindad real" y calcula un margen de error gigante y exagerado (conservador).

La Gran Innovación: El "Desenredador de Nudos" (Jackknife-HAC)

Los autores proponen una nueva forma de medir la incertidumbre que actúa como un desenredador de nudos:

Quitan el "ruido de grupo": Antes de medir la dependencia real entre vecinos, restan el error que todos comparten por usar la misma IA. Es como si, para ver si dos personas son realmente amigas, primero les quitaras la ropa que les hizo parecerse (la misma IA) y luego vieras si siguen pareciéndose.
Miden la verdadera vecindad: Una vez limpio el ruido artificial, aplican una técnica avanzada (HAC) que entiende que los vecinos influyen entre sí.
Recuperan la variación: Luego, suman de nuevo la variación real que existe entre los diferentes grupos de entrenamiento.

¿Por qué es importante esto?

En el mundo real (como en la vigilancia de la salud pública o el monitoreo del cambio climático), los datos suelen ser escasos y los patrones geográficos son complejos.

Sin este método: O bien te confías demasiado (y tomas malas decisiones porque crees que sabes más de lo que sabes) o te asustas demasiado (y no haces nada porque tus márgenes de error son absurdamente grandes).
Con este método: Obtienes un margen de error justo y realista. Te dice: "Sí, tenemos incertidumbre porque los vecinos se parecen y porque no entrevistamos a todos, pero aquí está el rango real de confianza".

En resumen:
El artículo nos da las herramientas para confiar en las predicciones de la Inteligencia Artificial cuando los datos reales son escasos y están desordenados, asegurándonos de no ser engañados ni por la falta de datos ni por la forma en que la IA aprende. Es como tener un mapa muy detallado que te dice exactamente dónde puedes confiar en él y dónde debes tener cuidado.

Each language version is independently generated for its own context, not a direct translation.

1. Planteamiento del Problema

El artículo aborda un desafío creciente en la inferencia estadística moderna: el uso de datos predichos (etiquetas generadas por modelos de aprendizaje automático) cuando los datos reales están escasamente etiquetados. Este escenario es común en vigilancia global de la salud, monitoreo de uso de suelo y proyectos de ciencia ciudadana.

Existen dos violaciones críticas de los supuestos tradicionales en estos contextos que los métodos existentes no manejan adecuadamente:

Faltantes al Azar (MAR): La adquisición de etiquetas reales rara vez es aleatoria (MCAR). A menudo depende de características observadas y de la geografía, introduciendo un sesgo de selección si no se corrige.
Dependencia Espacial: Las observaciones en datos del mundo real suelen estar correlacionadas espacialmente. Los estimadores de varianza clásicos (asumiendo independencia) fallan en este contexto, produciendo intervalos de confianza inestables o mal calibrados.

El problema central: Cuando se utilizan métodos de inferencia con predicciones (como los estimadores doblemente robustos) en presencia de dependencia espacial y etiquetas MAR, y se emplea cross-fitting (ajuste cruzado) para estimar las funciones de "nicho" (modelos de resultado y propensión), se introduce una correlación artificial a nivel de pliegue (fold). Esta correlación inducida por el entrenamiento compartido dentro de un pliegue puede ser confundida erróneamente por los estimadores de varianza espacial (como HAC de Conley) con dependencia espacial genuina, resultando en intervalos de confianza sobre-conservadores o inestables.

2. Metodología Propuesta

Los autores proponen un marco de inferencia que integra la corrección de sesgo de selección con una corrección de varianza robusta a la dependencia espacial y al ruido inducido por el cross-fitting.

A. Estimador Puntual Doble Robusto (DR)

Se utiliza un estimador doblemente robusto estándar para el promedio poblacional $\theta_0 = E[Y_i]$ . Dado un modelo de predicción base $\hat{Y}$ , se estiman dos funciones de nicho en la muestra analítica:

Modelo de resultado: $\hat{m}(W_i, s_i) = E[Y_i | W_i, s_i]$ .
Modelo de propensión: $\hat{\pi}(W_i, s_i) = P(R_i=1 | W_i, s_i)$ .

El estimador puntual $\hat{\theta}$ es la media muestral de la función de puntuación no centrada:
$\hat{\psi}_i^\circ = \hat{m}_i + \frac{R_i}{\hat{\pi}_i}(Y_i - \hat{m}_i)$
Este estimador es consistente si al menos uno de los modelos de nicho ( $\hat{m}$ o $\hat{\pi}$ ) está correctamente especificado.

B. El Problema del Ruido Compartido por Pliegue

Para evitar el sobreajuste con pocas etiquetas, se utiliza cross-fitting: los datos se dividen en $K$ pliegues. Los modelos de nicho se entrenan en $K-1$ pliegues y se evalúan en el pliegue restante.

Consecuencia: Todas las unidades dentro del mismo pliegue $k$ comparten las mismas estimaciones de $\hat{m}_{-k}$ y $\hat{\pi}_{-k}$ . Esto crea un "ruido de nivel de pliegue" ( $a_k$ ) que es común a todas las unidades del pliegue.
Fallo de métodos naive: Si se aplica un estimador HAC espacial estándar directamente a los residuos, este ruido compartido se interpreta como dependencia espacial de corto alcance, inflando artificialmente la varianza estimada.

C. Corrección de Varianza Jackknife-HAC

Para solucionar esto, los autores proponen un estimador de varianza híbrido que separa la dependencia espacial genuina del ruido inducido por el cross-fitting:

Centrado dentro del pliegue: Se calculan puntuaciones centradas restando la media del pliegue: $\tilde{\psi}_i = \hat{\psi}_i^\circ - \bar{\psi}_k$ . Esto elimina matemáticamente el componente de ruido compartido $a_k$ de la covarianza dentro del pliegue.
Estimador HAC Espacial (Conley): Se aplica un estimador HAC (heterocedástico y autocorrelacionado consistente) tipo Conley a las puntuaciones centradas $\tilde{\psi}_i$ para capturar la dependencia espacial genuina.
Ajuste ANOVA entre pliegues: Se añade un término de varianza entre pliegues calculado a partir de las medias de los pliegues ( $\bar{\psi}_k$ ) para recuperar la variabilidad total que fue eliminada en el paso 1.
Fórmula final:
$\hat{V}_{JK} = \hat{V}_{within}^{HAC}(\tilde{\psi}) + \hat{V}_{between}$
Donde $\hat{V}_{within}$ es la varianza HAC de las puntuaciones centradas y $\hat{V}_{between}$ es el término de varianza entre pliegues.

Adicionalmente, se propone un "Moran Gate" opcional: si no hay evidencia de dependencia espacial en los residuos, se puede revertir a una varianza i.i.d. para mayor eficiencia.

3. Contribuciones Clave

Identificación del Problema de Correlación Inducida: El artículo es pionero en identificar y formalizar cómo el cross-fitting en datos dependientes crea correlaciones artificiales que distorsionan los estimadores de varianza espacial.
Corrección Jackknife-HAC Modular: Se propone un método de corrección de varianza que es "plug-and-play". No modifica el estimador puntual (que sigue siendo doblemente robusto), sino que ajusta exclusivamente la estimación de la varianza para ser válida bajo dependencia espacial y cross-fitting.
Validez Asintótica bajo Dependencia: Bajo condiciones estándar de identificación (MAR, superposición) y condiciones de CLT (Teorema del Límite Central) para arreglos dependientes, se demuestra que los intervalos de confianza resultantes son asintóticamente válidos.
Robustez en Escenarios Realistas: El método funciona bajo esquemas de muestreo espacialmente dependientes (soft-block sampling) y mecanismos de faltantes al azar (MAR) que dependen de covariables y ubicación.

4. Resultados Empíricos

Los autores validan su método mediante simulaciones sintéticas y conjuntos de datos reales (Amazonía, Galaxy Zoo, Censo, Malaria, Salud).

Simulaciones Sintéticas:
- En escenarios con alta dependencia espacial ( $\sigma$ alto) y etiquetas MAR, los métodos baselines (Cross-PPI, PPI++, Bootstrap-PPI) sufren de subcobertura severa (ej. 0.46 en lugar de 0.90).
- El método propuesto (Spatial DR-JK-HAC) mantiene una cobertura cercana al nivel nominal (0.90) en todos los escenarios, incluyendo muestreo por bloques y MAR.
- La compensación es un ligero aumento en el ancho de los intervalos (aprox. 1.3x a 1.5x más anchos que los métodos naive), lo cual es necesario para capturar la incertidumbre real.
Datos Reales:
- En cinco conjuntos de datos de referencia, el método propuesto superó consistentemente a los baselines i.i.d. y a variantes DR que usan HAC directo sin corrección jackknife.
- En el escenario más difícil (Malaria, MAR, dependencia espacial), el método alcanzó una cobertura del 0.850, mientras que los métodos baselines oscilaron entre 0.45 y 0.75.
- El análisis de sensibilidad mostró que aumentar el número de pliegues ( $K=10$ ) reduce el ancho de los intervalos manteniendo una buena cobertura.

5. Significado e Impacto

Este trabajo es fundamental para la aplicación de la inferencia basada en predicciones en el mundo real, donde la independencia de las observaciones es una excepción y no la regla.

Validación de la Ciencia de Datos Espacial: Proporciona las herramientas estadísticas necesarias para realizar inferencias válidas en vigilancia epidemiológica y monitoreo ambiental, donde los datos de campo son escasos y costosos, pero las predicciones de modelos son abundantes.
Solución a un Problema de "Caja Negra": Permite utilizar modelos de aprendizaje automático complejos (como los entrenados externamente) sin necesidad de conocer su procedimiento de entrenamiento, siempre que se aplique la corrección de varianza adecuada.
Marco General: La metodología es modular y puede extenderse a otras estructuras de dependencia (ej. series temporales, agrupamiento bidireccional), ofreciendo un marco robusto para la inferencia cuando las predicciones de ML complementan etiquetas escasas.

En resumen, el artículo cierra la brecha entre la teoría de inferencia con datos predichos (que asume i.i.d.) y la realidad de los datos espaciales con etiquetas faltantes, ofreciendo un método que es tanto teóricamente sólido como empíricamente superior.