Power Studies For Two-Sample and Goodness-of-Fit Methods… — Explicación divulgativa

Imagina que eres un detective tratando de resolver un misterio. Tienes un montón de pistas (datos) y tienes una teoría sobre cómo se crearon esas pistas (un modelo matemático). Tu trabajo es averiguar: ¿Es correcta mi teoría, o alguien más me está gastando una broma?

Este artículo, escrito por Wolfgang Rolke, es esencialmente una "prueba de estrés" masiva para las herramientas que los detectives utilizan para resolver estos misterios. El autor ejecutó miles de simulaciones por computadora para ver qué herramientas estadísticas funcionan mejor bajo diferentes condiciones.

Aquí tienes un desglose de los hallazgos del artículo utilizando analogías simples:

1. Los Dos Misterios Principales

El artículo se centra en dos tipos de trabajo de detective:

El Misterio de la "Bondad de Ajuste": Tienes un conjunto de pistas. Tienes una teoría específica (por ejemplo, "Estos números provienen de una distribución Normal"). Quieres saber: ¿Los datos encajan realmente con esta teoría?
El Misterio de la "Muestra Doble": Tienes dos montones de pistas (por ejemplo, datos del Grupo A y datos del Grupo B). Quieres saber: ¿Estos dos montones provienen de la misma fuente, o son diferentes?

2. El Problema: No hay "Varita Mágica"

El hallazgo más importante de este artículo es que no existe una única herramienta "varita mágica" que resuelva perfectamente cada misterio.

Piensa en las pruebas estadísticas como diferentes tipos de llaves.

Algunas llaves son excelentes para abrir puertas de madera (datos continuos).
Algunas son excelentes para puertas de metal (datos discretos).
Algunas funcionan en puertas pequeñas (2 dimensiones), pero se atascan en puertas de bóvedas gigantes (5 dimensiones).

El artículo muestra que una herramienta que es campeona en una situación puede ser completamente inútil en otra. Si eliges la herramienta equivocada, podrías perder al criminal (baja potencia) o acusar a una persona inocente (falsa alarma).

3. El Truco de la "Binning" (Convertir lo Suave en Bloques)

Uno de los descubrimientos más interesantes involucra cómo observamos los datos.

Datos Continuos: Imagina un río suave y fluido.
Datos Discretos: Imagina ese mismo río congelado en una cuadrícula de cubos de hielo.

El artículo encontró que para datos bidimensionales, convertir el río suave en una cuadrícula de cubos de hielo (llamado "binning") y utilizar una prueba clásica de "Chi-Cuadrado" es increíblemente potente. Es como tomar una foto borrosa, imprimirla en una cuadrícula de píxeles y, de repente, el patrón se vuelve obvio.

La Trampa: Esto solo funciona bien en 2 dimensiones. Si intentas cuadrificar un río de 5 dimensiones, el número de cubos de hielo explota y el método se vuelve demasiado lento y desordenado para usarlo.

4. La Estrategia "Híbrida" (El Respaldo de Simulación)

A veces, el modelo teórico es tan complejo que no puedes calcular la respuesta directamente. Es como intentar predecir el clima sin un superordenador.

El Método Híbrido: El artículo sugiere una solución: "Fingámoslo". Generas un segundo conjunto de datos falsos basado en tu teoría y luego comparas tus datos reales con estos datos falsos utilizando una prueba de "Muestra Doble".
El Hallazgo: Esto funciona, pero necesitas muchos datos falsos para que sea efectivo. El artículo recomienda generar un conjunto de datos falsos que sea 5 veces más grande que tu conjunto de datos real. Si solo haces que los datos falsos tengan el mismo tamaño que los datos reales, la prueba a menudo falla al detectar las diferencias.

5. Recomendaciones de la "Mejor Herramienta"

Basándose en su masiva simulación, el autor sugiere un "kit de supervivencia" de herramientas. No necesitas todas ellas, pero deberías tener algunas listas dependiendo de tu situación:

Si tienes datos suaves de 2D: Utiliza la prueba de Chi-Cuadrado (con una cuadrícula pequeña) o la prueba Fasano-Franceschini. Estos son los más potentes.
Si tienes datos suaves de 5D (o superiores): La prueba MMD (Discrepancia de Media Máxima) es el ganador claro. Es como un escáner de alta tecnología que ve patrones en datos complejos y multicapa que otras herramientas pasan por alto.
Si tienes datos de "cubos de hielo" (discretos): Las pruebas Chi-Cuadrado y Kullback-Leibler son tus mejores amigos.
Si estás comparando dos grupos (Muestra Doble): Las pruebas MMD y Biswas-Ghosh son generalmente las más fiables en general.

6. La Trampa de las "Marginales"

El artículo destaca un escenario complicado: ¿Qué pasa si los dos grupos se ven iguales cuando los miras una variable a la vez (las "marginales"), pero son totalmente diferentes cuando los miras juntos?

La Analogía: Imagina dos bolsas de canicas. La Bolsa A tiene 50% rojas y 50% azules. La Bolsa B también tiene 50% rojas y 50% azules. Una prueba simple que mira solo el color podría decir: "¡Son iguales!"
La Realidad: En la Bolsa A, todas las canicas rojas son pesadas. En la Bolsa B, todas las canicas azules son pesadas. La combinación de color y peso es diferente, aunque los colores por sí solos se vean idénticos.
La Lección: El artículo encontró que muchas pruebas estándar fallan aquí. Sin embargo, la prueba de Chi-Cuadrado (con una cuadrícula pequeña) es sorprendentemente buena para detectar estas diferencias ocultas en datos de 2D.

Resumen

El artículo es una guía para estadísticos. Dice: "No confíes en una sola herramienta. Si estás mirando datos de 2D, intenta agruparlos (binning). Si estás mirando datos complejos de alta dimensión, utiliza la prueba MMD. Y si tienes que simular datos falsos para ayudarte, asegúrate de hacer muchos (5 veces el tamaño)".

Los autores han empaquetado todas estas herramientas en software gratuito (paquetes R llamados MD2sample y MDgof) para que otros detectives puedan utilizar estos métodos probados para resolver sus propios misterios de datos.

Resumen Técnico: Estudios de Potencia para Métodos de Dos Muestras y Bondad de Ajuste en Datos Multivariados

Planteamiento del Problema
El artículo aborda el desafío de seleccionar pruebas estadísticas apropiadas para datos multivariados en dos contextos principales: el problema de bondad de ajuste (gof) y el problema no paramétrico de dos muestras. En el contexto de bondad de ajuste, se extrae una muestra de una distribución $F$ (potencialmente con parámetros desconocidos), y el objetivo es probar $H_0: X \sim F$ . En el contexto de dos muestras, se extraen dos muestras independientes de las distribuciones $F$ y $G$ , con el objetivo de probar $H_0: F = G$ .

Aunque la literatura para datos univariados es extensa, los autores señalan que los métodos multivariados son significativamente más escasos. Surge una dificultad específica al extender pruebas univariadas clásicas (como Kolmogorov-Smirnov) a dimensiones superiores, ya que la desviación máxima entre las funciones de distribución empírica y teórica se vuelve computacionalmente intratable en dimensiones $d > 1$ . Además, el software existente para pruebas multivariadas es limitado, y ningún método único ha demostrado poseer una potencia uniformemente superior en todas las hipótesis alternativas.

Metodología
El estudio se basa en experimentos de simulación extensos realizados utilizando los paquetes de R MD2sample y MDgof, desarrollados por el autor para implementar estos métodos. Las simulaciones abarcan:

Tipos de Datos: Datos continuos en 2 y 5 dimensiones; datos discretos (agrupados en histogramas) en 2 dimensiones.
Escenarios: Problemas de bondad de ajuste (con y sin estimación de parámetros) y problemas de dos muestras.
Distribuciones Marginales: Casos donde las marginales son idénticas bajo la hipótesis nula y alternativa, y casos donde difieren.
Enfoques Híbridos: Un método "híbrido" donde una prueba de bondad de ajuste se convierte en una prueba de dos muestras generando un conjunto de datos de Monte Carlo (MC) bajo la hipótesis nula. Esto se prueba con tamaños de muestra MC iguales a los datos reales ( $n_{MC}=n$ ) y cinco veces mayores ( $n_{MC}=5n$ ).

Los valores p para las pruebas de dos muestras se derivan mediante métodos de permutación, mientras que los valores p de bondad de ajuste se obtienen mediante simulación (bootstrap paramétrico). El estudio evalúa una amplia gama de métodos, incluyendo:

Métodos Agrupados (Binned): Pruebas Chi-cuadrado (bins de espacio igual y probabilidad igual) y variantes discretas (Pearson, Variación Total, Kullback-Leibler, Hellinger).
Basados en Función de Distribución: Versiones simplificadas ("rápidas") de Kolmogorov-Smirnov (qKS), Kuiper (qK), Cramer-vonMises (qCvM) y Anderson-Darling (qAD), implementadas evaluando desviaciones solo en los puntos de datos.
Basados en Densidad y Transformaciones: Transformaciones de Bickel-Breiman, Bakshaev-Rudzkis, Rosenblatt (Fasano-Franceschini, K de Ripley).
Basados en Distancia y Vecinos: Aslan-Zech, Baringhaus-Franz, Biswas-Ghosh, Discrepancia Media Máxima (MMD), Friedman-Rafski y pruebas de Vecino Más Cercano.

Contribuciones Clave

Análisis de Potencia Exhaustivo: El artículo proporciona una comparación a gran escala de numerosos métodos a través de 30 estudios de caso de bondad de ajuste y 50 de dos muestras, distinguiendo entre datos continuos y discretos, dimensiones 2 y 5, y diversas condiciones marginales.
Implementación de Software: El trabajo introduce y utiliza MD2sample y MDgof, paquetes que implementan muchos de estos métodos (particularmente para datos multivariados) utilizando Rcpp y programación paralela para manejar la intensidad computacional.
Utilidad para Datos Discretos: El estudio destaca la utilidad de discretizar grandes conjuntos de datos continuos en bins 2D para aplicar pruebas discretas rápidas, señalando que este enfoque es computacionalmente viable para datos bivariados pero no para dimensiones superiores debido a la maldición de la dimensionalidad.
Evaluación de Métodos Híbridos: El artículo evalúa sistemáticamente la eficacia de convertir problemas de bondad de ajuste en problemas de dos muestras mediante generación de Monte Carlo, encontrando que, aunque factibles, estos métodos generalmente requieren tamaños de muestra MC significativamente mayores para competir con las pruebas directas de bondad de ajuste.

Resultados
Los resultados de la simulación conducen a varias conclusiones específicas sobre el rendimiento de los métodos:

No Existe un Mejor Universal: Ningún método único es uniformemente superior. El rendimiento depende altamente de la hipótesis alternativa específica y de la estructura de los datos.
Rendimiento de Chi-cuadrado: En dos dimensiones, particularmente cuando las distribuciones marginales permanecen sin cambios entre la hipótesis nula y la alternativa, la prueba clásica Chi-cuadrado (con un número pequeño de bins, por ejemplo, 5x5) a menudo exhibe una potencia superior, superando frecuentemente a otros métodos. Sin embargo, esto se limita a 2D debido a las restricciones de agrupamiento.
Recomendaciones para Datos Continuos:
- Bondad de Ajuste (2D): Se recomiendan Bakshaev-Rudzkis, Fasano-Franceschini, K de Ripley, Chi-cuadrado (bins de probabilidad igual) y Anderson-Darling, Kuiper y Cramer-vonMises simplificados.
- Bondad de Ajuste (>2D): Bakshaev-Rudzkis y Anderson-Darling, Kuiper y Cramer-vonMises simplificados.
- Dos Muestras: La prueba de Discrepancia Media Máxima (MMD) se identifica como la mejor opción única para datos continuos en ambas dimensiones 2 y 5, seguida de cerca por las pruebas de Biswas-Ghosh y Aslan-Zech.
Recomendaciones para Datos Discretos: Para datos discretos, las pruebas Chi-cuadrado, Anderson-Darling, Kuiper y Kullback-Leibner funcionan bien.
Sensibilidad Marginal: Cuando las marginales son iguales bajo la hipótesis nula y alternativa (haciendo ineficaces las pruebas univariadas), la prueba Chi-cuadrado en 2D sigue siendo altamente potente. En casos con marginales desiguales, se requiere un conjunto más amplio de métodos para asegurar la detección.
Métodos Híbridos: Las pruebas híbridas generalmente requieren que el conjunto de datos MC generado sea al menos cinco veces el tamaño del conjunto de datos real para ser competitivas. Los autores concluyen que si una prueba clásica de bondad de ajuste es computacionalmente viable, se prefiere sobre el enfoque híbrido.

Significado y Afirmaciones
El artículo afirma modestamente que su valor principal radica en proporcionar una guía basada en datos para investigadores que enfrentan problemas de inferencia multivariada. Al demostrar que "cualquier método puede ser bastante bueno para alguna combinación de hipótesis nula y alternativa y puede fallar estrepitosamente para otra", los autores argumentan en contra de la dependencia de una única prueba "mejor". En su lugar, proponen una pequeña selección curada de métodos para cada escenario (por ejemplo, combinaciones específicas para 2D vs. 5D, continuo vs. discreto) de modo que, para cualquier estudio de caso incluido en su análisis, al menos un método en el conjunto poseerá una buena potencia. El trabajo sirve como un recurso práctico para seleccionar pruebas apropiadas utilizando los paquetes de R proporcionados, llenando un vacío en el software disponible para pruebas no paramétricas multivariadas.

Power Studies For Two-Sample and Goodness-of-Fit Methods For Multivariate Data