Widespread use of invalid statistical tests in biomedical… — Explicación divulgativa

Autores originales: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X.

Publicado 2026-05-22

📖 4 min de lectura☕ Lectura para el café

Ver en bioRxiv ↗PDF ↗

CC BY 4.0

Autores originales: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X. Z., Mansour L., S., Ng, K. K., Nguyen, T. T., Ooi, L. Q. R., Pande, S., Qian, X., Ruan, J., Wang, Z., Xie, Y., Zhang, C., Zhang, Y., Patil, K., Parkes, L., Dhamala, E., Chopra, S., Zalesky, A., Holmes, A., Eickhoff, S., Zhou, J. H., Renaud, O., Dosenbach, N., Kording, K. P., Bzdok, D., Nichols, T., Yeo, B. T. T.

Artículo original bajo licencia CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Esta es una explicación generada por IA de un preprint que no ha sido revisado por pares. No es consejo médico. No tome decisiones de salud basándose en este contenido. Leer descargo de responsabilidad completo

Imagina que eres un juez tratando de decidir cuál de dos nuevas recetas hace el mejor pastel. Para ser justo, no horneas solo un pastel con cada receta y los pruebas una sola vez. En cambio, horneas diez pasteles con la Receta A y diez con la Receta B, y luego pides a diez amigos diferentes que los prueben.

El Problema: El Error del "Abrazo de Grupo"

En el mundo del aprendizaje automático biomédico (usar computadoras para encontrar patrones en datos médicos), los científicos hacen algo similar llamado "validación cruzada". Dividen sus datos en diez trozos, entrenan sus modelos informáticos con nueve trozos y los prueban con el décimo, repitiendo esto diez veces.

El artículo argumenta que la mayoría de los científicos cometen un error crítico aquí. Cuando comparan los resultados de estas diez pruebas, utilizan herramientas matemáticas estándar (como una prueba t pareada) que asumen que cada resultado de prueba es completamente independiente, como pedirle a diez extraños que nunca se han conocido que prueben los pasteles.

Pero en realidad, estas diez pruebas no son independientes. Todas están examinando los mismos datos subyacentes, simplemente cortados de manera diferente. Es más como pedirle a los mismos diez amigos que prueben los pasteles diez veces seguidas. Como los amigos se conocen y tienen gustos similares, sus opiniones están "correlacionadas".

El artículo afirma que, al ignorar esta conexión, los científicos están usando una regla ligeramente doblada. Creen que son muy precisos, pero en realidad están viendo "fantasmas estadísticos". Están encontrando diferencias entre modelos que realmente no existen, lo que lleva a un número masivo de falsas alarmas (falsos positivos).

La Investigación: Una Auditoría Global

Los autores no solo adivinaron; se embarcaron en una caza detectivesca. Revisaron 210 estudios de alto perfil de las principales revistas médicas (con altos "factores de impacto", lo que significa que son muy famosas e influyentes).

El Hallazgo: Un asombroso 97% de estos estudios cometió el error del "Abrazo de Grupo". Trataron sus resultados de prueba dependientes como si fueran independientes.
El Alcance: Este no fue un problema solo de unos pocos estudios "malos". Ocurrió independientemente de qué tan famosa fuera la revista, qué tan estrictas fueran las reglas o si los científicos compartían sus datos abiertamente. Es un hábito generalizado en todo el campo.

La Simulación: ¿Qué tan grave es?

Para demostrar lo peligroso que es esto, los autores ejecutaron 420 simulaciones informáticas diferentes. Descubrieron que cuando ignoras el hecho de que tus resultados de prueba están vinculados:

Tu tasa de "falsas alarmas" se dispara.
Si repites la prueba muchas veces (una práctica común llamada "validación cruzada repetida"), la probabilidad de obtener una falsa alarma puede subir a casi 100%. Es como lanzar una moneda y decirte que has ganado la lotería cada vez, aunque no lo hayas hecho.

La Solución: La Prueba "SHARP"

El artículo explica que solucionar esto es difícil porque, con los métodos estándar, no puedes decir si los resultados son similares porque los modelos son realmente buenos, o simplemente porque los trozos de datos son demasiado similares entre sí. Es como intentar averiguar si un grupo de amigos está de acuerdo porque son inteligentes, o simplemente porque todos se están copiando entre sí.

Para resolver esto, los autores proponen un nuevo método llamado SHARP (Split-HAlf RePeated, o Repetido de Mitad Dividida).

Cómo funciona: Imagina que, en lugar de pedirle a tus diez amigos que prueben los pasteles diez veces, los divides en dos grupos separados. El Grupo 1 prueba los pasteles en la primera mitad del experimento, y el Grupo 2 los prueba en la segunda mitad. Como estos grupos son distintos y separados, finalmente puedes medir cuánto están de acuerdo por sí mismos, sin el efecto de "cámara de eco".
El Resultado: Cuando los autores probaron SHARP contra otros 12 métodos, fue el ganador indiscutible. Fue el único que mantuvo las falsas alarmas bajas mientras aún podía detectar diferencias reales entre los modelos.

La Conclusión

El artículo termina diciendo que la forma actual de comparar modelos de inteligencia artificial médica está rota. Es como usar una balanza rota para pesar ingredientes para un medicamento que salva vidas. Los autores están proporcionando un nuevo y sencillo reglamento (mejores prácticas) para ayudar a los científicos a corregir sus matemáticas, asegurando que cuando afirmen que un modelo es mejor que otro, estén diciendo realmente la verdad.

Resumen Técnico: Uso Generalizado de Pruebas Estadísticas Inválidas en Aprendizaje Automático Biomédico

El Problema
El aprendizaje automático se ha convertido en una piedra angular de la investigación biomédica, empleado frecuentemente para establecer comparativas de algoritmos e identificar conocimientos científicos, como la clasificación de biomarcadores. El enfoque estándar para evaluar el rendimiento predictivo es la validación cruzada (CV). Sin embargo, un defecto estadístico crítico socava esta práctica: las estimaciones del rendimiento predictivo derivadas de diferentes pliegues de CV no son independientes. Las pruebas estadísticas estándar utilizadas para comparar estos rendimientos, como la prueba t pareada, se basan en la suposición de independencia. Cuando se viola esta suposición, las pruebas no logran controlar las tasas de falsos positivos, lo que conduce a inferencias inválidas. A pesar de la ubicuidad de este problema, sigue sin abordarse en gran medida en la literatura científica de alto impacto.

Metodología
Los autores emplearon un enfoque metodológico multifacético para diagnosticar y resolver este problema:

Metaanálisis: Una revisión guiada por PRISMA de 210 estudios publicados en revistas con un factor de impacto $\ge$ 15 entre el 1 de junio de 2020 y el 1 de junio de 2025. La revisión examinó específicamente cómo los estudios comparaban el rendimiento predictivo y si tenían en cuenta la dependencia de los pliegues.
Estudios de Simulación: Se realizaron simulaciones extensas en 420 escenarios utilizando cuatro conjuntos de datos diversos. Estas simulaciones probaron el rendimiento de las pruebas estándar bajo condiciones variables, incluido el uso de validación cruzada repetida.
Análisis Estadístico: Los autores analizaron las limitaciones teóricas de las pruebas existentes "conscientes de la dependencia de los pliegues", señalando que, bajo la validación cruzada estándar, la varianza de las estadísticas a nivel de pliegue y la correlación entre pliegues no pueden desentrañarse, lo que obliga a los métodos existentes a depender de suposiciones fuertes, a menudo no verificadas.
Propuesta de una Nueva Prueba: Para superar estas limitaciones, los autores propusieron la prueba SHARP (Split-HAlf RePeated). Este método modifica el procedimiento estándar de validación cruzada para permitir la estimación directa tanto de la varianza como de la correlación, satisfaciendo así los requisitos para una inferencia estadística válida sin depender de suposiciones no comprobables.

Resultados Clave

Prevalencia del Error: El metaanálisis reveló que el 97% de los estudios revisados ignoró la dependencia de los pliegues al comparar el rendimiento predictivo. Esta omisión se encontró ubicua en todos los campos científicos y no fue mitigada por factores de impacto altos, políticas que promueven el rigor o prácticas de ciencia abierta.
Impacto en los Falsos Positivos: Las simulaciones demostraron que ignorar la dependencia de los pliegues conduce a un control inválido de los falsos positivos en la mayoría de los escenarios. El problema se ve exacerbado por la validación cruzada repetida; a medida que aumenta el número de repeticiones, las tasas de falsos positivos pueden ascender hacia el 100%.
Rendimiento de SHARP: Cuando se comparó con otras 12 pruebas estadísticas, la prueba SHARP demostró el mejor equilibrio general en tres métricas críticas: control de falsos positivos, potencia estadística y calibración de intervalos de confianza. Logró este rendimiento de manera consistente en los diversos esquemas de simulación.

Significado y Afirmaciones
El artículo afirma que la dependencia actual de pruebas estándar para comparar modelos de aprendizaje automático en la investigación biomédica es fundamentalmente defectuosa, lo que conduce a un alto riesgo de conclusiones científicas espurias. Al identificar que este problema persiste a pesar de los altos estándares editoriales, los autores destacan una brecha sistémica en el rigor estadístico.

La contribución principal de este trabajo es la introducción de la prueba SHARP, que ofrece una solución práctica al problema de la dependencia de los pliegues al permitir la estimación directa de los parámetros estadísticos necesarios. Además, los autores concluyen proporcionando mejores prácticas y directrices de reporte específicas destinadas a restaurar la validez de la inferencia de comparación de modelos en el aprendizaje automático biomédico y campos relacionados. El trabajo sirve como un llamado a la acción para que la comunidad adopte estas metodologías corregidas para asegurar que las aplicaciones científicas, como la clasificación de biomarcadores, se basen en evidencia estadísticamente sólida.

Widespread use of invalid statistical tests in biomedical machine learning

Resumen Técnico: Uso Generalizado de Pruebas Estadísticas Inválidas en Aprendizaje Automático Biomédico

Más como este