Widespread use of invalid statistical tests in biomedical machine learning

Este artículo revela que el uso generalizado de pruebas estadísticas inválidas que ignoran la dependencia de los pliegues de validación cruzada en el aprendizaje automático biomédico conduce a tasas de falsos positivos infladas, lo que lleva a los autores a proponer la prueba SHARP como una solución robusta y a proporcionar nuevas directrices de informe para la comparación válida de modelos.

Autores originales: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X.
Publicado 2026-05-22
📖 4 min de lectura☕ Lectura para el café

Autores originales: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X. Z., Mansour L., S., Ng, K. K., Nguyen, T. T., Ooi, L. Q. R., Pande, S., Qian, X., Ruan, J., Wang, Z., Xie, Y., Zhang, C., Zhang, Y., Patil, K., Parkes, L., Dhamala, E., Chopra, S., Zalesky, A., Holmes, A., Eickhoff, S., Zhou, J. H., Renaud, O., Dosenbach, N., Kording, K. P., Bzdok, D., Nichols, T., Yeo, B. T. T.

Artículo original bajo licencia CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Esta es una explicación generada por IA de un preprint que no ha sido revisado por pares. No es consejo médico. No tome decisiones de salud basándose en este contenido. Leer descargo de responsabilidad completo

Imagina que eres un juez tratando de decidir cuál de dos nuevas recetas hace el mejor pastel. Para ser justo, no horneas solo un pastel con cada receta y los pruebas una sola vez. En cambio, horneas diez pasteles con la Receta A y diez con la Receta B, y luego pides a diez amigos diferentes que los prueben.

El Problema: El Error del "Abrazo de Grupo"

En el mundo del aprendizaje automático biomédico (usar computadoras para encontrar patrones en datos médicos), los científicos hacen algo similar llamado "validación cruzada". Dividen sus datos en diez trozos, entrenan sus modelos informáticos con nueve trozos y los prueban con el décimo, repitiendo esto diez veces.

El artículo argumenta que la mayoría de los científicos cometen un error crítico aquí. Cuando comparan los resultados de estas diez pruebas, utilizan herramientas matemáticas estándar (como una prueba t pareada) que asumen que cada resultado de prueba es completamente independiente, como pedirle a diez extraños que nunca se han conocido que prueben los pasteles.

Pero en realidad, estas diez pruebas no son independientes. Todas están examinando los mismos datos subyacentes, simplemente cortados de manera diferente. Es más como pedirle a los mismos diez amigos que prueben los pasteles diez veces seguidas. Como los amigos se conocen y tienen gustos similares, sus opiniones están "correlacionadas".

El artículo afirma que, al ignorar esta conexión, los científicos están usando una regla ligeramente doblada. Creen que son muy precisos, pero en realidad están viendo "fantasmas estadísticos". Están encontrando diferencias entre modelos que realmente no existen, lo que lleva a un número masivo de falsas alarmas (falsos positivos).

La Investigación: Una Auditoría Global

Los autores no solo adivinaron; se embarcaron en una caza detectivesca. Revisaron 210 estudios de alto perfil de las principales revistas médicas (con altos "factores de impacto", lo que significa que son muy famosas e influyentes).

  • El Hallazgo: Un asombroso 97% de estos estudios cometió el error del "Abrazo de Grupo". Trataron sus resultados de prueba dependientes como si fueran independientes.
  • El Alcance: Este no fue un problema solo de unos pocos estudios "malos". Ocurrió independientemente de qué tan famosa fuera la revista, qué tan estrictas fueran las reglas o si los científicos compartían sus datos abiertamente. Es un hábito generalizado en todo el campo.

La Simulación: ¿Qué tan grave es?

Para demostrar lo peligroso que es esto, los autores ejecutaron 420 simulaciones informáticas diferentes. Descubrieron que cuando ignoras el hecho de que tus resultados de prueba están vinculados:

  • Tu tasa de "falsas alarmas" se dispara.
  • Si repites la prueba muchas veces (una práctica común llamada "validación cruzada repetida"), la probabilidad de obtener una falsa alarma puede subir a casi 100%. Es como lanzar una moneda y decirte que has ganado la lotería cada vez, aunque no lo hayas hecho.

La Solución: La Prueba "SHARP"

El artículo explica que solucionar esto es difícil porque, con los métodos estándar, no puedes decir si los resultados son similares porque los modelos son realmente buenos, o simplemente porque los trozos de datos son demasiado similares entre sí. Es como intentar averiguar si un grupo de amigos está de acuerdo porque son inteligentes, o simplemente porque todos se están copiando entre sí.

Para resolver esto, los autores proponen un nuevo método llamado SHARP (Split-HAlf RePeated, o Repetido de Mitad Dividida).

  • Cómo funciona: Imagina que, en lugar de pedirle a tus diez amigos que prueben los pasteles diez veces, los divides en dos grupos separados. El Grupo 1 prueba los pasteles en la primera mitad del experimento, y el Grupo 2 los prueba en la segunda mitad. Como estos grupos son distintos y separados, finalmente puedes medir cuánto están de acuerdo por sí mismos, sin el efecto de "cámara de eco".
  • El Resultado: Cuando los autores probaron SHARP contra otros 12 métodos, fue el ganador indiscutible. Fue el único que mantuvo las falsas alarmas bajas mientras aún podía detectar diferencias reales entre los modelos.

La Conclusión

El artículo termina diciendo que la forma actual de comparar modelos de inteligencia artificial médica está rota. Es como usar una balanza rota para pesar ingredientes para un medicamento que salva vidas. Los autores están proporcionando un nuevo y sencillo reglamento (mejores prácticas) para ayudar a los científicos a corregir sus matemáticas, asegurando que cuando afirmen que un modelo es mejor que otro, estén diciendo realmente la verdad.

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →