Widespread use of invalid statistical tests in biomedical machine learning

Este artigo revela que o uso generalizado de testes estatísticos inválidos que ignoram a dependência entre as dobras da validação cruzada no aprendizado de máquina biomédico leva a taxas infladas de falsos positivos, levando os autores a propor o teste SHARP como uma solução robusta e a fornecer novas diretrizes de relato para comparação válida de modelos.

Autores originais: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X.
Publicado 2026-05-22
📖 4 min de leitura☕ Leitura rápida

Autores originais: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X. Z., Mansour L., S., Ng, K. K., Nguyen, T. T., Ooi, L. Q. R., Pande, S., Qian, X., Ruan, J., Wang, Z., Xie, Y., Zhang, C., Zhang, Y., Patil, K., Parkes, L., Dhamala, E., Chopra, S., Zalesky, A., Holmes, A., Eickhoff, S., Zhou, J. H., Renaud, O., Dosenbach, N., Kording, K. P., Bzdok, D., Nichols, T., Yeo, B. T. T.

Artigo original sob licença CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Esta é uma explicação gerada por IA de um preprint que não foi revisado por pares. Não é aconselhamento médico. Não tome decisões de saúde com base neste conteúdo. Ler aviso legal completo

Imagine que você é um juiz tentando decidir qual de duas novas receitas faz o melhor bolo. Para ser justo, você não assaria apenas um bolo com cada receita e prová-los uma única vez. Em vez disso, você assaria dez bolos com a Receita A e dez com a Receita B, e então pediria a dez amigos diferentes que os provassem.

O Problema: O Erro do "Abraço em Grupo"

No mundo do aprendizado de máquina biomédico (usando computadores para encontrar padrões em dados médicos), os cientistas fazem algo semelhante chamado "validação cruzada". Eles dividem seus dados em dez partes, treinam seus modelos computacionais em nove partes e os testam na décima, repetindo isso dez vezes.

O artigo argumenta que a maioria dos cientistas comete um erro crítico aqui. Ao comparar os resultados desses dez testes, eles usam ferramentas matemáticas padrão (como um teste t pareado) que assumem que cada resultado de teste é completamente independente — como pedir a dez estranhos que nunca se conheceram que provem os bolos.

Mas, na realidade, esses dez testes não são independentes. Todos eles estão analisando os mesmos dados subjacentes, apenas fatiados de maneira diferente. É mais como pedir aos mesmos dez amigos que provem os bolos dez vezes seguidas. Como os amigos se conhecem e têm gostos semelhantes, suas opiniões são "correlacionadas".

O artigo afirma que, ao ignorar essa conexão, os cientistas estão usando uma régua levemente torta. Eles acham que estão sendo muito precisos, mas na verdade estão vendo "fantasmas estatísticos". Eles estão encontrando diferenças entre modelos que realmente não existem, levando a um número massivo de falsos alarmes (falsos positivos).

A Investigação: Uma Auditoria Global

Os autores não apenas especularam; eles partiram para uma caçada de detetive. Eles revisaram 210 estudos de alto perfil de principais revistas médicas (com altos "fatores de impacto", o que significa que são muito famosos e influentes).

  • A Descoberta: Uma porcentagem assustadora de 97% desses estudos cometeu o erro do "Abraço em Grupo". Eles trataram seus resultados de teste dependentes como se fossem independentes.
  • O Alcance: Isso não foi um problema apenas para alguns estudos "ruins". Ocorreu independentemente de quão famosa fosse a revista, quão rigorosas fossem as regras, ou se os cientistas compartilhavam seus dados abertamente. É um hábito generalizado em todo o campo.

A Simulação: Quão Grave É Isso?

Para provar o quão perigoso isso é, os autores executaram 420 simulações computacionais diferentes. Eles descobriram que, quando você ignora o fato de que seus resultados de teste estão ligados:

  • Sua taxa de "falso alarme" dispara.
  • Se você repetir o teste muitas vezes (uma prática comum chamada "validação cruzada repetida"), a chance de obter um falso alarme pode subir para quase 100%. É como jogar uma moeda e ser informado que você ganhou na loteria todas as vezes, mesmo sem ter ganho.

A Solução: O Teste "SHARP"

O artigo explica que corrigir isso é difícil porque, com métodos padrão, você não consegue dizer se os resultados são semelhantes porque os modelos são realmente bons, ou apenas porque as fatias de dados são muito semelhantes entre si. É como tentar descobrir se um grupo de amigos concorda porque são inteligentes, ou apenas porque estão todos copiando uns aos outros.

Para resolver isso, os autores propõem um novo método chamado SHARP (Split-HAlf RePeated).

  • Como funciona: Imagine que, em vez de pedir aos seus dez amigos que provem os bolos dez vezes, você os divide em dois grupos separados. O Grupo 1 prova os bolos na primeira metade do experimento, e o Grupo 2 prova-os na segunda metade. Como esses grupos são distintos e separados, você finalmente pode medir o quanto eles concordam entre si, sem o efeito de "câmara de eco".
  • O Resultado: Quando os autores testaram o SHARP contra outros 12 métodos, ele foi o claro vencedor. Foi o único que manteve os falsos alarmes baixos, enquanto ainda conseguia detectar diferenças reais entre os modelos.

A Conclusão

O artigo termina dizendo que a maneira atual de comparar modelos de IA médica está quebrada. É como usar uma balança quebrada para pesar ingredientes para um medicamento que salva vidas. Os autores estão fornecendo um novo e simples livro de regras (melhores práticas) para ajudar os cientistas a corrigir sua matemática, garantindo que, quando afirmarem que um modelo é melhor que outro, estejam realmente dizendo a verdade.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →