Widespread use of invalid statistical tests in… — Explicação em linguagem simples

Autores originais: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X.

Publicado 2026-05-22

📖 4 min de leitura☕ Leitura rápida

Ver no bioRxiv ↗PDF ↗

CC BY 4.0

Autores originais: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X. Z., Mansour L., S., Ng, K. K., Nguyen, T. T., Ooi, L. Q. R., Pande, S., Qian, X., Ruan, J., Wang, Z., Xie, Y., Zhang, C., Zhang, Y., Patil, K., Parkes, L., Dhamala, E., Chopra, S., Zalesky, A., Holmes, A., Eickhoff, S., Zhou, J. H., Renaud, O., Dosenbach, N., Kording, K. P., Bzdok, D., Nichols, T., Yeo, B. T. T.

Artigo original sob licença CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Esta é uma explicação gerada por IA de um preprint que não foi revisado por pares. Não é aconselhamento médico. Não tome decisões de saúde com base neste conteúdo. Ler aviso legal completo

Imagine que você é um juiz tentando decidir qual de duas novas receitas faz o melhor bolo. Para ser justo, você não assaria apenas um bolo com cada receita e prová-los uma única vez. Em vez disso, você assaria dez bolos com a Receita A e dez com a Receita B, e então pediria a dez amigos diferentes que os provassem.

O Problema: O Erro do "Abraço em Grupo"

No mundo do aprendizado de máquina biomédico (usando computadores para encontrar padrões em dados médicos), os cientistas fazem algo semelhante chamado "validação cruzada". Eles dividem seus dados em dez partes, treinam seus modelos computacionais em nove partes e os testam na décima, repetindo isso dez vezes.

O artigo argumenta que a maioria dos cientistas comete um erro crítico aqui. Ao comparar os resultados desses dez testes, eles usam ferramentas matemáticas padrão (como um teste t pareado) que assumem que cada resultado de teste é completamente independente — como pedir a dez estranhos que nunca se conheceram que provem os bolos.

Mas, na realidade, esses dez testes não são independentes. Todos eles estão analisando os mesmos dados subjacentes, apenas fatiados de maneira diferente. É mais como pedir aos mesmos dez amigos que provem os bolos dez vezes seguidas. Como os amigos se conhecem e têm gostos semelhantes, suas opiniões são "correlacionadas".

O artigo afirma que, ao ignorar essa conexão, os cientistas estão usando uma régua levemente torta. Eles acham que estão sendo muito precisos, mas na verdade estão vendo "fantasmas estatísticos". Eles estão encontrando diferenças entre modelos que realmente não existem, levando a um número massivo de falsos alarmes (falsos positivos).

A Investigação: Uma Auditoria Global

Os autores não apenas especularam; eles partiram para uma caçada de detetive. Eles revisaram 210 estudos de alto perfil de principais revistas médicas (com altos "fatores de impacto", o que significa que são muito famosos e influentes).

A Descoberta: Uma porcentagem assustadora de 97% desses estudos cometeu o erro do "Abraço em Grupo". Eles trataram seus resultados de teste dependentes como se fossem independentes.
O Alcance: Isso não foi um problema apenas para alguns estudos "ruins". Ocorreu independentemente de quão famosa fosse a revista, quão rigorosas fossem as regras, ou se os cientistas compartilhavam seus dados abertamente. É um hábito generalizado em todo o campo.

A Simulação: Quão Grave É Isso?

Para provar o quão perigoso isso é, os autores executaram 420 simulações computacionais diferentes. Eles descobriram que, quando você ignora o fato de que seus resultados de teste estão ligados:

Sua taxa de "falso alarme" dispara.
Se você repetir o teste muitas vezes (uma prática comum chamada "validação cruzada repetida"), a chance de obter um falso alarme pode subir para quase 100%. É como jogar uma moeda e ser informado que você ganhou na loteria todas as vezes, mesmo sem ter ganho.

A Solução: O Teste "SHARP"

O artigo explica que corrigir isso é difícil porque, com métodos padrão, você não consegue dizer se os resultados são semelhantes porque os modelos são realmente bons, ou apenas porque as fatias de dados são muito semelhantes entre si. É como tentar descobrir se um grupo de amigos concorda porque são inteligentes, ou apenas porque estão todos copiando uns aos outros.

Para resolver isso, os autores propõem um novo método chamado SHARP (Split-HAlf RePeated).

Como funciona: Imagine que, em vez de pedir aos seus dez amigos que provem os bolos dez vezes, você os divide em dois grupos separados. O Grupo 1 prova os bolos na primeira metade do experimento, e o Grupo 2 prova-os na segunda metade. Como esses grupos são distintos e separados, você finalmente pode medir o quanto eles concordam entre si, sem o efeito de "câmara de eco".
O Resultado: Quando os autores testaram o SHARP contra outros 12 métodos, ele foi o claro vencedor. Foi o único que manteve os falsos alarmes baixos, enquanto ainda conseguia detectar diferenças reais entre os modelos.

A Conclusão

O artigo termina dizendo que a maneira atual de comparar modelos de IA médica está quebrada. É como usar uma balança quebrada para pesar ingredientes para um medicamento que salva vidas. Os autores estão fornecendo um novo e simples livro de regras (melhores práticas) para ajudar os cientistas a corrigir sua matemática, garantindo que, quando afirmarem que um modelo é melhor que outro, estejam realmente dizendo a verdade.

Resumo Técnico: Uso Generalizado de Testes Estatísticos Inválidos em Aprendizado de Máquina Biomédico

O Problema
O aprendizado de máquina tornou-se um pilar da pesquisa biomédica, frequentemente empregado para avaliar algoritmos e identificar insights científicos, como a classificação de biomarcadores. A abordagem padrão para avaliar o desempenho preditivo é a validação cruzada (CV). No entanto, uma falha estatística crítica mina essa prática: as estimativas de desempenho preditivo derivadas de diferentes dobras da CV não são independentes. Os testes estatísticos padrão usados para comparar esses desempenhos, como o teste t pareado, baseiam-se na suposição de independência. Quando essa suposição é violada, os testes falham em controlar as taxas de falsos positivos, levando a inferências inválidas. Apesar da onipresença desse problema, ele permanece amplamente não abordado na literatura científica de alto impacto.

Metodologia
Os autores empregaram uma abordagem metodológica multifacetada para diagnosticar e resolver essa questão:

Meta-análise: Uma revisão guiada pelo PRISMA de 210 estudos publicados em periódicos com fator de impacto $\ge$ 15 entre 1º de junho de 2020 e 1º de junho de 2025. A revisão examinou especificamente como os estudos compararam o desempenho preditivo e se eles levaram em conta a dependência entre dobras.
Estudos de Simulação: Simulações extensas foram conduzidas em 420 cenários utilizando quatro conjuntos de dados diversos. Essas simulações testaram o desempenho dos testes padrão sob condições variadas, incluindo o uso de validação cruzada repetida.
Análise Estatística: Os autores analisaram as limitações teóricas dos testes existentes "conscientes da dependência de dobras", observando que, sob validação cruzada padrão, a variância das estatísticas ao nível de dobra e a correlação entre dobras não podem ser desvinculadas, forçando os métodos existentes a dependerem de suposições fortes, muitas vezes não verificadas.
Proposta de um Novo Teste: Para superar essas limitações, os autores propuseram o teste SHARP (Split-HAlf RePeated). Este método modifica o procedimento padrão de validação cruzada para permitir a estimativa direta tanto da variância quanto da correlação, satisfazendo assim os requisitos para inferência estatística válida sem depender de suposições não testáveis.

Principais Resultados

Prevalência do Erro: A meta-análise revelou que 97% dos estudos revisados ignoraram a dependência entre dobras ao comparar o desempenho preditivo. Essa negligência foi encontrada como ubíqua em diversos campos científicos e não foi mitigada por altos fatores de impacto, políticas que promovem rigor ou práticas de ciência aberta.
Impacto nos Falsos Positivos: As simulações demonstraram que ignorar a dependência entre dobras leva a um controle inválido de falsos positivos na maioria dos cenários. O problema é exacerbado pela validação cruzada repetida; à medida que o número de repetições aumenta, as taxas de falsos positivos podem subir em direção a 100%.
Desempenho do SHARP: Quando avaliado em comparação com outros 12 testes estatísticos, o teste SHARP demonstrou o melhor equilíbrio geral em três métricas críticas: controle de falsos positivos, poder estatístico e calibração de intervalos de confiança. Ele alcançou esse desempenho consistentemente em vários esquemas de simulação.

Significado e Afirmações
O artigo afirma que a atual dependência de testes padrão para comparar modelos de aprendizado de máquina na pesquisa biomédica é fundamentalmente falha, levando a um alto risco de conclusões científicas espúrias. Ao identificar que essa questão persiste apesar de altos padrões editoriais, os autores destacam uma lacuna sistêmica no rigor estatístico.

A principal contribuição deste trabalho é a introdução do teste SHARP, que oferece uma solução prática para o problema da dependência entre dobras, permitindo a estimativa direta dos parâmetros estatísticos necessários. Além disso, os autores concluem fornecendo melhores práticas e diretrizes de relatórios específicas, destinadas a restaurar a validade da inferência de comparação de modelos no aprendizado de máquina biomédico e em campos relacionados. O trabalho serve como um chamado à ação para que a comunidade adote essas metodologias corrigidas, a fim de garantir que aplicações científicas, como a classificação de biomarcadores, sejam baseadas em evidências estatisticamente sólidas.

Widespread use of invalid statistical tests in biomedical machine learning

Resumo Técnico: Uso Generalizado de Testes Estatísticos Inválidos em Aprendizado de Máquina Biomédico

Mais como este