Widespread use of invalid statistical tests in biomedical machine learning

원저자: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X.

게시일 2026-05-22

📖 3 분 읽기☕ 가벼운 읽기

보기: bioRxiv ↗PDF ↗

CC BY 4.0

원저자: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X. Z., Mansour L., S., Ng, K. K., Nguyen, T. T., Ooi, L. Q. R., Pande, S., Qian, X., Ruan, J., Wang, Z., Xie, Y., Zhang, C., Zhang, Y., Patil, K., Parkes, L., Dhamala, E., Chopra, S., Zalesky, A., Holmes, A., Eickhoff, S., Zhou, J. H., Renaud, O., Dosenbach, N., Kording, K. P., Bzdok, D., Nichols, T., Yeo, B. T. T.

원본 논문은 CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ⚕️ 이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

두 가지 새로운 레시피 중 어떤 것이 더 맛있는 케이크를 만드는지 결정하려는 판사를 상상해 보십시오. 공정하게 판단하기 위해 각 레시피로 케이크 하나씩만 구워 한 번씩 맛보는 것이 아니라, 레시피 A 로 케이크 열 개를 구우고 레시피 B 로도 열 개를 구운 뒤, 서로 다른 열 명의 친구에게 맛을 보게 합니다.

문제: "그룹 허그" 실수

생물의학 머신러닝 (의료 데이터에서 패턴을 찾기 위해 컴퓨터를 사용하는 분야) 세계에서는 과학자들이 "교차 검증 (cross-validation)"이라는 유사한 작업을 수행합니다. 그들은 데이터를 열 개의 조각으로 나누고, 컴퓨터 모델 중 아홉 조각으로 훈련시킨 뒤 나머지 한 조각으로 테스트합니다. 이 과정을 열 번 반복합니다.

해당 논문은 대부분의 과학자들이 여기서 치명적인 오류를 범한다고 주장합니다. 그들은 열 번의 테스트 결과를 비교할 때, 각 테스트 결과가 완전히 독립적이라고 가정하는 표준 수학 도구 (예: 쌍체 t-검정) 를 사용합니다. 마치 서로 한 번도 만난 적이 없는 열 명의 낯선 사람에게 케이크 맛을 보게 하는 것과 같습니다.

하지만 실제로는 이 열 번의 테스트가 독립적이지 않습니다. 모두 동일한 근본 데이터를 서로 다른 방식으로 잘라낸 것뿐입니다. 이는 마치 같은 열 명의 친구에게 케이크를 열 번 연속으로 맛보게 하는 것과 같습니다. 친구들은 서로 알고 있으며 비슷한 취향을 가지고 있기 때문에, 그들의 의견은 "상관관계"가 있습니다.

논문은 이러한 연결 관계를 무시함으로써 과학자들이 약간 휘어진 자를 사용하고 있다고 주장합니다. 그들은 매우 정밀하다고 생각하지만, 실제로는 "통계적 유령"을 보고 있는 것입니다. 실제로 존재하지 않는 모델 간의 차이를 발견하게 되어, 엄청난 수의 **거짓 경보 (false positives)**가 발생합니다.

수사: 글로벌 감사

저자들은 단순히 추측한 것이 아니라 탐정처럼 조사했습니다. 그들은 최고 수준의 의학 저널 (높은 "임팩트 팩터"를 가진, 즉 매우 유명하고 영향력 있는 저널) 에 게재된 210 건의 고위험 연구를 검토했습니다.

발견: 놀랍게도 이러한 연구의 **97%**가 "그룹 허그" 실수를 저지르고 있었습니다. 그들은 의존적인 테스트 결과를 마치 독립적인 것처럼 취급했습니다.
범위: 이는 몇몇 "나쁜" 연구만의 문제가 아니었습니다. 저널의 명성이 어떠하든, 규칙이 얼마나 엄격하든, 과학자들이 데이터를 공개적으로 공유하든 상관없이 발생했습니다. 이는 전체 분야에서 널리 퍼진 습관입니다.

시뮬레이션: 얼마나 심각한가?

이 문제가 얼마나 위험한지 증명하기 위해 저자들은 420 가지의 서로 다른 컴퓨터 시뮬레이션을 실행했습니다. 그들은 테스트 결과가 서로 연결되어 있다는 사실을 무시할 때 다음과 같은 일이 발생함을 발견했습니다.

"거짓 경보" 비율이 급증합니다.
테스트를 여러 번 반복할 경우 (반복 교차 검증이라고 하는 일반적인 관행), 거짓 경보를 얻을 확률은 거의 **100%**까지 치솟을 수 있습니다. 마치 동전을 던졌는데 한 번도 이기지 않았음에도 매번 로또에 당첨되었다고 말하는 것과 같습니다.

해결책: "SHARP" 테스트

논문은 이를 해결하는 것이 어렵다고 설명합니다. 표준 방법을 사용하면, 결과가 유사한 것이 모델이 실제로 뛰어나서인지, 아니면 데이터 조각들이 서로 너무 비슷해서인지 구분할 수 없기 때문입니다. 이는 친구들이 동의하는 것이 그들이 똑똑해서인지, 아니면 단순히 서로를 모방해서인지 파악하려는 것과 같습니다.

이를 해결하기 위해 저자들은 SHARP(Split-HAlf RePeated, 분할 - 반복) 라는 새로운 방법을 제안합니다.

작동 원리: 열 명의 친구에게 케이크를 열 번 맛보게 하는 대신, 그들을 두 개의 별도 그룹으로 나눈다고 상상해 보십시오. 그룹 1 은 실험의 전반부에서 케이크를 맛보고, 그룹 2 는 후반부에서 맛봅니다. 이 두 그룹은 명확히 구분되고 분리되어 있기 때문에, "에코 챔버" 효과 없이 그들이 스스로 얼마나 동의하는지 측정할 수 있습니다.
결과: 저자들이 SHARP 를 다른 12 가지 방법과 비교했을 때, SHARP 가 명백한 승자였습니다. 이는 모델 간의 실제 차이를 감지할 수 있으면서도 거짓 경보를 낮게 유지한 유일한 방법이었습니다.

결론

논문은 의료 AI 모델을 비교하는 현재의 방식이 고장 났다고 결론짓습니다. 이는 생명 구제 의약품의 재료를 저울질할 때 망가진 저울을 사용하는 것과 같습니다. 저자들은 과학자들이 수학을 수정할 수 있도록 돕는 새롭고 간단한 규칙집 (최적 사례) 을 제공하며, 한 모델이 다른 모델보다 낫다고 주장할 때 실제로 진실을 말하고 있음을 보장합니다.

기술적 요약: 생물의학 머신러닝에서의 부적절 통계 검정 광범위한 사용

유사한 논문