Evidence of Unreliable Data and Poor Data Provenance in Clinical Prediction Model Research and Clinical Practice

이 논문은 Kaggle 의 뇌졸중 및 당뇨병 데이터셋이 출처가 불분명하고 위조되었을 가능성이 있음에도 불구하고 수많은 임상 예측 모델 연구와 실제 진료에 악용되고 있음을 지적하며, 향후 연구의 신뢰성을 확보하기 위해 데이터 출처 보고를 의무화하고 위조 데이터를 기반으로 한 모델의 임상 적용을 금지할 것을 권고합니다.

Gibson, A. D., White, N. M., Collins, G. S., Barnett, A.

게시일 2026-02-26
📖 3 분 읽기☕ 가벼운 읽기
⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 "요리사들의 비밀 재료" 이야기

1. 문제의 시작: 신뢰할 수 없는 '가짜 레시피'와 '플라스틱 재료'
이 연구팀은 'Kaggle(카글)'이라는 웹사이트를 조사했습니다. 이곳은 전 세계의 데이터 분석가들이 모여 대회에 참가하거나 실력을 연마하는 곳으로, 마치 **거대한 '요리 재료 시장'**과 같습니다.

하지만 이 시장에는 **정체가 불분명한 두 가지 '건강 데이터'(뇌졸중과 당뇨 관련)**가 떠돌아다니고 있었습니다.

  • 뇌졸중 데이터: 업로드한 사람이 "이건 사적인 자료라 연구용으로 쓰면 안 된다"고 경고했습니다.
  • 당뇨 데이터: 업로드한 사람은 "병원에서 가져왔지만, 출처는 비밀입니다"라고 했습니다.

연구팀은 이 두 데이터를 자세히 살펴봤더니, 마치 컴퓨터로 만든 가짜 요리 재료처럼 이상한 점들이 발견되었습니다.

  • 완벽한 재배치: 실제 환자 데이터라면 빠진 값이나 오류가 있을 법한데, 이 데이터는 너무 완벽하고 깔끔했습니다. (실제 인간은 그렇게 깔끔하지 않죠.)
  • 반복되는 패턴: 환자 ID 순서대로 혈당 수치가 갑자기 바뀌는 등, 사람이 만든 게 아니라 컴퓨터 프로그램이 랜덤하게 만들어낸 듯한 패턴이 보였습니다.
  • 결론: 이 데이터는 실제 환자에서 나온 게 아니라, 가짜로 만들어낸 (시뮬레이션된) 데이터일 가능성이 매우 높습니다.

2. 파장: "가짜 재료로 만든 요리를 손님에게 대접하다"
가장 무서운 점은, 이 가짜 재료를 이용해 124 편의 의학 논문이 출판되었다는 것입니다.

  • 세계 각지의 연구자: 인도, 인도네시아, 중국 등 32 개 나라의 연구자들이 이 데이터를 가져와 "뇌졸중 예측 모델", "당뇨 치료법" 등을 개발했다고 발표했습니다.
  • 실제 임상 적용의 위험: 이 중 3 개 모델은 이미 실제 병원에서 환자를 진단하는 데 사용되거나, 특허를 출원하기도 했습니다.
  • 비유: 만약 이 가짜 데이터로 만든 "뇌졸중 예측 앱"이 실제 병원에 설치되었다면? 실제 뇌졸중이 온 환자를 놓치거나, 건강한 사람을 불필요하게 치료하게 될 수 있습니다. 이는 환자의 생명을 위협하는 일입니다.

3. 왜 이런 일이 일어났을까요?

  • 빠른 출판 욕심: 많은 연구자들이 "빠르게 논문을 내야 한다"는 압박감 때문에, 데이터가 진짜인지 확인하지 않고 바로 분석을 시작했습니다. (일명 '패스트 푸드' 연구)
  • 검증 부재: 논문 심사 과정에서도 "이 데이터가 진짜인가?"를 묻는 질문이 거의 없었습니다. 마치 식당에서 손님이 시킨 요리에 쓰인 재료가 플라스틱인지 확인하지 않고 바로 내어주는 것과 같습니다.

4. 해결책: "요리 재료 라벨"을 의무화하자
저자들은 이 문제를 막기 위해 다음과 같은 규칙을 제안합니다.

  • 데이터 출처 공개 (라벨링): 논문을 쓸 때는 "이 데이터는 언제, 어디서, 누가, 왜 수집했는지"를 분명한 라벨처럼 공개해야 합니다. (예: "2023 년 서울 A 병원, 당뇨 환자 1,000 명, 윤리위원회 승인 하에 수집")
  • 가짜 데이터 금지: 만약 데이터가 가짜라면, "이건 교육용 가짜 데이터입니다"라고 명확히 밝히고, 실제 환자 진료에는 절대 쓰지 말아야 합니다.
  • 저널과 저장소의 책임: 논문을 받아주는 곳 (저널) 과 데이터를 보관하는 곳 (Kaggle 등) 이 이 '라벨'을 반드시 확인해야 합니다.

💡 핵심 메시지

이 논문은 우리에게 경고를 보냅니다. **"데이터의 출처가 불분명하면, 그 위에 지은 모든 의학 지식은 모래성처럼 무너질 수 있다"**는 것입니다.

환자의 생명을 다루는 의학 연구에서는 **진짜 재료 (실제 데이터)**를 사용해야 하며, 그 출처를 투명하게 밝혀야만 신뢰할 수 있는 치료법을 만들 수 있습니다. 가짜 데이터로 만든 예측은 환자에게 큰 해를 끼칠 수 있으니, 우리는 항상 **"이 재료, 진짜인가?"**를 의심하며 확인해야 합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →