Evidence of Unreliable Data and Poor Data Provenance in Clinical Prediction Model Research and Clinical Practice
이 논문은 Kaggle 의 뇌졸중 및 당뇨병 데이터셋이 출처가 불분명하고 위조되었을 가능성이 있음에도 불구하고 수많은 임상 예측 모델 연구와 실제 진료에 악용되고 있음을 지적하며, 향후 연구의 신뢰성을 확보하기 위해 데이터 출처 보고를 의무화하고 위조 데이터를 기반으로 한 모델의 임상 적용을 금지할 것을 권고합니다.
원저자:Gibson, A. D., White, N. M., Collins, G. S., Barnett, A.
1. 문제의 시작: 신뢰할 수 없는 '가짜 레시피'와 '플라스틱 재료' 이 연구팀은 'Kaggle(카글)'이라는 웹사이트를 조사했습니다. 이곳은 전 세계의 데이터 분석가들이 모여 대회에 참가하거나 실력을 연마하는 곳으로, 마치 **거대한 '요리 재료 시장'**과 같습니다.
하지만 이 시장에는 **정체가 불분명한 두 가지 '건강 데이터'(뇌졸중과 당뇨 관련)**가 떠돌아다니고 있었습니다.
뇌졸중 데이터: 업로드한 사람이 "이건 사적인 자료라 연구용으로 쓰면 안 된다"고 경고했습니다.
당뇨 데이터: 업로드한 사람은 "병원에서 가져왔지만, 출처는 비밀입니다"라고 했습니다.
연구팀은 이 두 데이터를 자세히 살펴봤더니, 마치 컴퓨터로 만든 가짜 요리 재료처럼 이상한 점들이 발견되었습니다.
완벽한 재배치: 실제 환자 데이터라면 빠진 값이나 오류가 있을 법한데, 이 데이터는 너무 완벽하고 깔끔했습니다. (실제 인간은 그렇게 깔끔하지 않죠.)
반복되는 패턴: 환자 ID 순서대로 혈당 수치가 갑자기 바뀌는 등, 사람이 만든 게 아니라 컴퓨터 프로그램이 랜덤하게 만들어낸 듯한 패턴이 보였습니다.
결론: 이 데이터는 실제 환자에서 나온 게 아니라, 가짜로 만들어낸 (시뮬레이션된) 데이터일 가능성이 매우 높습니다.
2. 파장: "가짜 재료로 만든 요리를 손님에게 대접하다" 가장 무서운 점은, 이 가짜 재료를 이용해 124 편의 의학 논문이 출판되었다는 것입니다.
세계 각지의 연구자: 인도, 인도네시아, 중국 등 32 개 나라의 연구자들이 이 데이터를 가져와 "뇌졸중 예측 모델", "당뇨 치료법" 등을 개발했다고 발표했습니다.
실제 임상 적용의 위험: 이 중 3 개 모델은 이미 실제 병원에서 환자를 진단하는 데 사용되거나, 특허를 출원하기도 했습니다.
비유: 만약 이 가짜 데이터로 만든 "뇌졸중 예측 앱"이 실제 병원에 설치되었다면? 실제 뇌졸중이 온 환자를 놓치거나, 건강한 사람을 불필요하게 치료하게 될 수 있습니다. 이는 환자의 생명을 위협하는 일입니다.
3. 왜 이런 일이 일어났을까요?
빠른 출판 욕심: 많은 연구자들이 "빠르게 논문을 내야 한다"는 압박감 때문에, 데이터가 진짜인지 확인하지 않고 바로 분석을 시작했습니다. (일명 '패스트 푸드' 연구)
검증 부재: 논문 심사 과정에서도 "이 데이터가 진짜인가?"를 묻는 질문이 거의 없었습니다. 마치 식당에서 손님이 시킨 요리에 쓰인 재료가 플라스틱인지 확인하지 않고 바로 내어주는 것과 같습니다.
4. 해결책: "요리 재료 라벨"을 의무화하자 저자들은 이 문제를 막기 위해 다음과 같은 규칙을 제안합니다.
데이터 출처 공개 (라벨링): 논문을 쓸 때는 "이 데이터는 언제, 어디서, 누가, 왜 수집했는지"를 분명한 라벨처럼 공개해야 합니다. (예: "2023 년 서울 A 병원, 당뇨 환자 1,000 명, 윤리위원회 승인 하에 수집")
가짜 데이터 금지: 만약 데이터가 가짜라면, "이건 교육용 가짜 데이터입니다"라고 명확히 밝히고, 실제 환자 진료에는 절대 쓰지 말아야 합니다.
저널과 저장소의 책임: 논문을 받아주는 곳 (저널) 과 데이터를 보관하는 곳 (Kaggle 등) 이 이 '라벨'을 반드시 확인해야 합니다.
💡 핵심 메시지
이 논문은 우리에게 경고를 보냅니다. **"데이터의 출처가 불분명하면, 그 위에 지은 모든 의학 지식은 모래성처럼 무너질 수 있다"**는 것입니다.
환자의 생명을 다루는 의학 연구에서는 **진짜 재료 (실제 데이터)**를 사용해야 하며, 그 출처를 투명하게 밝혀야만 신뢰할 수 있는 치료법을 만들 수 있습니다. 가짜 데이터로 만든 예측은 환자에게 큰 해를 끼칠 수 있으니, 우리는 항상 **"이 재료, 진짜인가?"**를 의심하며 확인해야 합니다.
제공된 논문 (2026 년 2 월 버전) 에 대한 상세한 기술적 요약은 다음과 같습니다.
논문 제목: 임상 예측 모델 연구 및 임상 실무에서의 신뢰할 수 없는 데이터와 열악한 데이터 출처 (Data Provenance) 의 증거
1. 문제 제기 (Problem)
배경: 임상 예측 모델 (Clinical Prediction Models) 은 환자 진단 및 예후 판정에 널리 사용되며, 수백만 건의 연구가 발표되고 있습니다. 이러한 모델의 신뢰성은 사용된 데이터의 품질과 출처 (Provenance) 에 달려 있습니다.
핵심 문제: Kaggle 과 같은 공개 데이터 레포지토리에 업로드된 대규모 의료 데이터셋 중 일부는 출처가 불분명하거나 위조/시뮬레이션된 데이터일 가능성이 높음에도 불구하고, 동료 검토를 거친 학술지에 게재된 임상 예측 모델 연구에 광범위하게 사용되고 있습니다.
위험성: 이러한 신뢰할 수 없는 데이터를 기반으로 개발된 모델이 실제 임상 실무나 정책 결정에 사용될 경우, 잘못된 치료 결정으로 이어져 환자 안전에 심각한 위협이 될 수 있습니다. 또한, 이는 연구 자원의 낭비와 '속도 중심 (fast-churn)' 연구의 확산을 초래합니다.
2. 연구 방법론 (Methodology)
대상 데이터셋 분석:
Kaggle 에서 공개된 두 개의 주요 의료 데이터셋 (뇌졸중 예측용, 당뇨병 예측용) 을 선정했습니다.
TRIPOD+AI 가이드라인의 9 가지 데이터 출처 관련 항목을 사용하여 데이터의 출처 투명성을 평가했습니다.
탐색적 분석 (Exploratory Analysis): 데이터의 ID 변수와 다른 변수 간의 패턴, 변수 간 상관관계, 변수 분포 (균일 분포 등), 결측치 비율, 중복 행 등을 분석하여 데이터가 실제 환자 데이터인지, 시뮬레이션되거나 조작된 것인지 검증했습니다.
문헌 검색 및 선별:
Google Scholar 를 통해 해당 Kaggle 데이터셋을 인용한 124 편의 임상 예측 모델 연구 (동료 검토 논문) 를 식별했습니다.
연구의 윤리 승인 여부, 데이터 출처 명시 여부, TRIPOD+AI 준수 정도, 임상 적용 가능성 주장 등을 평가했습니다.
Altmetric 및 Overton 을 통해 정책 문서나 특허에서의 인용 여부를 확인했습니다.
분석 도구: R 언어 (tidyverse, openalexR 패키지) 를 사용하여 분석을 수행하고, 모든 코드와 데이터는 GitHub 에 공개되었습니다.
3. 주요 결과 (Key Results)
데이터 출처 및 신뢰성 결여:
두 데이터셋 모두 TRIPOD+AI 9 개 항목에서 0/9 점을 기록하여 출처 정보가 전혀 없었습니다.
업로드자는 뇌졸중 데이터의 경우 "교육 목적 외 연구 사용 금지"라고 명시했고, 당뇨병 데이터의 경우 "비밀 유지로 인해 출처를 공개할 수 없다"고 밝혔습니다.
데이터 위조/시뮬레이션 증거:
뇌졸중 데이터: 환자 ID 와 혈당 수치 간에 비정상적인 분포 전환이 관찰되었고, 결측치가 극히 적어 (0.3%) 실제 의료 데이터의 특성과 불일치했습니다.
당뇨병 데이터: 10 만 명의 환자 데이터에서 혈당과 HbA1c 수치가 단 18 개의 이산적 (discrete) 값만 존재하여 통계적으로 불가능한 패턴을 보였습니다. 또한 7%(6,939 건) 의 중복 환자 기록이 발견되어 데이터가 재표본 추출되거나 조작되었을 가능성이 매우 높았습니다.
연구 현황 및 영향:
총 124 편의 논문이 이 데이터셋을 사용했으며, 32 개 국가의 연구자들이 참여했습니다.
윤리 승인: 124 편의 논문 중 윤리 승인 또는 불필요함을 명시한 논문은 단 3 편 (2%) 뿐이었으며, 90% 는 윤리 관련 언급이 전혀 없었습니다.
임상 적용 주장: 68% (뇌졸중) 와 80% (당뇨병) 의 논문이 실제 임상 적용을 권장하거나 사용 중이라고 주장했습니다.
실제 영향: 3 개의 모델이 실제 임상 실무에 사용되거나 테스트되었다는 증거가 있으며, 1 개의 뇌졸중 위험 예측 모델은 의료 기기 특허에 인용되었습니다. 또한 86 편의 리뷰 논문과 1,529 건의 인용을 통해 잘못된 연구가 학계에 확산되고 있습니다.
4. 주요 기여 (Key Contributions)
위험 데이터셋의 실증적 규명: Kaggle 의 인기 있는 두 데이터셋이 실제 환자 데이터가 아닐 가능성이 매우 높으며, 이를 기반으로 한 수백 편의 연구가 신뢰할 수 없는 결론을 도출하고 있음을 통계적, 방법론적으로 증명했습니다.
임상적 위험 경고: 신뢰할 수 없는 데이터로 개발된 모델이 실제 임상 현장과 특허에 활용되고 있음을 최초로 지적하여, 환자 안전에 대한 즉각적인 경보를 울렸습니다.
정책 및 가이드라인 제안:
저널/출판사: 데이터 출처 정보 (수집 시기, 장소, 목적, 수집자 등) 를 필수적으로 보고하도록 의무화하고, 경쟁용 데이터셋 (Competition datasets) 의 사용 시 강력한 정당성을 요구할 것을 제안합니다.
데이터 레포지토리 (Kaggle 등): 모든 건강/의료 데이터 업로드 시 필수적인 '데이터 출처 보고 (Data Provenance Reporting)' 양식을 도입할 것을 권고합니다.
연구자/임상가: 데이터의 신뢰성을 검증하지 않고는 임상적 결론을 내리지 말아야 하며, TRIPOD+AI 및 PROBAST+AI 가이드라인을 준수해야 함을 강조합니다.
5. 의의 및 시사점 (Significance)
연구 무결성 위기: 의료 AI 및 예측 모델 연구 분야에서 데이터 품질 관리와 출처 투명성의 부재가 심각한 위기로 대두되었음을 보여줍니다.
실제 피해 가능성: 단순한 학술적 오류를 넘어, 실제 환자에게 불필요한 치료를 받거나 필요한 치료를 받지 못하게 하는 등 직접적인 해악을 초래할 수 있음을 경고합니다.
미래 방향: 공개 데이터 공유의 투명성은 중요하지만, 데이터의 '진실성 (Authenticity)'과 '출처 (Provenance)'에 대한 검증 메커니즘이 없다면 오히려 위조된 연구의 확산을 부추길 수 있음을 시사합니다. 이에 따라 출판 및 데이터 관리 정책의 근본적인 변화가 시급함을 강조합니다.
이 논문은 의료 데이터 과학 분야에서 데이터 무결성의 중요성을 재조명하며, 향후 임상 예측 모델 연구의 질적 향상을 위한 구체적인 제도적 개선을 요구하는 중요한 연구입니다.