Availability and Quality of Anthropometric Data in Swiss Childrens Hospitals: The SwissPedGrowth Project
스위스 소아병원들의 이력상 데이터를 분석한 스위스페드그로스 (SwissPedGrowth) 프로젝트는 다양한 전자건강기록 시스템에서 인체계측 데이터를 추출하고 품질을 평가하는 것이 가능함을 입증했으나, 데이터의 완전성과 조화 측면에서는 여전히 과제가 남아 있음을 보여주었습니다.
원저자:Leuenberger, L. M., Shoman, Y., Romero, F., Deligianni, X., Hartung, A., Mozun, R., Goebel, N., Bielicki, J. A., Burckhardt, M.-A., Latzin, P., Saner, C., Posfay-Barbe, K. M., Schwitzgebel, V., GiannoLeuenberger, L. M., Shoman, Y., Romero, F., Deligianni, X., Hartung, A., Mozun, R., Goebel, N., Bielicki, J. A., Burckhardt, M.-A., Latzin, P., Saner, C., Posfay-Barbe, K. M., Schwitzgebel, V., Giannoni, E., Hauschild, M., Stocker, M., Righini-Grunder, F., Lauener, R., Mueller, P., Schlapbach, L. J., Jenni, O. G., Spycher, B. D., Kuehni, C. E., Belle, F. N., for the SwissPedHealth Consortium,
원저자: Leuenberger, L. M., Shoman, Y., Romero, F., Deligianni, X., Hartung, A., Mozun, R., Goebel, N., Bielicki, J. A., Burckhardt, M.-A., Latzin, P., Saner, C., Posfay-Barbe, K. M., Schwitzgebel, V., Giannoni, E., Hauschild, M., Stocker, M., Righini-Grunder, F., Lauener, R., Mueller, P., Schlapbach, L. J., Jenni, O. G., Spycher, B. D., Kuehni, C. E., Belle, F. N., for the SwissPedHealth Consortium,
스위스에는 7 개의 큰 어린이 병원이 있습니다. 이 병원들은 매일 수많은 아이들의 진료 기록을 컴퓨터에 저장해 왔습니다. 이 기록들에는 아이들의 키, 몸무게, 머리 둘레 같은 중요한 정보가 들어있죠.
연구진들은 이 7 개 병원의 기록을 모두 모아, **"우리나라 아이들의 성장 상태를 한눈에 볼 수 있는 거대한 지도를 만들 수 있을까?"**라고 궁금해했습니다. 마치 7 개의 다른 도서관에 흩어져 있는 책들을 모두 찾아와서 하나의 거대한 백과사전을 만드는 것과 같습니다.
🔍 연구 과정: 보물찾기 (데이터 추출)
연구진들은 2017 년부터 2023 년까지 7 개 병원을 방문한 47 만 7 천 명 이상의 아이들 데이터를 분석했습니다.
찾아낸 보물 (데이터의 양):
키 데이터: 전체 방문 기록 중 **20%**만 찾았습니다. (약 5 명 중 1 명)
몸무게 데이터: **43%**를 찾았습니다. (약 2 명 중 1 명)
머리 둘레: **5%**만 찾았습니다.
이유: 병원에서 아이를 진료할 때, 키와 몸무게를 재더라도 컴퓨터에 '정식 입력'을 안 하거나, 종이 문서에 적어두거나, 글로만 적어둔 경우가 많아서 컴퓨터가 자동으로 읽어내지 못했기 때문입니다.
보물 정제 (데이터 품질):
찾은 데이터 중에는 "어? 이거 이상한데?" 하는 것들이 있었습니다.
예: 키가 3 미터인 아이, 몸무게가 10 킬로그램인데 키가 200 센티미터인 경우 등.
연구진들은 **두 가지 필터 (자동 프로그램)**를 만들어서 이런 엉뚱한 데이터를 걸러냈습니다.
또, **"어제 재고 오늘도 똑같이 적어둔 것"**이나 "어제 재고 오늘도 그대로 가져온 것" 같은 중복 데이터도 찾아냈습니다.
🎯 결과: 우리 동네 아이들과 비슷할까? (대표성)
이제 중요한 질문입니다. "병원에만 오는 아이들만 모아봤는데, 스위스 전체 아이들의 모습을 제대로 반영할까?"
초기 상태: 병원 아이들은 일반 아이들보다 조금 더 부유한 가정에서 왔고, 남아 비율이 조금 더 높았으며, 나이가 조금 더 어렸습니다. (약간의 편차가 있었죠.)
마법 같은 조정 (가중치 적용): 연구진들은 통계학적인 '저울 맞추기 (가중치)' 기술을 사용했습니다. 마치 저울에 추를 달아 균형을 맞추듯, 데이터의 구성을 스위스 전체 아이들의 분포에 맞춰 조정했습니다.
최종 결과: 조정을 마친 후, 이 데이터는 스위스 전체 아이들의 모습을 아주 잘 반영하게 되었습니다! 이제 이 데이터를 통해 전국 아이들의 성장 상태를 믿고 연구할 수 있게 된 것입니다.
💡 문제점과 해결책: 왜 이렇게 어려웠을까?
이 연구는 **"데이터를 모으는 것"**보다 **"데이터를 정리하는 것"**이 훨씬 힘들었다는 것을 보여줍니다.
문제: 병원마다 컴퓨터 시스템이 다르고, 의사들이 키와 몸무게를 입력하는 방식도 제각각입니다. 어떤 병원은 '정식 입력란'에 넣고, 어떤 병원은 '메모란'에 적어두거나, 아예 스캔된 종이 문서에 숨겨져 있기도 합니다.
비유: 7 개의 도서관이 있는데, 한 도서관은 책장을 '빨강'으로, 다른 도서관은 '파랑'으로 정리하고, 또 다른 도서관은 책 제목을 손으로 적어두는 상황과 같습니다. 모든 책을 찾아서 같은 색의 책장에 정리하려면 엄청난 노력이 필요합니다.
🚀 결론: 무엇을 배웠을까?
가능성 확인: 스위스 전역의 병원 데이터를 하나로 모아, 아이들의 성장 연구를 하는 것은 기술적으로 가능하다는 것을 증명했습니다.
과제: 하지만 데이터가 불완전하고, 병원마다 입력 방식이 달라서 정리하는 데 많은 노력이 듭니다.
제안: 의사 선생님들이 진료 기록을 컴퓨터에 더 깔끔하고 체계적으로 입력하도록 훈련하고, 병원 시스템도 이를 쉽게 만들도록 개선해야 합니다.
한 줄 요약:
"스위스 병원들의 흩어진 아이들 성장 기록을 모아 정리했더니, 조금만 손질을 하면 전국 아이들의 모습을 잘 보여주는 훌륭한 지도가 될 수 있다는 것을 확인했습니다. 하지만 앞으로는 의사 선생님들이 기록을 더 깔끔하게 남기도록 도와야 합니다."
논문 개요
이 연구는 스위스 내 7 개 소아 병원의 이력상 전자 건강 기록 (EHR) 시스템에서 인체계측 데이터 (키, 체중, 머리 둘레, BMI) 를 추출하는 가능성, 데이터의 가용성 및 품질, 그리고 추출된 코호트가 일반 인구를 얼마나 잘 대표하는지 평가하는 것을 목적으로 합니다.
1. 문제 제기 (Problem)
데이터 추출의 난제: 소아과 의사는 진료 과정에서 키와 체중 등 인체계측 데이터를 routinely 수집하지만, 이를 연구용 데이터로 변환하는 과정은 복잡합니다.
기술적 장벽: 이질적인 EHR 시스템 간의 데이터 추출 및 정합성 (Harmonization) 확보의 어려움, 기록된 측정값의 가용성과 품질에 대한 불확실성, 그리고 임상 코호트가 일반 인구를 대표하는지에 대한 우려가 존재합니다.
스위스의 상황: 스위스에서는 'SwissPedHealth' 및 'SwissPedData' 이니셔티브를 통해 EHR 데이터 추출을 위한 프레임워크가 마련되었으나, 대규모 다기관 EHR 데이터를 활용한 소아 성장 연구의 잠재력과 대표성은 아직 평가되지 않았습니다.
2. 방법론 (Methodology)
연구 설계: 스위스 7 개 도시 (바젤, 베른, 제네바, 로잔, 루체른, 장크트갈렌, 취리히) 의 소아 병원에서 2017 년부터 2023 년까지 20 세 미만 환자를 대상으로 한 후향적 다기관 연구 (SwissPedGrowth).
데이터 수집 및 전처리:
데이터 소스: SwissPedHealth 국가 데이터 스트림을 통해 수집된 EHR 데이터.
표준화: SPHN(Swiss Personalized Health Network) 의 표준 용어 (SNOMED-CT, LOINC) 와 RDF(Resource Description Framework) 스키마를 사용하여 데이터를 매핑하고 BioMedIT 서버로 전송.
변수: 사회인구학적 정보, 행정적 정보, 임상 정보, 그리고 스위스 이웃 사회경제적 지수 (Swiss-SEP) 가 포함됨.
방문 유형 분류: 외래 방문, 응급실 방문, 입원 치료로 구분.
데이터 품질 평가 알고리즘:
자체 개발 알고리즘: WHO 성장 기준을 스위스에 적용한 Z-score 기반.
기존 알고리즘 (growthcleanr): 환자의 종단적 이동 평균 Z-score 기반.
결합 접근법: 위 두 알고리즘을 순차적으로 적용하여 오류 (단위 오류, 소수점 오류, swapping, 중복 기록, 생물학적으로 불가능한 이상치 등) 를 식별 및 정제.
대표성 평가: 스위스 연방 통계청 (FSO) 의 인구조사 데이터와 비교하여 표준화된 평균 차이 (Standardized Mean Differences) 를 계산하고, 가중치 (Raking) 를 적용하여 편향을 보정.
3. 주요 기여 (Key Contributions)
다기관 EHR 데이터 추출 프레임워크 검증: 이질적인 EHR 시스템을 가진 7 개 병원에서 대규모 인체계측 데이터를 성공적으로 추출하고 정합화할 수 있음을 입증.
고급 데이터 정제 파이프라인 개발: 자체 개발 알고리즘과 기존 도구 (growthcleanr) 를 결합하여 EHR 데이터의 복잡한 오류 (중복 기록, 불완전한 구조화 등) 를 식별하고 정제하는 프로세스를 제시.
데이터 품질 및 가용성에 대한 실증적 분석: 소아 병원 EHR 데이터의 실제 가용성 (Visit 당 기록 비율) 과 품질 (오류율) 을 정량화하여 향후 연구의 기초를 마련.
대표성 평가 및 보정 방법론: 임상 코호트와 일반 인구 간의 차이를 분석하고, 통계적 가중치 적용을 통해 대표성을 확보하는 방법을 제시.
4. 결과 (Results)
연구 대상: 총 477,531 명의 환자, 2,171,633 회의 방문 기록 포함 (남아 54%, 스위스 국적 71%, 평균 Swiss-SEP 65).
데이터 가용성:
기록 비율: 방문당 키 기록은 20%, 체중은 43%, 머리 둘레는 5~6%, BMI 는 23%.
유형별 차이: 입원 환자 (Inpatient) 에서의 기록률이 외래 및 응급 방문보다 훨씬 높음.
불완전성: 38% 의 환자가 키 기록이 없었으며, BMI 계산에 필요한 키와 체중의 시간적 일치 (30 일 이내) 를 가진 기록은 환자의 38% 에 불과함.
데이터 품질:
오류 식별: 결합 알고리즘을 통해 키의 4%, 체중의 3% 가 생물학적으로 불가능한 이상치로 판별됨.
중복 기록: 키의 29%, 체중의 31% 가 이전 방문이나 당일 중복 기록으로 분류됨.
수정: 단위/소수점 오류 등 약 1% 미만의 기록이 수정됨.
알고리즘 비교: 자체 개발 알고리즘이 기존 growthcleanr 보다 더 많은 이상치와 중복 기록을 식별하고 오류를 수정함.
대표성:
초기 비교에서 연구 대상군은 일반 인구보다 나이가 젊고, 남성이 많으며, 고소득 계층 (Swiss-SEP) 비율이 높았음.
그러나 가중치 (Weighting) 적용 후 연령, 성별, 국적, 사회경제적 지수 분포의 표준화된 차이가 거의 0 에 수렴하여 일반 인구를 잘 대표함을 확인.
5. 의의 및 결론 (Significance & Conclusion)
연구 가능성 입증: 스위스PedHealth 및 SPHN 프레임워크를 통해 대규모 다기관 EHR 기반 소아 성장 연구가 기술적으로 가능함을 입증.
데이터의 한계와 과제:
가용성 부족: 외래 및 응급 방문 시 키/체중 기록률이 낮아 연구에 활용 가능한 데이터가 제한적임.
구조화 문제: 많은 데이터가 스캔된 문서나 비구조화된 자유 텍스트 (Free text) 에 포함되어 자동 추출이 어려움.
정합성 비용: 이질적인 EHR 시스템을 통합하는 데 상당한 업무량과 리소스가 소요됨.
향후 제언:
의사 수준: 구조화된 데이터 입력의 중요성에 대한 교육 필요.
병원 수준: EHR 시스템 최적화 및 구조화 입력 필드 강화.
프레임워크 수준: SPHN 스키마를 실제 EHR 구조에 더 가깝게 조정하고, '행정 사례'가 아닌 '단일 방문' 단위로 데이터를 연결할 수 있는 명확한 방법론 개발 필요.
결론: 적절한 가중치 보정과 데이터 정제를 거친다면, 스위스 소아 병원의 EHR 데이터는 일반 인구를 대표하는 대규모 고품질 데이터 소스로 활용되어 개인 및 공중보건 차원의 소아 성장 연구에 기여할 수 있음.