Menopause in the All of Us Research Program: A Descriptive Summary of Electronic Health Record and Survey Response across Sociodemographic Characteristics
이 논문은 'All of Us' 연구 프로그램의 약 39 만 명 여성 참가자를 대상으로 설문조사, 전자의무기록 (EHR), 유전체 데이터를 분석하여 폐경 관련 데이터의 분포와 EHR 진단 코드와 자기 보고식 설문 간의 일치성을 평가함으로써 폐경 연구의 표본 추출 전략 및 연구 설계에 필요한 기초 정보를 제공했습니다.
원저자:Staples, J. W., White, S. L., Giacalone, A., Pozdeyev, N., Sammel, M. D., Stranger, B. E., Valencia, C. I., Santoro, N., Hendricks, A. E.
상상해 보세요. 미국 전역의 여성 40 만 명 이상의 건강 정보가 담긴 **거대한 도서관 (All of Us 프로젝트)**이 있다고 가정해 봅시다. 연구자들은 이 도서관에서 '폐경'이라는 주제를 찾기 위해 두 가지 다른 기록장을 열어봤습니다.
의사 기록장 (EHR): 병원에서 의사가 진료할 때 작성하는 공식적인 진료 기록입니다.
질문지 기록장 (Survey): 참여자들이 직접 작성한 건강 설문지입니다.
연구자들은 이 두 기록장을 비교하며 "폐경 정보를 찾는 데 어떤 기록장이 더 잘 쓰이는가?"를 확인했습니다.
🔍 주요 발견 1: "의사 기록장"은 너무 비어있었다!
가장 놀라운 사실은 질문지 기록장에 폐경 정보가 의사 기록장보다 7 배나 더 많았다는 것입니다.
상황: 19 만 명의 여성이 "네, 생리가 멈췄어요"라고 설문지에 적었습니다. 하지만 같은 여성들 중 병원에서 공식적으로 '폐경' 진단을 받은 기록은 고작 2 만 8 천 명뿐이었습니다.
비유: 마치 친구들이 "오늘 배고파"라고 7 번이나 말했는데, 식당 주인은 그중 1 번만 메모장에 적어둔 것과 같습니다.
이유: 여성들이 병원에 갔을 때, 폐경 자체를 주된 이유로 진료를 받지 않았거나, 의사가 진료 기록에 '폐경'이라는 단어를 공식적으로 적지 않았기 때문입니다. (예: 고혈압 치료하러 갔는데 폐경은 그냥 지나간 이야기로만 남음)
🔍 주요 발견 2: "의사 기록장"의 이상한 패턴
의사 기록장에는 흥미로운 패턴이 하나 있었습니다. 65 세에 기록이 갑자기 폭증했습니다.
이유: 미국에서는 65 세가 되면 **메디케어 (노인 건강보험)**에 가입하게 됩니다. 연구자들은 이것이 보험 처리를 위해 나이가 들면 폐경 기록을 더 꼼꼼히 적기 때문일 수도 있다고 추측했습니다. 마치 "65 세가 되면 도서관 사서가 갑자기 모든 책을 다시 정리하기 시작하는 것"과 비슷합니다.
🔍 주요 발견 3: 데이터의 교차점 (유전 정보까지!)
이 연구는 단순히 기록만 본 게 아니라, **유전 정보 (DNA)**와도 연결해 봤습니다.
약 25 만 명의 여성이 DNA 데이터도 가지고 있었지만, 이 중 의사 기록과 설문지 기록을 모두 가진 사람은 9% 정도뿐이었습니다.
의미: 앞으로 유전자가 폐경 시기에 어떤 영향을 미치는지 연구하려면, 이 세 가지 정보 (의사 기록 + 설문지 + 유전자) 가 겹치는 부분을 찾아야 한다는 뜻입니다.
🔍 주요 발견 4: "모르는 척"하는 사람들도 있었다
설문지를 보면, **70 세가 넘었는데도 "아직 폐경 안 했어요"라고 답한 여성들이 약 4% (약 1,700 명)**나 있었습니다.
비유: 이는 마치 할머니가 "나는 아직 20 대야"라고 말하는 것과 비슷합니다.
원인: 기억이 안 나거나, 질문을 잘못 이해했거나, 단순히 답하기 귀찮아서일 수 있습니다. 연구자들은 이를 '응답 편향'이라고 부릅니다.
💡 이 연구가 우리에게 주는 메시지 (결론)
설문지가 더 신뢰할 만하다: 폐경 연구나 건강 분석을 할 때, 병원 기록만 믿으면 많은 정보를 놓치게 됩니다. 직접 물어보는 설문지가 훨씬 더 많은 정보를 줍니다.
기록을 더 잘해야 한다: 의사들이 진료 기록에 폐경 상태를 더 명확하게 적어주면, 앞으로의 연구와 환자 관리가 훨씬 수월해질 것입니다.
다양한 데이터의 중요성: 유전자, 생활 습관, 병원 기록, 설문지 등 여러 정보를 하나로 합쳐야만 폐경이 우리 건강 (심장, 뼈 등) 에 미치는 영향을 제대로 이해할 수 있습니다.
🌟 한 줄 요약
"거대한 건강 도서관에서 폐경 정보를 찾으려니, 의사가 쓴 공책보다 여성들이 직접 쓴 편지 (설문지) 에 정보가 훨씬 더 많았어요. 앞으로는 이 두 가지를 잘 섞어서 더 정확한 건강 연구를 해야 합니다!"
이 연구는 앞으로 폐경과 관련된 건강 연구를 할 때, 어떤 데이터를 어떻게 써야 하는지에 대한 중요한 지도 (가이드) 를 제공해 줍니다.
논문 요약: All of Us 연구 프로그램 내 폐경 데이터 특성 분석
1. 연구 배경 및 문제 제기 (Problem)
폐경의 중요성: 폐경은 여성 생리학의 중요한 전환기이며, 심혈관 및 대사 질환, 골다공증 등 다양한 건강 결과에 영향을 미칩니다.
데이터의 한계: 임상 연구에서 폐경 상태는 종종 간과되거나 불일치하게 측정됩니다. 특히 전자의무기록 (EHR) 은 구조화된 진단 코드가 부족하여 폐경 상태를 포착하는 데 한계가 있으며, 설문 조사 데이터도 누락되거나 불완전할 수 있습니다.
연구 필요성: 대규모 정밀의학 코호트 (All of Us Research Program, AoURP) 를 활용하여 다양한 사회인구학적 특성을 가진 여성 집단에서 EHR 진단 코드와 자가 보고 설문 응답 간의 일치성, 데이터 분포, 그리고 유전체 데이터와의 교차점을 체계적으로 분석할 필요가 있었습니다.
2. 연구 방법론 (Methodology)
데이터 소스: All of Us 연구 프로그램의 통제된 계층 (Controlled Tier) v8 및 v7 데이터셋을 사용했습니다.
대상: 약 396,000 명의 여성 참가자 (성별이 여성으로 정의된 참가자).
데이터 수집 및 정의:
EHR 데이터: SNOMED CT 용어를 기반으로 한 폐경 관련 진단 코드 (예: 폐경 존재, 조기 폐경, 난소 부전 등) 를 추출했습니다.
설문 데이터: '전반적인 건강 (Overall Health)' 설문지 중 여성 건강 섹션의 질문 (월경 영구 중단 여부, 중단 원인, 자궁/난소 제거 수술 이력 등) 을 분석했습니다.
유전체 데이터: 전체 엑솜 시퀀싱 (srWGS) 데이터와 교차 분석을 수행했습니다.
분석 기법:
사회인구학적 변수 (인종, 민족, 교육, 소득, 연령 등) 에 따른 데이터 분포를 요약 통계 (중앙값, 사분위수) 로 계산했습니다.
EHR, 설문, 유전체 데이터 간의 중첩 (Intersection) 및 일치성을 평가했습니다.
연령대별 (40 세 미만, 40-60 세, 60 세 초과) 폐경 상태 분포를 분석했습니다.
AoURP 데이터 공유 정책에 따라 표본 크기가 20 이하인 경우를 비공개 처리하거나 반올림하여 보고했습니다.
3. 주요 결과 (Key Results)
데이터 포착률의 격차:
자가 보고 설문 응답에서 폐경이 보고된 건수는 약 192,655 건으로, EHR 진단 코드 (약 27,975 건) 보다 약 7 배 더 많았습니다. 이는 EHR 에서 폐경 상태가 체계적으로 누락 (under-ascertainment) 되고 있음을 시사합니다.
EHR 에서 폐경 진단 코드가 있는 참가자의 99% 이상은 설문에서도 폐경을 보고했습니다.
연령 분포 패턴:
설문 데이터: 40 세 미만은 대부분 폐경 전, 60 세 이상은 대부분 폐경 후로 보고하여 생물학적 기대치와 일치했습니다. 다만, 70 세 이상 중 4% (약 1,700 명) 가 폐경을 경험하지 않았다고 응답하여 응답 편향 (recall bias) 가능성이 제기되었습니다.
EHR 데이터: 50-80 세 사이에 분포했으나, 65 세에 뚜렷한 피크가 관찰되었습니다. 이는 메디케어 (Medicare) 가입 시기와 관련이 있을 가능성이 있으나, 보험 유형 데이터의 표본 크기가 작아 명확한 인과 관계는 규명되지 않았습니다.
사회인구학적 특성:
백인 및 유럽계 유전적 조상을 가진 그룹은 다른 그룹에 비해 평균 연령이 다소 높았으나, 이는 전체 코호트의 인구 통계적 구성을 반영한 것으로 보이며 폐경 자체의 차이보다는 표본 편향으로 해석되었습니다.
다중 데이터 모달리티 교차:
유전체 데이터를 가진 여성 (약 25 만 명) 중 약 9% 만이 EHR 폐경 데이터를 보유하고 있었으며, 설문과 EHR 데이터를 모두 가진 경우는 약 9% 수준이었습니다. 이는 통합 분석 시 표본 크기가 제한될 수 있음을 보여줍니다.
증상 기록 부재:
안면 홍조 (vasomotor symptoms) 와 같은 폐경 관련 흔한 증상은 EHR 구조화 데이터에서 거의 기록되지 않았습니다 (N ≤ 20).
4. 주요 기여 (Key Contributions)
데이터 특성화: AoURP 와 같은 대규모 다중 모달 데이터셋에서 폐경 데이터가 어떻게 문서화되고 있는지 (EHR vs. 설문) 에 대한 포괄적인 기술적 개요를 제공했습니다.
연구 설계 가이드: 향후 폐경 관련 연구에서 표본 추출 전략, 통계적 검정력 (power) 계산, 표현형 (phenotype) 정의에 필요한 실질적인 지침을 제시했습니다.
데이터 품질 평가: EHR 의 진단 코드가 폐경 상태를 포착하는 데 한계가 있음을 확인하고, 자가 보고 설문 데이터가 더 풍부한 정보를 제공함을 입증했습니다.
다학제적 접근: EHR, 설문, 유전체 데이터를 통합하여 분석할 수 있는 잠재력과 한계를 명확히 했습니다.
5. 의의 및 결론 (Significance)
임상 및 연구적 함의: EHR 데이터만으로는 폐경 관련 건강 결과 (심혈관 질환 등) 를 연구하는 데 한계가 있으며, 자가 보고 설문 데이터를 반드시 결합해야 함을 강조합니다.
데이터 개선 제안: 향후 연구 및 데이터 수집 과정에서 폐경 발생 연령 (Age at menopause) 이 아닌 관측 시점의 나이를 기록하는 현재의 한계를 지적하고, 폐경 상태와 관련된 더 정확한 데이터 수집 (특히 증상 및 발생 시기) 이 필요함을 주장했습니다.
건강 형평성: 다양한 인종, 민족, 사회경제적 배경을 가진 여성들의 폐경 경험을 포괄적으로 이해함으로써, 건강 불평등을 해소하고 정밀의학 연구의 대표성을 높이는 데 기여할 수 있습니다.
이 연구는 All of Us 데이터셋을 활용한 폐경 연구의 기초를 마련하며, 향후 대규모 코호트 연구에서 데이터의 품질, 접근성, 상호 운용성을 개선하기 위한 중요한 통찰을 제공합니다.