A capture-recapture hidden Markov model framework for register-based inference of population size and dynamics

Each language version is independently generated for its own context, not a direct translation.

🎯 핵심 주제: "보이지 않는 사람"과 "거짓 신호"를 구별하는 방법

1. 문제 상황: 낡은 지도와 착각하는 나침반

통계청이나 정부는 "우리나라에 실제로 사는 사람이 몇 명일까?"를 알고 싶어 합니다. 과거에는 직접 일일이 방문해서 조사하는 **센서스 (전수조사)**를 했지만, 이건 너무 비싸고 느립니다. 그래서 요즘은 **행정 기록 (세금, 병원, 학교, 은행 기록 등)**을 모아서 인구를 추정합니다.

하지만 여기서 두 가지 큰 문제가 생깁니다.

문제 1: '보이지 않는 사람' (False Negative)
- 비유: 친구가 집에 있는데, 전화가 안 터져서 "아, 저 친구는 지금 집에 없는 거겠지?"라고 착각하는 상황입니다.
- 현실: 외국인이 한국에 살고 있지만, 세금 신고나 병원 방문 같은 '기록'을 남기지 않아서 통계상에서 사라진 것처럼 보이는 경우입니다.
문제 2: '거짓 신호' (False Positive)
- 비유: 친구가 이미 해외로 떠났는데, 친구의 이름이 여전히 가족 카드로 계산된 '가족 소득' 명단에 남아있어서 "아, 저 친구는 아직 한국에 있겠지?"라고 착각하는 상황입니다.
- 현실: 외국인이 한국을 떠났는데 (이민 갔는데), 가족의 소득 기록이나 주소지 등록이 안 지워져서 "아직도 한국에 살고 있다"고 오해하는 경우입니다. 이를 **'과다 등록 (Overcoverage)'**이라고 합니다.

기존 방법들은 이런 '착각'을 제대로 고치지 못하거나, 단순히 한 해의 인구 숫자만 알려줄 뿐, **사람들이 언제 들어오고 언제 나가는지 (이동 동향)**를 추적하지 못했습니다.

2. 이 논문의 해결책: "숨은 상태 추적기" (Hidden Markov Model)

저자들은 이 문제를 해결하기 위해 **'캐치 - 리캐치 (Capture-Recapture)'**라는 생태학 기법을 발전시켰습니다.

생태학 비유: 숲속의 토끼를 잡을 때, 한 번 잡은 토끼에 표식을 하고 다시 놓아줍니다. 나중에 다시 잡았을 때 "표식이 있는 토끼"와 "표식이 없는 토끼"의 비율을 통해 숲속에 토끼가 총 몇 마리인지, 그리고 죽거나 다른 곳으로 갔는지 추론합니다.

이 논문의 모델은 이를 사람에게 적용하면서 다음과 같은 똑똑한 기능을 추가했습니다.

실제 상태 vs 기록 상태 구분:
- 사람은 실제 상태 (한국에 있음, 해외에 있음, 사망함) 와 기록 상태 (행정 기록에 남음, 안 남음) 가 다를 수 있습니다.
- 이 모델은 마치 마법 같은 나침반처럼, 기록에 남지 않았더라도 실제로는 한국에 있을 확률과, 기록에 남아있더라도 실제로는 해외에 있을 확률을 계산합니다.
시간의 흐름을 따라가기:
- 기존 방법은 "2023 년 인구 = 500 만 명"처럼 **스냅샷 (사진)**만 줍니다.
- 이 모델은 동영상처럼, "A 씨는 2020 년에 들어와서 2022 년에 해외로 갔다가 2023 년에 다시 돌아왔다"는 개별 이동 경로까지 추적합니다.
개인별 차이 고려:
- 모든 사람이 기록을 남기는 확률이 같지 않습니다. 젊은 남성은 취업 기록이 많고, 노인은 연금 기록이 많죠. 이 모델은 사람마다 다른 성향을 고려해서 오차를 줄입니다.

3. 실제 적용: 스웨덴의 사례

이 모델을 스웨덴의 이민자 데이터에 적용해 보았습니다.

발견 1: "가족 소득" 기록의 함정
- 외국인이 한국을 떠났는데, 배우자나 자녀의 소득 기록 때문에 '가족 소득' 명단에 계속 남아있는 경우가 많았습니다.
- 이 모델은 "아, 이 사람은 1 년만 기록에 남았으면 한국에 있을 확률이 높지만, 3 년 이상 계속 가족 소득만 기록에 남았으면 실제로는 해외에 있을 확률이 90% 이상이다"라고 판단했습니다.
발견 2: 과다 등록 (Overcoverage) 의 진실
- 기존 방법으로는 인구가 100 명이라고 했을 때, 실제로는 90 명이고 10 명은 떠난 사람 (과다 등록) 일 수 있습니다.
- 이 논문의 모델은 과다 등록 비율을 훨씬 더 정확하게 찾아냈습니다. (예: 12% 정도가 실제로는 떠난 사람들임)

4. 왜 이 연구가 중요한가요?

정책 결정의 정확도 향상: 정부가 "이 지역에 학교를 지어야 한다"거나 "의료 자원을 배분해야 한다"고 할 때, 실제 그 지역에 사는 사람의 수를 정확히 알아야 합니다. 떠난 사람까지 포함하면 자원이 낭비되고, 안 온 사람을 빼면 서비스가 부족해집니다.
빠르고 저렴한 조사: 거대한 센서스 없이도, 기존에 쌓아둔 행정 기록만으로도 정교한 인구 동향을 파악할 수 있게 되었습니다.
개인의 이야기: 단순히 숫자만 세는 게 아니라, "어떤 나라에서 온 사람들이 언제, 왜 떠나는가?"에 대한 개별적인 이야기를 읽어낼 수 있게 되었습니다.

📝 한 줄 요약

"행정 기록이라는 낡은 지도를 가지고, 보이지 않는 사람과 거짓 신호를 구별하며, 사람마다 다른 이동 경로를 추적하는 '똑똑한 인구 추적기'를 개발했습니다."

이 연구는 복잡한 수학적 기법을 사용하지만, 결국 **"진짜 사람을 정확히 세어서 더 나은 정책을 만들자"**는 매우 실용적인 목표를 가지고 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

인구 동학 (이민, 인구 규모 변화 등) 에 대한 정확한 추론은 정책 수립과 자원 배분에 필수적입니다. 그러나 전통적인 인구 조사는 비용이 많이 들고 빈번하지 않아 많은 국가가 행정 등록 데이터를 기반으로 한 접근법을 채택하고 있습니다. 하지만 이러한 데이터에는 다음과 같은 근본적인 한계가 존재합니다.

관측 오류 (Observation Errors):
- 위음성 (False Negative): 개인이 실제로 존재함에도 특정 기간 동안 등록에 기록되지 않는 경우 (예: 실업 상태, 비활동).
- 위양성 (False Positive): 개인이 실제로는 국외로 이주했거나 사망했음에도 행정 절차나 가구 단위 처리로 인해 등록에 계속 남아있는 경우 (예: 스웨덴의 '과잉 등록 (Overcoverage)' 문제).
임시 이주 (Temporary Emigration): 국외 체류 후 다시 귀국하는 경우, 등록 데이터상에서는 연속된 거주로 오해하기 쉽습니다.
개별 이질성 (Individual Heterogeneity): 관찰된 공변량 (covariates) 으로 설명되지 않는 개인의 행동적/인구통계학적 차이로 인해 등록에 나타날 확률이 달라집니다.
기존 방법론의 한계:
- Sign-of-life 접근법: 임의의 규칙 (ad-hoc rules) 에 의존하여 동적 추론이 어렵고 오류를 무시합니다.
- 다중 시스템 추정 (MSE): 연간 스냅샷만 제공하며, 인구 역동성 (이동 경로 등) 을 추적할 수 없습니다.
- 기존 포획 - 재포획 (CR) 모델: 계산 비용이 너무 커 대규모 데이터에 적용하기 어렵거나, 위양성 오류를 고려하지 못해 인구를 과대평가합니다.

2. 방법론 (Methodology)

저자들은 Cormack-Jolly-Seber (CJS) 유형의 포획 - 재포획 모델을 숨은 마르코프 모델 (Hidden Markov Model, HMM) 로 공식화하여 위 문제들을 통합적으로 해결하는 프레임워크를 제안했습니다.

2.1. 숨은 마르코프 모델 (HMM) 구조

잠재 상태 (Latent States): 개인의 실제 상태를 다음과 같이 정의합니다.
1. 연구区域内에 생존 및 거주 (Present)
2. 국외 체류 (Abroad) - 임시 이주 포함
3. 사망 (Dead) - 흡수 상태
- 스웨덴 사례에서는 행정적 등록/말소 여부에 따라 국외 상태를 '등록된 이주', '미등록 이주 (과잉 등록)' 등으로 세분화하여 8 개의 상태로 확장했습니다.
전이 모델 (Transition Model): 생존, 이주, 재이주, 말소 (de-registration) 확률을 로지스틱 회귀를 통해 모델링하며, 공변량 (성별, 연령, 국적 등) 과 시간에 따라 변화합니다.
관측 모델 (Observation Model):
- 위음성 처리: 다중 범주 로짓 (Multicategory Logit) 모델을 사용하여 여러 등록 (10 개) 과 공변량의 조합에 따른 관측 확률을 모델링합니다.
- 위양성 처리: 국외 체류자 (Abroad) 가 간접적인 행정 활동 (예: 가족 소득 등록) 을 통해 등록에 나타날 확률 ( $q_{ijt}$ ) 을 명시적으로 모델링합니다.
- 이질성 처리: **유한 혼합 모델 (Finite Mixture Model, FMM)**을 도입하여 관측된 공변량으로 설명되지 않는 개인의 잠재적 이질성 (예: 고용 활동 패턴 차이) 을 포착합니다.

2.2. 추론 및 계산 (Inference & Computation)

최대우도추정 (MLE): 전진 알고리즘 (Forward Algorithm) 을 사용하여 잠재 상태에 대한 마진화를 수행함으로써 효율적으로 우도 함수를 계산합니다.
불확실성 정량화 (Uncertainty Quantification): 대규모 행정 데이터 (수십만 명) 에 대한 전통적인 부트스트랩은 계산적으로 불가능합니다. 이를 해결하기 위해 **Bag of Little Bootstraps (BLB)**를 적용했습니다.
- 데이터를 작은 부분집합 (subsets) 으로 나누고, 각 부분집합 내에서 재표본을 추출하여 가중치를 부여한 후 모델을 적합시킵니다.
- 병렬 처리가 가능하여 대규모 데이터에서도 계산 효율성을 유지하면서 신뢰구간을 제공합니다.
잠재 상태 복원: 비터비 알고리즘 (Viterbi Algorithm) 을 사용하여 각 개인의 가장 확률적인 상태 시퀀스 (연간 거주 여부, 이주 경로 등) 를 복원합니다.

3. 주요 기여 (Key Contributions)

통합 프레임워크: 위양성/위음성 오류, 임시 이주, 개별 이질성, 그리고 다중 상호작용 등록을 동시에 고려하는 최초의 확장 가능한 프레임워크를 제시했습니다.
계산적 확장성: HMM 의 전진 알고리즘과 BLB 를 결합하여, 기존 베이지안 MCMC 방식 (Santos et al., 2024) 이 처리할 수 없었던 전체 인구 데이터 (약 72 만 명) 에 대한 추론을 가능하게 했습니다.
관측 구조의 혁신: MSE(다중 시스템 추정) 의 계층적 구조와 CR(포획 - 재포획) 의 동적 모델을 결합하여, 연간 스냅샷을 넘어선 개별 수준의 장기 이동 경로 (Longitudinal Trajectories) 추정이 가능해졌습니다.
실용적 도구: 제안된 모델은 R 패키지 overcoverage 로 공개되어 재현성을 보장합니다.

4. 결과 (Results)

스웨덴의 2003-2016 년 외국인 성인 (721,854 명) 데이터를 적용한 결과:

과잉 등록 (Overcoverage) 추정: 기존 방법론보다 더 높은 과잉 등록률을 추정했습니다. 이는 위양성 오류 (특히 가족 소득 등록을 통한 간접 관측) 를 명시적으로 모델링했기 때문입니다. 위양성 오류를 무시한 모델은 과잉 등록을 3-4% 낮게 추정했습니다.
인구 역동성:
- 이주 패턴: 국적별, 연령별, 성별에 따라 이주, 재이주, 말소 확률이 크게 다름을 발견했습니다 (예: 덴마크/노르웨이 국적자는 높은 이동성, MENA 지역 국적자는 낮은 이주 확률).
- 과잉 등록의 본질: 가족 소득 등록에만 1 년 이상 기록된 경우, 2 년 차부터 실제 거주 확률이 급격히 하락하여 행정적 잔류 (과잉 등록) 일 가능성이 높음을 확인했습니다.
잠재 혼합 그룹 (FMM): 고용 소득 등록을 기준으로 두 개의 잠재 그룹 (고유동성 vs 저유동성) 으로 나뉘며, 이는 성별과 연령에 따라 명확하게 구분되었습니다.

5. 의의 및 결론 (Significance)

이 연구는 행정 등록 데이터를 기반으로 한 인구 통계학 연구에 중요한 전환점을 제시합니다.

정책적 함의: 과잉 등록 (Overcoverage) 을 정확히 추정함으로써, 실제 거주 인구를 더 정확하게 파악하여 복지 자원 배분과 이민 정책 수립에 기여할 수 있습니다.
방법론적 발전: 대규모 행정 데이터에서 발생하는 복잡한 오류 구조 (위양성/위음성, 이질성) 를 통계적으로 엄밀하게 처리할 수 있는 새로운 표준을 마련했습니다.
확장성: 이 프레임워크는 스웨덴뿐만 아니라 유사한 행정 등록 시스템을 가진 다른 국가 (노르웨이 등) 에도 적용 가능하며, 인구 조사 (Census) 가 부재하거나 빈번하지 않은 전 세계적 맥락에서 인구 규모 추정을 위한 핵심 도구로 활용될 수 있습니다.

요약하자면, 이 논문은 HMM 과 BLB 를 결합한 확장 가능한 프레임워크를 통해 행정 데이터의 불완전성과 오류를 정교하게 보정함으로써, 기존 방법론으로는 불가능했던 고해상도의 인구 역동성 분석을 가능하게 했습니다.