Verifying the existence of maximum likelihood estimates for generalized linear models

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "완벽한 예측"이라는 함정 (Separation)

통계 모델 (특히 GLM 이라는 종류) 은 데이터를 보고 "이런 특징이 있으면 결과가 A 일 확률이 높다"는 공식을 찾아냅니다. 하지만 가끔 데이터가 너무 깔끔하게 나뉘어 문제가 생깁니다.

비유: 당신이 "우산이 있으면 비가 온다"는 규칙을 찾으려 한다고 가정해 봅시다. 그런데 데이터에 우산을 쓴 사람은 100% 비를 맞았고, 우산을 쓰지 않은 사람은 100% 비를 맞지 않았다는 기록만 있다면요?
문제: 이 경우 통계 프로그램은 "우산을 쓰면 비가 올 확률이 무한대다!"라고 결론 내리게 됩니다. 수학적으로 '무한대 (Infinity)'는 계산기나 컴퓨터가 처리할 수 없는 숫자입니다. 이 상태를 논문에서는 **"분리 (Separation)"**라고 부릅니다.
결과: 컴퓨터는 "정답을 찾을 수 없다"며 오류를 내거나, 엉뚱한 숫자를 만들어냅니다. 경제학자들은 이 문제를 잘 몰라서, "무한대"인 숫자를 진짜 값인 것처럼 믿고 잘못된 결론을 내릴 위험이 있었습니다.

2. 발견: 모든 모델이 같은 문제를 겪는 건 아니다

저자들은 이 문제가 이진형 (예/아니오) 데이터뿐만 아니라, **수 (Count) 데이터 (예: 무역량, 특허 수)**나 Gamma 분포를 사용하는 모델에서도 발생한다는 것을 확인했습니다.

중요한 차이: 어떤 모델은 문제가 생기면 완전히 무너져버리지만, Poisson(포아송) 모델 같은 경우는 문제가 생긴 데이터만 잠시 치워두면 나머지 데이터로는 여전히 정확한 답을 구할 수 있다는 것을 발견했습니다.
하지만 주의: Gamma 모델 같은 다른 모델들은 치워도 답이 나오지 않거나, 훨씬 더 까다로운 조건을 만족해야 합니다. 즉, "어떤 모델을 쓰느냐"에 따라 대처법이 다릅니다.

3. 해결책: "나쁜 학생"을 제외하고 다시 가르치기

이 논문이 제안하는 가장 강력한 해결책은 매우 단순합니다.

비유: 반에서 시험을 치렀는데, 어떤 학생은 모든 문제를 100% 맞추고, 어떤 학생은 0%만 맞췄다고 합시다. 이 두 그룹은 완전히 분리되어 있습니다. 선생님이 "왜 A 학생은 100% 맞췄을까?"라고 분석하려 해도, 그 학생은 이미 답을 알고 있었기 때문에 분석이 불가능합니다.
해법: 선생님은 그 "완벽한" 학생들 (분리된 데이터) 을 시험지 분석에서 제외하고, 나머지 학생들만 가지고 분석을 다시 합니다.
효과:
1. 제외된 학생들은 이미 "무조건 맞다/틀리다"가 정해져 있으니, 분석에 방해가 되지 않습니다.
2. 나머지 학생들만 분석해도, 나머지 학생들에 대한 결론은 원래 전체를 분석했을 때와 똑같은 결과가 나옵니다.
3. 제외된 학생들에 대해서는 "이 학생은 무조건 맞을 것이다"라고 예측만 하면 됩니다.

이 방법은 기존에 쓰이던 복잡한 방법 (페널티를 주거나 변수를 뺀다) 보다 훨씬 안전하고, 고정 효과 (Fixed Effects) 가 많은 복잡한 데이터에서도 작동합니다.

4. 새로운 도구: "Iterative Rectifier (반복 정류기)"

이제 문제는 "어떻게 그 '완벽한 학생들'을 찾아낼 것인가?"입니다. 데이터가 수만 개이고 변수가 수천 개라면, 일일이 찾아보는 것은 불가능합니다.

기존 방법: 선형 프로그래밍이라는 복잡한 수학적 도구를 썼는데, 데이터가 너무 많으면 컴퓨터가 "계산 중... (계산 안 됨)"이라고 멈춰버렸습니다.
새로운 방법 (이 논문의 기여): 저자들은 **"Iterative Rectifier (IR)"**라는 새로운 알고리즘을 개발했습니다.
- 비유: 마치 스무고개 게임을 하듯, 컴퓨터가 "이 학생은 분리된 것 같아? 아니야? 다시 확인해 봐"를 반복하면서, 아주 빠르게 분리된 데이터를 찾아냅니다.
- 장점: 이 방법은 컴퓨터가 아주 빠르게 계산할 수 있도록 최적화되어 있어, 수백만 건의 데이터가 있는 거대한 무역 데이터나 패널 데이터에서도 순식간에 문제를 찾아냅니다.

5. 실제 사례: 무역 데이터의 함정

논문의 마지막 부분에서는 실제 무역 데이터를 예로 들었습니다.

상황: 어떤 국가 간 무역 협정 (FTA) 이 체결되기 전까지, 두 나라 사이에는 단 한 건의 무역도 없었던 경우가 있었습니다.
문제: 컴퓨터는 "FTA 체결 전에는 무역이 0 이고, 체결 후에는 무역이 있다"는 완벽한 분리를 보게 되어, 해당 FTA 의 효과를 "무한대"라고 계산해 버렸습니다.
결과: 연구자들은 이 "무한대"를 보고 "와, 이 협정이 무역을 무한히 늘렸네!"라고 잘못 해석할 뻔했습니다.
해결: 이 논문의 방법을 쓰자, 컴퓨터는 "아, 이 7 개의 데이터는 분리된 거야"라고 찾아내고 제외시켰습니다. 그랬더니 나머지 데이터로 계산한 결과는 정당하고 신뢰할 수 있는 값으로 바뀌었습니다.

요약

이 논문은 **"데이터가 너무 완벽하게 나뉘면 통계 모델이 망가질 수 있다"**는 사실을 명확히 하고, **"그런 나쁜 데이터만 잘라내면 나머지는 여전히 믿을 수 있다"**는 사실을 증명했습니다. 또한, 수천 개의 변수가 있는 거대한 데이터에서도 그 나쁜 데이터를 순식간에 찾아내는 새로운 도구를 개발했습니다.

이는 경제학자들이 더 정확한 모델을 만들고, 잘못된 결론을 피하는 데 큰 도움이 될 것입니다. 마치 거대한 퍼즐을 풀 때, 끼워지지 않는 조각을 먼저 찾아내어 나머지 퍼즐을 올바르게 맞추는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (The Problem)

비선형 모델의 추정량 부재: 포아송 회귀, 로짓 (Logit), 프로빗 (Probit) 등 비선형 모델에서는 최대우도추정량 (MLE) 이 항상 존재하는 것이 보장되지 않습니다. 특히 이진 반응 모델 (Binary Response Models) 에서 잘 알려진 '완전 분리 (Complete Separation)' 또는 '준완전 분리 (Quasi-complete Separation)' 현상은 회귀변수들이 특정 관측치 집합을 완벽하게 예측할 때 발생합니다.
확산된 오해와 한계:
- 기존 문헌은 주로 이진 모델에 집중했으나, 포아송 모델이나 다른 비이진 GLM 에서도 동일한 문제가 발생할 수 있음이 간과되어 왔습니다.
- Santos Silva and Tenreyro (2010) 는 포아송 모델에서 $y_i > 0$ 인 부분표본에서 회귀변수가 완전 공선성을 보일 때 문제가 발생한다고 지적했으나, 이것이 필요충분조건은 아니며, $y_i=0$ 인 관측치와의 관계 (Overlap) 를 고려하지 못했습니다.
- Gamma PML 및 역가우시안 (Inverse Gaussian) PML 과 같은 추정량은 0 값을 포함할 때 존재 조건이 훨씬 더 엄격하며, 기존 방법론으로는 해결하기 어려운 심각한 수렴 문제를 야기합니다.
고차원 고정효과의 도전: 최근 무역, 건강경제학 등에서 다중 고정효과 (Multi-way Fixed Effects) 를 포함한 모델이 널리 사용되고 있으나, 이러한 고차원 환경에서 분리를 검출하는 것은 기존의 선형계획법 (Linear Programming) 기반 방법으로는 계산 비용이 너무 커서 실용적이지 않았습니다.

2. 방법론 (Methodology)

A. 이론적 기반: 분리 조건의 정립

저자들은 Verbeek (1989) 의 연구를 확장하여 GLM 에 대한 필요충분조건을 제시합니다.

분리의 정의: 회귀변수의 선형 결합 $z_i = x_i \gamma^*$ $z_{i} = x_{i} γ^{*}$ 가 존재하여 다음과 같은 조건을 만족할 때 분리가 발생합니다.
1. $0 < y_i < \bar{y} $인 관측치에 대해$ z_i = 0$
2. $y_i = \bar{y}$ (최댓값) 인 관측치에 대해 $z_i \ge 0$
3. $y_i = 0$ 인 관측치에 대해 $z_i \le 0$
- 여기서 $\gamma^*$ 는 0 이 아닌 벡터이며, 이러한 벡터가 존재하면 우도함수가 유계 (bounded) 한 영역에서 최댓값을 갖지 못하게 됩니다.
추정기별 차이:
- 포아송, 로짓, 프로빗: 분리가 발생하더라도 '압축된 (Compactified)' 모델 공간 (매개변수가 $\pm \infty$ 까지 허용됨) 에서 해가 존재하며, 분리된 관측치를 제거하면 나머지 계수는 일관성 있게 추정 가능합니다.
- Gamma PML 및 역가우시안 PML: 우도함수가 무한대로 발산할 수 있어 조건이 훨씬 엄격합니다. 0 값이 포함된 데이터셋에서 분리가 발생하면 유한한 해가 존재하지 않거나 비유일해질 수 있으며, 다른 GLM 들과 달리 분리된 관측치를 제거하는 것만으로는 해결이 어렵습니다.

B. 실용적 해결책: 분리된 관측치 제거 (Withholding Separated Observations)

이론적 정당성: 분리가 발생한 관측치들은 모델에 의해 '완벽하게 예측'되므로 (Conditional mean이 경계값에 도달), 이러한 관측치를 추정 표본에서 제외하더라도 분리되지 않은 관측치들에 대한 선형 예측치 ( $x_i \beta$ ), 계수, 그리고 점근적 분포는 변하지 않습니다.
결과: 분리된 관측치를 제거하면 남은 표본에서 완전 공선성 (Perfect Collinearity) 문제가 발생하지만, 이는 고정효과 모델에서 비고정효과 계수의 식별에는 영향을 미치지 않습니다. 따라서 분리된 관측치를 제거하고 재추정하는 것이 가장 간단하고 효과적인 해결책입니다.

C. 새로운 알고리즘: 반복적 정류기 (Iterative Rectifier, IR)

고차원 고정효과가 있는 모델에서 분리를 검출하기 위해 저자들은 '반복적 정류기 (Iterative Rectifier, IR)' 알고리즘을 제안합니다.

기존 방법의 한계: 선형계획법 (Linear Programming) 은 관측치 수 ( $N$ ) 와 회귀변수 수 ( $M$ ) 가 모두 클 때 계산 비용이 기하급수적으로 증가하여 비실용적입니다.
IR 알고리즘의 원리:
1. 가상의 종속변수 $u_i$ 를 정의합니다 ( $y_i=0$ 이면 -1, $y_i>0$ 이면 0).
2. $y_i>0$ 인 관측치에 대해 매우 큰 가중치 $K$ 를 부여하고, $y_i=0$ 인 관측치에는 가중치 1 을 부여하여 가중 최소제곱법 (Weighted Least Squares) 을 수행합니다.
3. 잔차 $e_i$ 가 임계값 $\epsilon$ 보다 작아질 때까지 $u_i$ 를 업데이트하며 반복합니다 ( $u_i = \min(\hat{u}_i, 0)$ ).
4. 수렴 후 $\hat{u}_i < 0$ 인 관측치들이 분리된 관측치로 판별됩니다.
장점: 이 방법은 선형계획법 솔버가 필요 없으며, Correia (2017) 의 고차원 최소제곱법 기법을 활용하여 거의 선형 시간 (Nearly linear time) 에 계산이 가능하므로 대규모 패널 데이터에도 적용 가능합니다.

3. 주요 결과 (Key Results)

분리 조건의 일반화: 포아송뿐만 아니라 다양한 GLM 에 대해 분리 발생의 필요충분조건을 명확히 제시했습니다. 특히 Gamma PML 과 역가우시안 PML 은 0 값이 있을 때 분리가 발생할 확률이 높고 해가 존재하지 않을 위험이 크다는 점을 밝혔습니다.
일관된 추정 가능성: 분리 (Separation) 가 발생하더라도, 분리되지 않은 관측치들을 사용하여 추정하면 분리되지 않은 회귀변수에 대한 계수는 일관성 있게 (Consistently) 추정 가능하며, 올바른 표준오차 추정이 가능합니다.
알고리즘의 유효성 검증: Baier et al. (2019) 의 무역 데이터 (FTA 효과 분석) 를 활용한 실증 분석에서, 기존 방법 (Santos Silva and Tenreyro, 2010 의 ppml 명령어 등) 은 분리를 제대로 탐지하지 못하거나 잘못된 관측치를 제거하여 편향된 결과를 낳은 반면, 제안된 IR 알고리즘은 분리된 관측치를 정확히 식별하고 제거하여 올바른 계수 추정을 가능하게 했습니다.
고차원 환경 적용: 수천 개의 고정효과와 수백만 개의 관측치를 가진 모델에서도 IR 알고리즘이 효율적으로 작동함을 입증했습니다.

4. 의의 및 기여 (Significance)

이론적 명확성: 비선형 모델의 추정량 부재 문제에 대한 혼란을 해소하고, 분리 현상이 고차원 고정효과 모델에서도 어떻게 작용하는지에 대한 이론적 토대를 마련했습니다.
실용적 도구 제공: 고차원 데이터에서 분리를 검출하고 해결할 수 있는 계산적으로 효율적인 알고리즘 (IR) 을 개발하여, 연구자들이 신뢰할 수 있는 추정 결과를 얻을 수 있도록 도왔습니다. 이는 Stata 의 ppmlhdfe 명령어 등에 구현되어 즉시 활용 가능합니다.
연구 관행 개선: 분리된 관측치를 단순히 제거하는 것이 아니라, 이를 통해 어떤 계수가 식별 가능한지, 어떤 계수가 무한대로 발산하는지, 그리고 어떻게 올바른 추론 (Inference) 을 수행해야 하는지에 대한 구체적인 가이드를 제공합니다.
Gamma PML 에 대한 경고: 무역 및 건강경제학 분야에서 널리 쓰이는 Gamma PML 이 0 값을 가진 데이터에서 분리에 매우 취약하며, 이 경우 별도의 주의가 필요함을 강조했습니다.

결론

이 논문은 GLM 추정에서 발생하는 '분리' 문제를 이론적으로 정교하게 분석하고, 고차원 데이터 환경에서 이를 효율적으로 해결할 수 있는 새로운 알고리즘을 제시함으로써, 계량경제학 연구의 신뢰성을 높이는 중요한 기여를 했습니다. 연구자들은 이제 분리된 관측치를 식별하여 제거함으로써, 나머지 변수들에 대한 일관된 추정과 올바른 통계적 추론을 수행할 수 있게 되었습니다.

Verifying the existence of maximum likelihood estimates for generalized linear models

1. 문제: "완벽한 예측"이라는 함정 (Separation)

2. 발견: 모든 모델이 같은 문제를 겪는 건 아니다

3. 해결책: "나쁜 학생"을 제외하고 다시 가르치기

4. 새로운 도구: "Iterative Rectifier (반복 정류기)"

5. 실제 사례: 무역 데이터의 함정

요약

1. 문제 제기 (The Problem)

2. 방법론 (Methodology)

A. 이론적 기반: 분리 조건의 정립

B. 실용적 해결책: 분리된 관측치 제거 (Withholding Separated Observations)

C. 새로운 알고리즘: 반복적 정류기 (Iterative Rectifier, IR)

3. 주요 결과 (Key Results)

4. 의의 및 기여 (Significance)

결론

유사한 논문

On global identification in structural vector autoregressions

Public Good Provision with a Governor

Partially identified heteroskedastic SVARs

SVARs with breaks: Identification and inference

DisSim-FinBERT: Text Simplification for Core Message Extraction in Complex Financial Texts