Causal Matrix Completion under Multiple Treatments via Mixed Synthetic Nearest Neighbors

Each language version is independently generated for its own context, not a direct translation.

🍎 비유: "사과 농장의 맛을 예측하는 이야기"

상상해 보세요. 여러분은 거대한 사과 농장을 운영 중입니다. 이 농장에는 **수천 그루의 사과 나무 (사용자)**와 **수백 가지의 비료 (처치/Treatment)**가 있습니다.

우리의 목표는 **"어떤 나무에 어떤 비료를 뿌렸을 때, 사과가 얼마나 달아질지 (결과)"**를 미리 알아내는 것입니다. 하지만 문제는 모든 나무에 모든 비료를 다 뿌려볼 수 없다는 점입니다. 어떤 나무는 A 비료만, 어떤 나무는 B 비료만 받았습니다. 우리는 뿌리지 않은 비료에 대한 결과 (예: "이 나무에 C 비료를 뿌렸다면 얼마나 달아졌을까?") 를 추론해야 합니다.

1. 기존 방법 (SNN): "동일한 비료만 믿는 고집"

기존의 **'합성 이웃 (Synthetic Nearest Neighbors, SNN)'**이라는 방법은 다음과 같이 작동합니다.

"A 비료를 받은 나무들의 데이터를 모아보면, B 비료를 받은 나무의 맛을 예측할 수 있어!"

하지만 여기서 치명적인 문제가 생깁니다. B 비료를 받은 나무가 농장에 딱 3 그루뿐이라면? 데이터를 모으기도 전에 예측이 불가능해집니다. 데이터가 너무 적어서 '이웃'을 찾을 수 없는 셈입니다.

2. 새로운 방법 (MSNN): "비료는 달라도 나무의 성향은 같다!"

이 논문이 제안하는 **'혼합 합성 이웃 (Mixed Synthetic Nearest Neighbors, MSNN)'**은 사고의 전환을 가져옵니다.

"비료 (Treatment) 는 달라도, **나무 자체의 성향 (잠재 요인)**은 비슷하지 않을까?"

예를 들어, "A 비료를 잘 받는 나무는 B 비료나 C 비료도 잘 반응하는 경향이 있다"는 가정을 합니다.

핵심 아이디어: B 비료 데이터가 부족하더라도, A 비료나 C 비료를 받은 나무들의 데이터를 섞어서 (Mix) B 비료에 대한 예측 모델을 만들 수 있다는 것입니다.
비유: "한국인 (나무) 이 일본 음식 (비료 A) 을 잘 먹으면, 중국 음식 (비료 B) 도 잘 먹을 가능성이 높다"는 논리로, 일본 음식 데이터가 부족할 때 중국 음식 데이터를 빌려와서 한국인의 입맛을 예측하는 것과 같습니다.

3. 어떻게 섞을 수 있을까? (가중치와 균형)

여기서 중요한 건, A 비료 데이터와 B 비료 데이터의 **규모 (Scale)**가 다를 수 있다는 점입니다. A 비료는 사과가 10kg 이 되고, B 비료는 1kg 이 될 수 있습니다. 그냥 섞으면 큰 데이터가 작은 데이터를 압도해버립니다.

이 논문은 **'가중치 (Weight)'**라는 저울을 도입합니다.

"A 비료 데이터가 너무 크다면, 그 값을 1/10 으로 줄여서 B 비료 데이터와 같은 무게로 맞춰주자."
이렇게 균형을 맞춘 뒤 데이터를 섞으면, 희귀한 B 비료에 대한 예측도 정확하게 가능해집니다.

🚀 이 방법의 놀라운 효과

이 논문은 수학적 증명과 실험을 통해 두 가지 큰 성과를 보여줍니다.

데이터 부족의 극복 (기적 같은 효율성):
- 기존 방법은 데이터가 1% 미만이면 예측을 포기해야 했지만, 이新方法은 다른 비료들의 데이터를 활용함으로써 데이터가 아주 적은 상황에서도 예측을 성공시킵니다.
- 마치 **희귀한 약 (데이터 부족)**을 처방받아야 할 때, 흔한 약 (데이터 풍부) 의 임상 데이터를 분석해서 그 약의 효과를 추정하는 것과 같습니다.
정확성 유지:
- 데이터를 섞었다고 해서 예측이 엉망이 되는 것은 아닙니다. 수학적으로 증명된 바에 따르면, 기존 방법의 정확도 (오차 범위) 를 그대로 유지하면서, 데이터를 더 많이 쓸 수 있게 되어 오히려 더 정확한 예측이 가능해집니다.

📊 실제 사례: 캘리포니아 담배 통제 정책

논문의 마지막 부분에서는 실제 사례로 **캘리포니아의 담배 통제 정책 (Proposition 99)**을 분석했습니다.

과거에는 특정 주 (Treatment) 에만 정책이 적용되어, 다른 주의 데이터와 비교하기 어려웠습니다.
이新方法을 적용하자, 데이터가 부족한 주들의 미래 담배 소비량을 다른 주의 데이터를 활용하여 정확하게 예측할 수 있었습니다.

💡 한 줄 요약

"데이터가 없는 상황에서는 '혼자' 고민하지 말고, '유사한 성향'을 가진 다른 상황들의 데이터를 섞어서 (Mix) 지혜를 모으자!"

이 논문은 데이터 과학자들이 데이터가 부족한 '어두운 구석'에서도 빛을 찾아낼 수 있는 강력한 도구를 제공했다는 점에서 매우 의미가 큽니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 다중 치료 (Multiple Treatments) 환경에서 누락된 데이터 (MNAR, Missing Not At Random) 하에 인과적 행렬 완성 (Causal Matrix Completion) 문제를 해결하기 위해 제안된 혼합 합성 최근접 이웃 (Mixed Synthetic Nearest Neighbors, MSNN) 알고리즘에 관한 연구입니다.

기존의 합성 최근접 이웃 (SNN) 방법이 단일 치료 수준 내의 데이터 부족으로 인해 실패하는 한계를 극복하고, 다양한 치료 수준 간의 데이터를 통합하여 희소 데이터 환경에서도 정확한 반사실적 (counterfactual) 추정을 가능하게 하는 것이 핵심입니다.

다음은 논문의 상세한 기술적 요약입니다.

1. 문제 정의 (Problem Statement)

배경: 관찰 데이터로부터 인과 추론을 수행할 때, 데이터가 무작위로 누락되지 않는 (MNAR) 상황과 복잡한 다중 치료 수준 (예: 다양한 광고 노출 강도, 정책의 강도 등) 이 존재하는 경우가 많습니다.
목표: 각 단위 (Unit) 와 치료 수준 (Treatment Level) 에 대해 관측되지 않은 잠재적 결과 (Potential Outcomes) 를 추정하는 것입니다. 이는 3 차원 텐서 (단위 × 항목 × 치료 수준) 형태의 행렬 완성 문제로 볼 수 있습니다.
기존 방법의 한계 (SNN):
- 기존 Synthetic Nearest Neighbors (SNN) 알고리즘은 특정 치료 수준 $d$ 에 대한 추정을 위해, 동일한 치료 수준 $d$ 의 데이터만으로 '앵커 행 (Anchor Rows)'과 '앵커 열 (Anchor Columns)'을 구성해야 합니다.
- 데이터가 희소한 (Data-scarce) 치료 수준에서는 충분한 크기의 유효한 앵커 세트를 구성하기 어려워 추정이 실패하거나 매우 부정확해집니다.
핵심 도전 과제: 치료 수준 간 데이터가 불균형하게 분포되어 있을 때, 희소한 치료 수준에 대한 추정을 어떻게 가능하게 할 것인가?

2. 제안 방법: 혼합 합성 최근접 이웃 (MSNN)

저자들은 공유 잠재 행 요인 (Shared Latent Row Factors) 가 존재한다는 가정 하에, 서로 다른 치료 수준 간의 데이터를 통합하여 추정을 수행하는 MSNN을 제안합니다.

2.1. 핵심 가정 (Key Assumption)

가정 2.5 (Shared Latent Row Factors): 모든 치료 수준 $d$ 에 대해, 행 (예: 사용자) 에 해당하는 잠재 요인 $u_i^{(d)}$ 은 치료 수준에 관계없이 동일합니다 ( $u_i^{(d)} \equiv u_i$ ).
의미: 치료 수준이 달라지면 결과 값은 변할 수 있지만, 각 단위 (행) 의 고유한 잠재적 특성 (선호도 등) 은 치료에 관계없이 불변이라고 가정합니다. 이는 치료 간 데이터 통합을 가능하게 하는 이론적 토대입니다.

2.2. 알고리즘의 혁신: 혼합 앵커 (Mixed Anchors)

기존 SNN 의 '동일 치료 수준' 제약을 완화하여 혼합 앵커 행 (MAR) 과 혼합 앵커 열 (MAC) 을 도입합니다.

기존 SNN:
- $x^{(d)}$ (목표 행): 치료 $d$ 에서 관측됨.
- $q^{(d)}$ (앵커 열): 치료 $d$ 에서 관측됨.
- $S^{(d)}$ (앵커 행렬): 모두 치료 $d$ 에서 관측됨.
- $\rightarrow$ 치료 $d$ 의 데이터가 부족하면 실패.
제안 MSNN:
- 목표 행 $x^{(d)}$ : 여전히 관심 있는 치료 수준 $d$ 에서 관측된 데이터만 사용 (반사실적 추정의 타당성 유지).
- 앵커 행렬 $S_w^{(d)}$ 및 열 벡터 $q_w^{(d)}$ : 여러 치료 수준 ( $d'$ ) 에서의 데이터를 혼합하여 구성 가능.
- 가중치 (Weights): 서로 다른 치료 수준 간 데이터의 스케일과 분산 이질성을 보정하기 위해 가중치 함수 $w(b, d(b))$ 를 도입하여 행렬 조건수 (Condition Number) 를 안정화합니다.
- 식별 가능성: Lemma 2.6 에 따라, 잠재 행 요인이 공유된다는 가정 하에 회귀 계수 $\beta$ 는 치료 수준에 무관하게 동일하게 식별됩니다. 따라서 다른 치료 수준의 데이터로 $\beta$ 를 학습하고, 이를 목표 치료 수준에 적용할 수 있습니다.

3. 주요 기여 (Key Contributions)

새로운 식별 결과 (Identification Result):
- 다중 MNAR 치료 수준 하에서 행렬 완성 문제를 공식화했습니다.
- 공유 잠재 행 요인 가정 하에, 보간 계수 (Imputation Coefficients) 가 치료 수준 간에 공유될 수 있음을 이론적으로 증명했습니다.
MSNN 알고리즘 제안:
- 혼합 앵커 세트를 통해 치료 수준 간 데이터를 통합하는 알고리즘을 개발했습니다.
- 이론적 보장: MSNN 은 기존 SNN 의 유한 표본 오차 상한 (Finite-sample error bounds) 과 점근적 정규성 (Asymptotic Normality) 을 유지하면서도, 희소 치료 수준에 대한 샘플 효율성을 기하급수적으로 향상시킵니다.
샘플 효율성의 기하급수적 개선:
- MCAR (완전 무작위 누락) 설정 하에서, MSNN 이 사용할 수 있는 유효한 데이터 서브그룹의 기대 수 $E[K_{MSNN}]$ 는 기존 SNN 의 $E[K_{SNN}]$ 보다 $\left( \sum_{d'} (p_{d'}/p_d)^{r+1} \right)^c$ 배만큼 증가함을 보였습니다.
- 이는 희소한 치료 수준 ( $p_d$ 가 작음) 에 대해 데이터가 풍부한 다른 치료 수준 ( $p_{d'}$ 이 큼) 의 정보를 활용함으로써 추정 가능성을 획기적으로 높인다는 것을 의미합니다.

4. 실험 결과 (Results)

시뮬레이션 (Synthetic Data):
- MCAR 및 MNAR 환경: 다양한 치료 수준 (Low, Medium, High) 에서 SNN 과 MSNN 을 비교했습니다.
- 결과: 데이터가 매우 희소한 수준 (관측 비율 < 2.5%) 에서 SNN 은 유효한 앵커를 찾지 못해 추정이 불가능한 반면, MSNN 은 높은 실현 가능성 비율 (Feasible Ratio, FR) 을 보였습니다.
- 오차 감소: 실현 가능한 경우, MSNN 은 평균 상대 추정 오차 (MRE) 를 SNN 대비 2~3 배 감소시켰습니다.
실세계 데이터 (Case Study: California Proposition 99):
- 캘리포니아의 담배 통제 정책 (Proposition 99) 데이터를 활용했습니다.
- 기존 연구 (Agarwal et al., 2020) 가 시간 평균 효과를 다룬 것과 달리, MSNN 은 연도별 단위 (State) 수준의 반사실적 결과를 추정했습니다.
- 관측된 데이터와 추정된 반사실적 데이터가 잘 일치함을 확인하여 모델의 실용성을 입증했습니다.

5. 의의 및 결론 (Significance & Conclusion)

데이터 희소성 문제 해결: 인과 추론에서 흔히 발생하는 "희소한 치료 수준 (Rare Treatment)"에 대한 추정이 기존 방법론으로는 불가능했으나, MSNN 을 통해 다른 치료 수준의 데이터를 공유함으로써 이를 해결할 수 있음을 보였습니다.
이론적 엄밀성 유지: 데이터 효율성을 높이기 위해 데이터를 혼합하더라도, 통계적 엄밀성 (오차 한계 및 정규성) 을 잃지 않음을 증명했습니다.
실용적 가치: 온라인 광고 노출 강도, 다양한 정책 강도 등 다중 치료 수준을 가진 현대적 데이터 과학 문제에서, 데이터가 부족한 그룹에 대한 신뢰할 수 있는 인과 효과 추정을 가능하게 합니다.

요약하자면, 이 논문은 공유된 잠재 구조를 활용하여 다중 치료 간 데이터 장벽을 허무는 새로운 인과 추론 프레임워크를 제시하며, 특히 데이터가 부족한 상황에서도 강력한 성능을 발휘하는 MSNN 알고리즘을 제안했습니다.