Conformal e-prediction in the presence of confounding

Each language version is independently generated for its own context, not a direct translation.

🎬 시나리오: 의사가 환자를 치료할 때

이 논문의 주인공은 의사 (X), 환자의 상태 (Y), 그리고 **숨겨진 방해꾼 (Z)**입니다.

상황: 의사가 어떤 약 (X) 을 환자에게 처방하면, 환자의 병이 낫는지 (Y) 를 알고 싶어 합니다.
문제 (교란 변수 Z): 하지만 환자가 약을 먹기 전에 이미 식습관이나 유전 (Z) 때문에 병이 낫거나 안 낫는 경우가 많습니다.
- 예를 들어, "약 A 를 먹은 사람들은 병이 빨리 낫는다"는 데이터를 봤을 때, 사실은 그 사람들이 "평소 건강하게 산 사람 (Z)"들이어서 약 때문이 아닐 수도 있습니다.
- 이를 통계학에서는 **교란 (Confounding)**이라고 합니다.
목표: 우리는 "만약 내가 이 환자에게 약 A 를 강제로 처방한다면 (X=A), 실제로 병이 낫을까?"라는 가상의 시나리오를 예측하고 싶습니다.

🔍 이 논문이 제안하는 해결책: "공정한 예측 도구"

저자들은 기존의 예측 방법으로는 이런 '숨겨진 방해꾼 (Z)' 때문에 잘못된 결론을 내기 쉽다고 지적합니다. 그래서 **Conformal e-prediction (공준 e-예측)**이라는 새로운 도구를 개발했습니다.

1. "가상의 실험실" 만들기 (Mutilated Causal Model)

이 도구는 마치 가상의 실험실을 만드는 것과 같습니다.

실제 데이터 (관찰된 데이터) 를 바탕으로, "Z(식습관) 가 X(약) 에 미치는 영향을 잘라내는" 가상의 세계를 상상합니다.
이 가상의 세계에서 "약 A 를 먹으면 병이 낫을 확률"을 계산합니다.

2. "신뢰도 점수" (E-variable)

이 도구는 단순히 "병이 낫습니다"라고 말하지 않습니다. 대신 **"이 예측이 틀릴 확률은 얼마나 될까요?"**를 숫자로 보여줍니다.

비유: 마치 날씨 예보가 "비 올 확률 90%"라고 하는 것처럼, 이 도구는 "이 예측이 틀릴 확률이 10% 이하라면, 우리는 90% 확신으로 예측한다"는 식으로 작동합니다.
논문에서 말하는 e-variable은 바로 이 **"예측의 신뢰도 점수"**입니다. 점수가 높을수록 예측이 매우 안전하다는 뜻입니다.

3. "예측 영역" (Prediction Region)

이 도구는 "병이 낫는다"라고 단정하지 않고, **"병이 낫거나, 낫지 않거나, 혹은 중간 상태일 수 있는 모든 가능성"**을 하나의 상자 (영역) 에 담아서 보여줍니다.

비유: 주사위를 굴렸을 때 "1 이 나올 것이다"라고 말하는 대신, "1 이 나올 수도 있고 2 가 나올 수도 있다"는 식으로 범위를 제시합니다.
이 범위를 넓히면 (신뢰도를 높이면), 틀릴 확률은 거의 0 에 가까워집니다.

🚀 두 가지 상황에서의 적용

이 논문은 이 도구가 두 가지 다른 상황에서 어떻게 작동하는지 보여줍니다.

상황 A: 일반적인 경우 (IID)

비유: 공장에서 나온 똑같은 사과를 하나씩 검사하는 상황.
데이터가 서로 독립적이고 비슷하게 생성될 때, 이 도구는 매우 정확하게 작동합니다.

상황 B: 더 복잡한 경우 (X 가 고정된 전략일 때)

비유: 의사가 환자의 과거 기록을 보고 전략적으로 약을 처방하는 상황. (예: "아까 환자가 A 타입이니까 B 약을 줘야겠다"라고 결정)
이 경우 데이터가 서로 영향을 미칠 수 있어 예측이 어렵습니다.
하지만 이 논문의 도구는 **"과거의 모든 기록을 기억하는 관찰자"**처럼 작동하여, 데이터가 서로 얽혀 있어도 여전히 신뢰할 수 있는 예측 범위를 만들어냅니다.

💡 핵심 요약: 왜 이 논문이 중요한가요?

실제 세계의 복잡성을 인정합니다: 단순히 데이터만 보고 "A 가 B 를 만든다"고 말하지 않고, **숨겨진 원인 (Z)**을 고려합니다.
작은 데이터에서도 안전합니다: 많은 데이터를 모을 때까지 기다릴 필요 없이, **적은 데이터로도 "틀릴 확률이 얼마나 낮은지"**를 수학적으로 보장해 줍니다.
위험을 피할 수 있습니다: 예를 들어, "이 약을 쓰면 환자가 죽을 확률이 매우 낮다"라고 확신할 수 있는 영역을 찾아줍니다. (특히 '환자의 죽음'처럼 중요한 결과를 피하고 싶을 때 유용합니다.)

🎁 결론

이 논문은 **"데이터 속에 숨은 방해꾼을 찾아내어, 미래의 결과를 예측할 때 '틀릴 확률'을 정확히 계산해 주는 안전장치"**를 개발한 것입니다.

마치 비행기 조종사가 안개 속에서도 "우리는 이 경로로 비행하면 99.9% 안전하다"라고 계산해 주는 고급 항법 시스템과 같습니다. 우리는 이 시스템을 통해 의료, 경제, 정책 등 중요한 의사결정을 내릴 때, 더 자신감 있게 미래를 예측할 수 있게 됩니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 혼란 변수가 존재하는 상황에서의 컨포멀 e-예측

저자: Vladimir Vovk, Ruodu Wang
날짜: 2026 년 3 월 13 일 (작업 논문 46 번)

1. 연구 배경 및 문제 정의 (Problem)

기존의 한계: 기본 형태의 컨포멀 예측 (Conformal Prediction) 은 관측 데이터가 독립 동일 분포 (IID) 를 따른다는 가정 하에 유효성을 보장합니다. 그러나 인과 추론 (Causal Inference) 에서는 관측 데이터는 IID 일지라도, 실제 개입 (Intervention) 을 가했을 때의 결과를 예측하려는 경우가 많습니다.
핵심 문제: 무작위 변수 $X$ $X$ 가 결과 변수 $Y$ $Y$ 에 미치는 인과 효과를 분석할 때, **혼란 변수 (Confounder, $Z$ $Z$ )**가 존재하는 상황을 다룹니다.
- 목표: $X$ 를 특정 값 $x$ 로 고정 (개입, $do(X=x)$ ) 했을 때, $Y$ 의 분포를 추정하고 예측 구간 (Prediction Region) 을 생성하는 것입니다.
- 난제: 관측 데이터는 $Z$ 가 $X$ 에 영향을 미치는 구조를 가지므로, 단순히 관측된 조건부 확률을 사용하는 것은 편향된 결과를 초래합니다. 또한, $X$ 가 고정된 전략에 의해 선택되거나 (비-IID), 시간에 따라 의존성이 존재하는 경우 기존 방법론이 적용되지 않을 수 있습니다.

2. 방법론 (Methodology)

이 논문은 **컨포멀 e-예측 (Conformal e-prediction)**을 인과 추론 맥락으로 확장하여 유한 표본 (finite-sample) 에서 유효한 보장을 제공합니다.

기본 설정 (IID 환경):
- 데이터 $(X_n, Y_n, Z_n)$ 이 확률 분포 $P$ 에서 IID 로 생성된다고 가정합니다.
- 인과적 확률 추정: $X=x$ 로 고정했을 때의 $Y=y$ 의 확률 $p_y$ 를 다음과 같이 정의합니다 (도구적 변수 또는 백도어 기준에 따른 조정):
  $p_y = \sum_{z \in Z} P(Z=z)P(Y=y | X=x, Z=z)$
- e-변수 (e-variable) 구성: 관측된 데이터로부터 $p_y$ 의 추정치 $F_y$ 를 계산합니다. 여기서 $F_y$ 는 라플라스 평활화 (Laplace smoothing, $+1$ 항 추가) 를 적용한 비율의 곱으로 정의됩니다.
  $F_y = \sum_{z \in Z} \frac{|\{n: Z_n=z\}|+1}{N+1} \times \frac{|\{n: (X_n, Y_n, Z_n)=(x, y, z)\}|+1}{|\{n: (X_n, Z_n)=(x, z)\}|+1}$
- Lemma 1: 임의의 $y$ 에 대해 $E[p_y / F_y] \le 1$ 이 성립함을 증명합니다. 이는 $F_y$ 가 $p_y$ 에 대한 "e-변수"의 분모 역할을 함을 의미합니다.
예측 영역 (Prediction Region) 생성:
- 대안 확률 분포 $Q$ (예: 균일 분포 또는 특정 관심 사건에 집중된 분포) 를 선택합니다.
- e-변수 정의: $E = Q(\{Y_{N+1}\}) / F_{Y_{N+1}}$ 로 정의하며, 이는 기대값이 1 이하인 e-변수가 됩니다.
- 예측 구간 $\Gamma_\alpha$ : 유의수준 $\alpha$ 에 대해 다음 조건을 만족하는 $y$ 들의 집합을 예측 영역으로 정의합니다.
  $\Gamma_\alpha := \{ y \in Y : \frac{Q(\{y\})}{F_y} < \alpha \}$
- 유효성 보장: 오차 확률의 적분 $\int_0^\infty P(Y \notin \Gamma_\alpha) d\alpha \le 1$ 이 성립하여, $\alpha$ 가 클수록 오차 확률이 $1/\alpha$ 이하임을 보장합니다.
비-IID 및 의존성 환경 (No stable stochastic mechanism for X):
- $X_n$ 이 고정된 확률 메커니즘이 아닌, 과거 데이터 ( $X_1, \dots, X_n, Z_1, \dots, Z_n$ ) 에 의존하여 선택되는 경우를 다룹니다.
- Y-무관 (Y-oblivious) 해석: $X_{n+1}$ 이 과거의 $X$ 와 $Z$ 에만 의존하고, 과거의 $Y$ 에는 의존하지 않는다고 가정합니다.
- 이 가정 하에서도 Lemma 1 과 Corollary 2 가 유지되어 동일한 e-예측 영역이 유효함을 보입니다.

3. 주요 기여 및 결과 (Key Contributions & Results)

혼란 변수가 있는 인과 추론을 위한 e-예측 프레임워크 정립:
- 기존 컨포멀 예측이 IID 데이터에 국한되었던 점을 넘어, 혼란 변수 $Z$ 를 조정 (Adjustment) 한 인과적 효과에 대해 유한 표본에서 유효한 예측을 제공하는 방법을 제시했습니다.
강한 유효성 보장 (Strong Validity):
- 단순히 오차 확률이 낮다는 것을 넘어, 오차 확률의 적분 형태인 강력한 유효성 조건 (Equation 6) 을 만족하는 e-변수를 구성했습니다. 이는 가설 검정 및 신뢰 구간 생성에 매우 강력한 기준입니다.
비-IID $X$ 선택 전략에 대한 확장:
- $X$ 가 과거 데이터에 의존하여 선택되는 상황 (예: 적응형 실험 또는 전략적 개입) 에서도, $Y$ 에 대한 과거 정보가 $X$ 선택에 영향을 주지 않는다면 (Y-oblivious) 유효성이 유지됨을 증명했습니다.
실용적 적용 가능성:
- 특정 위험 사건 (예: 환자의 사망) 을 피하고자 할 때, 해당 사건에 대한 e-값이 임계값을 넘지 않으면 해당 사건을 배제하는 예측을 신뢰할 수 있게 수행할 수 있음을 보였습니다.

4. 의의 및 향후 연구 방향 (Significance & Future Work)

의의:
- 인과 추론과 머신러닝 예측의 교차점에서, 소표본 (finite-sample) 에서도 통계적으로 엄밀한 보장을 제공하는 새로운 도구를 제시했습니다.
- Pearl 의 do-calculus 와 결합하여, 복잡한 인과 구조 (Back-door 기준 등) 에서도 적용 가능한 확장성을 가집니다.
한계 및 향후 연구:
- 최적성 (Optimality): 현재 제안된 방법의 유한 표본 최적성에 대한 이론적 분석은 미흡하며, 시뮬레이션을 통해 정규화 상수 (예: $+1$ 대신 $+c$ ) 를 조정할 수 있음을 시사합니다.
- 강한 의존성: $X$ 가 과거의 $Y$ 까지 포함하는 모든 변수에 의존하는 경우 (Strong interpretation) 에는 현재 증명 방법이 적용되지 않으며, 컨포멀 테스트 마팅게일 (Conformal test martingales) 등의 다른 기법이 필요할 수 있습니다.
- 연속 변수: 현재 이산 변수를 가정했으나, 회귀 분석 (연속적인 $Y$ ) 으로의 확장이 필요합니다.

결론

이 논문은 혼란 변수가 존재하는 인과 추론 문제에서, 관측 데이터로부터 개입 효과를 예측할 때 **e-변수 (e-variable)**를 활용하여 유한 표본에서 유효한 예측 구간을 생성하는 방법을 체계화했습니다. 이는 기존의 IID 가정을 넘어 더 현실적인 인과 추론 시나리오에 통계적 엄밀함을 부여한다는 점에서 중요한 의의를 가집니다.