Partial Causal Structure Learning for Valid Selective Conformal Inference under Interventions

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"예측의 불확실성을 줄이면서도, 잘못된 정보를 섞지 않고 안전하게 지키는 방법"**에 대해 이야기합니다.

마치 정확한 날씨 예보를 하려는 상황을 상상해 보세요. 우리는 내일 비가 올지, 맑을지 예측하고 싶지만, 예측의 정확도를 높이기 위해 과거의 데이터 (교정 데이터) 를 사용합니다. 그런데 문제는 이 과거 데이터가 모두 같은 조건에서 나온 게 아니라는 점입니다.

이 논문의 핵심 내용을 일상적인 비유로 설명해 드리겠습니다.

1. 배경: 왜 '선택적'인 교정이 필요할까요?

비유: "비 오는 날의 옷차림"
상상해 보세요. 당신이 내일 비가 올지 예측하려고 과거 100 일간의 데이터를 보고 있습니다.

일반적인 방법 (Pooled): 과거 100 일 중 비가 온 날 50 일과 맑은 날 50 일을 모두 섞어서 "평균적인 옷차림"을 계산합니다.
- 문제: 비 오는 날에는 우산을 들고 다니고, 맑은 날에는 선글라스를 씁니다. 이 둘을 섞으면 "우산도 들고 선글라스도 쓰는" 이상한 옷차림이 나올 수 있습니다. 예측 구간이 너무 넓어지고 불확실해집니다.
이 논문의 방법 (Selective): "내일이 비가 올 것 같다면, 과거의 '비 오는 날' 데이터만 골라서 교정하자"라고 합니다.
- 장점: 비 오는 날 데이터만 쓰면 우산 크기 예측이 훨씬 정확해집니다.

하지만 여기서 치명적인 문제가 생깁니다.

"과거 데이터 중 진짜 '비 오는 날'인지, '맑은 날'인지 우리가 정확히 구분할 수 있을까?"

실제 과학 실험 (유전자 조작 등) 에서는 어떤 실험이 목표 유전자에 영향을 미쳤는지 (비 오는 날인지) 미리 알기 어렵습니다. 그래서 잘못된 데이터 (맑은 날인데 비 오는 날로 오인한 데이터) 가 섞일 위험이 항상 존재합니다.

2. 핵심 아이디어 1: "오염된 데이터"를 감당하는 안전장치

논문의 저자들은 **"만약 우리가 잘못 분류해서 오염된 데이터가 섞여도, 예측이 완전히 망가지지 않도록 보장하는 수학적 공식"**을 만들었습니다.

비유: "스프에 섞인 독"

우리가 맛있는 스프 (예측 구간) 를 만들려고 합니다.
그런데 조리사 (알고리즘) 가 실수로 스프에 약간의 **독 (오염된 데이터)**을 섞어버릴 수 있습니다.
기존 방법: 독이 섞이면 스프가 맛이 없어지거나 (예측이 틀려짐) 아예 버려야 합니다.
이 논문의 방법 (Theorem 1): **"독이 얼마나 섞였는지 (δ) 를 알면, 스프를 조금 더 진하게 (구간을 넓게) 만들어서 독의 영향을 상쇄할 수 있다"**는 공식을 제시합니다.
- 독이 10% 섞였다면, 스프 양을 조금 더 늘려서 (예측 구간을 넓혀서) 독이 있어도 안전선을 지키게 합니다.
- 이 공식은 **"오염 비율이 30% 가 되어도, 우리가 약속한 안전 수준 (95% 신뢰도) 을 지키기 위해 얼마나 구역을 넓혀야 하는지"**를 정확히 계산해 줍니다.

3. 핵심 아이디어 2: "전체 지도"가 아니라 "필요한 길"만 찾기

과거에는 "어떤 유전자가 어떤 유전자를 조절하는지" **전체 지도 (인과 그래프)**를 완벽하게 그려야 한다고 생각했습니다. 하지만 이는 마치 전 세계 도로 지도를 다 외우지 않고는 집으로 가는 길을 찾을 수 없다는 말과 같습니다. 너무 어렵고 비쌉니다.

비유: "집으로 가는 길만 알면 돼요"

이 논제는 **"전체 지도를 다 그릴 필요 없다"**고 말합니다.
오직 **"이 실험이 이 유전자에 영향을 미쳤을까 (Yes/No)?"**라는 이진법 (Yes/No) 질문만 정확히 답하면 됩니다.
알고리즘 1 (교차 검증): "A 라는 실험이 유전자 X 를 바꿨고, B 라는 실험도 X 를 바꿨다면, A 와 B 가 모두 영향을 미친 C 라는 유전자는 X 의 '자손'일 가능성이 높다"는 식으로, 여러 실험 결과의 **겹치는 부분 (Intersection)**을 찾아서 거짓 신호를 걸러냅니다.
마치 수사관이 여러 증인의 진술을 비교해서, "누군가 거짓말을 했다면 그 부분은 모든 증인이 말하지 않았을 것"이라고 추론하는 것과 같습니다.

4. 실험 결과: 실제로 효과가 있을까?

저자들은 두 가지 실험을 했습니다.

가짜 데이터 실험 (Synthetic):
- 인위적으로 "오염된 데이터"를 섞어봤습니다.
- 결과: 오염이 섞일수록 예측이 틀려지는 건 맞았습니다 (0.905 → 0.867). 하지만 이 논문의 **"안전장치 (Corrected)"**를 적용하자, 오염이 심해도 95% 이상의 안전선을 지키는 것을 확인했습니다. 대신 예측 구간이 조금 더 넓어지기는 했습니다. (안전하되, 조금 더 보수적인 예측)
실제 유전자 데이터 (CRISPR 실험):
- 실제 세포 실험 데이터를 적용했습니다.
- 결과: 다른 방법들은 약속한 안전선 (90%) 을 지키지 못했지만, 이 논문의 방법은 유일하게 안전선을 지켰습니다. (다만, 데이터가 너무 적어서 모든 경우에 적용할 수는 없었습니다.)

5. 요약: 이 논문이 우리에게 주는 메시지

이 논문은 **"완벽한 지식을 가지지 않아도, 불완전한 지식으로 안전한 결정을 내릴 수 있다"**는 것을 증명합니다.

문제: 실험 데이터에서 "어떤 게 영향을 미쳤는지"를 100% 알기 어렵고, 실수가 섞이면 예측이 무너집니다.
해결:
1. 실수가 얼마나 섞였는지 (오염도) 를 계산합니다.
2. 그 오염도에 따라 예측 구간의 크기를 자동으로 조절합니다. (오염이 심하면 구역을 넓혀서 안전을 확보)
3. 복잡한 전체 지도 대신, 필요한 부분만 찾아내는 효율적인 방법을 제안합니다.

한 줄 요약:

"우리가 모든 것을 완벽하게 알 수는 없지만, '얼마나 잘못 알았는지'를 계산해서 예측의 안전벨트를 더 꽉 조여주면, 불완전한 정보로도 신뢰할 수 있는 결론을 내릴 수 있습니다."

이 방법은 의학, 유전학, 그리고 AI 가 중요한 결정을 내려야 하는 모든 분야에서 **"안전하고 신뢰할 수 있는 AI"**를 만드는 데 큰 도움이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경:

합동 예측 (Conformal Prediction, CP): 분포에 무관한 불확실성 정량화를 제공하며, 교환 가능성 (exchangeability) 가정 하에서 유한 표본 마진 커버리지 (marginal coverage) 보장을 제공합니다.
선택적 합동 예측 (Selective Conformal Prediction): 데이터가 이질적일 때 (예: 다양한 개입 환경), 특정 하위 집합 (stratum) 내에서만 교환 가능성이 성립하는 경우가 많습니다. 이 경우 해당 하위 집합에 대해 보정 (calibration) 을 수행하면 더 좁고 정확한 예측 구간을 얻을 수 있습니다 (Mondrian conformal prediction).

핵심 도전 과제:

개입 실험 (Interventional Settings): 유전체학의 Perturb-seq 와 같은 단일 세포 개입 스크리닝에서는 특정 유전자 (타겟) 가 개입된 유전자 (intervention) 의 하위 계승자 (descendant) 인지 여부에 따라 분포가 달라집니다.
인과 구조의 불확실성: "타겟 유전자가 개입의 영향을 받지 않는 (unaffected)" 보정 예시들을 식별하려면 인과 그래프 (Causal Graph) 상에서 하위 계승자 관계를 알아야 합니다. 그러나 고차원 데이터에서 완전한 인과 그래프를 학습하는 것은 계산 비용이 크고 오류가 발생하기 쉽습니다.
오류의 전파: 인과 구조를 잘못 학습하여 "영향을 받지 않는" 예시를 "영향을 받는" 예시로 잘못 분류하거나 그 반대의 경우 (오염, contamination), 선택적 보정의 유효성이 깨져 커버리지 보장 (coverage guarantee) 이 무너질 수 있습니다.

연구 목표:
완전한 인과 그래프를 학습하는 대신, 선택적 보정에 필요한 부분적 인과 구조 (하위 계승자 지표) 만을 학습하여 오염을 통제하고 유효한 커버리지를 보장하는 프레임워크를 제안합니다.

2. 방법론 (Methodology)

이 논문은 크게 세 가지 핵심 구성 요소로 이루어져 있습니다.

2.1. $\delta$ -강건한 선택적 합동 커버리지 정리 (Theorem 1)

오염 모델: 보정 집합에 오염된 데이터 (실제로는 영향을 받지만 '영향을 받지 않는' 것으로 잘못 분류된 데이터) 가 비율 $\delta$ 만큼 섞여 있다고 가정합니다.
커버리지 하한: 오염 비율 $\delta$ $δ$ 와 보정 집합 크기 $n$ $n$ 에 명시적으로 의존하는 유한 표본 커버리지 하한을 증명합니다.
- 식: $P(\text{Coverage}) \ge 1 - \alpha - g(\delta, n)$
- 여기서 $g(\delta, n) = \frac{\delta n}{(1-\delta)n + 1}$ 입니다.
의미: 오염이 작을 때 커버리지는 명목 수준 ( $1-\alpha$ ) 에 가깝고, 오염이 커질수록 커버리지가 선형적으로 감소함을 정량화합니다. 이를 통해 오염 정도를 추정하여 보수적인 $\alpha$ 보정 (Corrected procedure) 을 적용하면 명목 커버리지를 회복할 수 있습니다.

2.2. 작업 주도형 부분적 인과 학습 (Task-Driven Partial Causal Learning)

목표: 전체 인과 그래프 $G$ 를 학습하는 것이 아니라, 특정 개입 $a$ 와 타겟 $i$ 에 대한 이진 지표 $Z_{a,i} = \mathbb{1}\{i \in \text{desc}(a)\}$ (타겟이 개입의 하위 계승자인지 여부) 만을 추정합니다.
오류 비용의 비대칭성:
- 거짓 양성 (FPR): 영향을 받지 않는 것을 영향을 받는 것으로 잘못 판단 (False Negative in selection) -> 보정 집합 크기가 줄어들지만 커버리지는 유지됨.
- 거짓 음성 (FNR): 영향을 받는 것을 영향을 받지 않는 것으로 잘못 판단 (False Positive in selection) -> 보정 집합에 오염이 발생하여 커버리지가 붕괴됨.
- 따라서 알고리즘은 FPR 을 최소화하는 보수적인 분류 전략을 취해야 합니다.

2.3. 알고리즘 제안

개입 교차 패턴을 통한 하위 계승자 발견 (Algorithm 1):
- 각 개입 $a$ 에 대해 차등적으로 영향을 받은 변수 집합 (예: 유전체학의 DEG, Differentially Expressed Genes) $S_a$ 를 추정합니다.
- 인과적 상류 (upstream) 개입 $b$ (즉, $a \in S_b$ ) 들의 영향을 받은 집합들과 $S_a$ 를 교집합 (intersection) 합니다.
- 논리: $a$ 의 하위 계승자는 $a$ 를 상류로 하는 모든 개입의 하위 계승자여야 하므로, 교집합을 통해 위양성 (false positives) 을 제거합니다.
국소 ICP 를 통한 거리 추정 (Algorithm 2):
- 불변 인과 예측 (Invariant Causal Prediction, ICP) 아이디어를 국소적으로 적용하여 개입과 타겟 간의 경로 길이 기반 거리 $\hat{d}(a, i)$ 를 추정합니다. 이는 가중치 합동 예측에 활용될 수 있습니다.

3. 주요 기여 (Key Contributions)

$\delta$ -강건성 정리 (Theorem 1): 선택적 보정에서 계층 (stratum) 분류 오류가 커버리지에 미치는 영향을 정량화하는 명시적인 유한 표본 하한을 제시했습니다. 이는 오염된 분포에 대한 가정이 없어도 성립합니다.
작업 주도형 학습 프레임워크: 전체 그래프 학습 대신, 보정 유효성에 직접적인 영향을 미치는 이진 하위 계승자 지표 학습에 초점을 맞춰 문제의 복잡도를 줄이고 FPR 통제를 가능하게 했습니다.
복원 조건 (Recovery Conditions) 및 알고리즘: 교차 기반 알고리즘이 오염을 통제할 수 있는 이론적 조건 (Assumption 2, 3) 을 제시하고, 이를 만족하는 알고리즘을 개발했습니다.
실험적 검증:
- 합성 데이터 (선형 SEM) 에서 오염 비율 $\delta$ 가 증가함에 따라 커버리지가 정리에 예측된 대로 감소함을 확인했습니다.
- 보정된 절차 (Corrected procedure) 를 적용하면 오염이 있더라도 명목 커버리지 ( $\ge 0.95$ ) 를 회복함을 입증했습니다.
- 실제 유전체 데이터 (Replogle K562 CRISPRi) 에서 제안된 방법이 명목 커버리지를 초과하는 유일한 방법임을 보였습니다.

4. 실험 결과 (Results)

합성 데이터 (Synthetic SEM, $p=200$ ):
- 오염 영향: 오염 비율 $\delta$ 가 0 에서 0.3 으로 증가할 때, 보정되지 않은 선택적 CP 의 커버리지는 0.905 에서 0.867 로 감소했습니다.
- 보정 효과: 제안된 'Corrected' 방법은 모든 오염 수준에서 0.95 이상의 커버리지를 유지했으나, 예측 구간 폭이 1.2~1.8 배 증가하는 보수적인 특성을 보였습니다.
- 알고리즘 성능: 교차 기반 하위 계승자 발견 알고리즘은 선형 SEM 환경에서 오염 비율을 매우 낮게 ( $\hat{\delta} \approx 0.018$ ) 유지했습니다.
실제 데이터 (Replogle K562 CRISPRi 스크린):
- 결과: 보정된 방법이 명목 커버리지 (0.9) 를 초과하는 유일한 방법 (0.906) 이었습니다.
- 한계: 엄격한 $\alpha$ 보정으로 인해 약 40% 의 경우 무한한 구간 (feasible하지 않음) 이 발생했으나, 이는 제한된 보정 데이터 ( $n_{cal} \approx 40$ ) 와 실제 생물학적 데이터의 복잡성 (간접 효과, 배치 효과) 때문입니다.
- 의의: 실제 생물학적 데이터에서도 '불변성'을 가정하는 것이 어렵지만, 제안된 방법이 이론적 예측과 일치하는 경향을 보였습니다.

5. 의의 및 결론 (Significance and Conclusion)

인과 추론과 불확실성 정량화의 융합: 인과 구조 학습의 불완전성이 예측의 신뢰도 (커버리지) 에 미치는 영향을 정량적으로 분석하고, 이를 보정하는 실용적인 방법을 제시했습니다.
실용성: 고차원 유전체 스크리닝과 같은 개입 실험에서, 완전한 인과 지도를 알지 못하더라도 부분적인 구조 정보만으로도 더 좁고 신뢰할 수 있는 예측 구간을 생성할 수 있음을 입증했습니다.
보수적 접근의 가치: 오염을 통제하기 위해 보수적으로 분류하고, 이를 통해 얻은 오염 추정치를 바탕으로 예측 구간의 너비를 조정하는 전략은 실제 과학적 발견 (예: 약물 타겟 선정) 에서 위양성을 줄이고 신뢰도를 높이는 데 기여합니다.
미래 전망: 더 넓은 보정 데이터셋, 활성 실험 설계 (Active Experimental Design) 와의 결합, 그리고 국소 ICP 거리 추정기의 이론적 분석 등을 통해 확장 가능성이 열려 있습니다.

이 논문은 불완전한 인과 지식을 가진 환경에서도 유효한 불확실성 정량화를 가능하게 하는 이론적 틀과 알고리즘을 제공한다는 점에서 중요한 기여를 합니다.

Partial Causal Structure Learning for Valid Selective Conformal Inference under Interventions

1. 배경: 왜 '선택적'인 교정이 필요할까요?

2. 핵심 아이디어 1: "오염된 데이터"를 감당하는 안전장치

3. 핵심 아이디어 2: "전체 지도"가 아니라 "필요한 길"만 찾기

4. 실험 결과: 실제로 효과가 있을까?

5. 요약: 이 논문이 우리에게 주는 메시지

1. 문제 정의 (Problem Definition)

2. 방법론 (Methodology)

2.1. δ\deltaδ-강건한 선택적 합동 커버리지 정리 (Theorem 1)

2.2. 작업 주도형 부분적 인과 학습 (Task-Driven Partial Causal Learning)

2.3. 알고리즘 제안

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance and Conclusion)

유사한 논문

NS-RGS: Newton-Schulz based Riemannian gradient method for orthogonal group synchronization

Poisson-response Tensor-on-Tensor Regression and Applications

Virtual Dummies: Enabling Scalable FDR-Controlled Variable Selection via Sequential Sampling of Null Features

Eliciting core spatial association from spatial time series: a random matrix approach

Regularized estimation for highly multivariate spatial Gaussian random fields

2.1. $\delta$ -강건한 선택적 합동 커버리지 정리 (Theorem 1)