Scalable Contrastive Causal Discovery under Unknown Soft Interventions

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "미스터리한 사건"과 "완벽하지 않은 증거"

인과관계를 찾는 것은 마치 형사가 사건을 해결하는 것과 같습니다.

관측 데이터 (Observational Data): 형사가 현장에 가서 사람들이 어떻게 행동하는지 지켜보는 것입니다. 하지만 사람들은 서로 영향을 주고받기 때문에, A 가 B 를 만났다고 해서 A 가 B 를 만든 건지, 아니면 B 가 A 를 만났는지, 혹은 C 가 둘 다 부른 건지 알기 어렵습니다. (이걸 통계학에서는 'Markov 동등성 클래스'라고 하는데, 쉽게 말해 **"정답이 여러 개일 수 있는 상태"**입니다.)
개입 (Intervention): 형사가 직접 개입해서 "A 를 강제로 움직여봐!"라고 시키는 것입니다. 보통은 "어떤 버튼을 누르면 A 가 움직인다"는 것을 정확히 알고 있어야 하지만, 현실에서는 "누가 버튼을 눌렀는지 모르고, 버튼도 완전히 작동하지 않는 (Soft Intervention)" 경우가 많습니다.

기존의 문제점:

정확한 개입 정보가 없음: "누가 개입했는지"도 모르고, 개입이 완벽하지도 않습니다.
데이터가 부족함: 보통 한 가지 상황 (예: 평상시) 과 한 가지 개입 상황 (예: 실험실) 만 주어집니다.
규모의 문제: 변수 (사람) 가 수백 명, 수천 명이면 기존 방법들은 계산이 너무 복잡해져서 멈춰버립니다.

2. SCONE 의 해결책: "두 명의 탐정"과 "비교 분석"

SCONE 는 이 문제를 해결하기 위해 **두 가지 상황을 비교 (Contrast)**하는 방식을 사용합니다.

비유: "평범한 날"과 "축제 날"의 마을

가정해 봅시다. 어떤 마을 (데이터) 이 있습니다.

상황 1 (관측): 평범한 날, 마을 사람들이 어떻게 움직이는지 봅니다.
상황 2 (개입): 마을 어딘가에 **정체를 알 수 없는 축제 (Soft Intervention)**가 열렸습니다. 사람들은 평소와 다르게 움직이지만, 정확히 누구를 대상으로 축제가 열렸는지는 모릅니다.

SCONE 는 이 두 상황을 동시에 분석합니다.

핵심 전략 1: 작은 팀으로 나누어 조사 (Subset-level)
전체 마을을 한 번에 분석하면 너무 복잡합니다. SCONE 는 마을을 작은 구역 (Subset) 으로 나누어 각 구역별로 "누가 누구를 따라다니는지"를 먼저 파악합니다. 마치 소규모 탐정 팀을 보내는 것과 같습니다.

핵심 전략 2: "무엇이 달라졌는지" 비교하기 (Contrastive Rules)
이게 SCONE 의 가장 큰 특징입니다.

규칙 1 (한쪽만 변함): A 와 B 가 평소에는 서로를 따라다녔는데, 축제 날에는 B 만 갑자기 다른 행동을 합니다. A 는 그대로라면? A 가 B 를 이끄는 것이 아니라, B 가 외부의 영향 (축제) 을 받아 변한 것일 가능성이 큽니다. 이걸로 방향을 정합니다.
규칙 2 (삼각형 구조): A, B, C 세 사람이 있습니다. 평소에는 A-B-C 순서로 이어져 있었는데, 축제 날 B 만이 A 와 C 모두에게서 영향을 받으며 변했습니다. 이는 **B 가 A 와 C 의 '결합점 (V-structure)'**일 확률이 높다는 뜻입니다.

이처럼 **"평범한 날"과 "축제 날"의 차이점 (Contrast)**을 분석함으로써, 기존 방법으로는 알 수 없었던 인과관계의 방향을 찾아냅니다.

핵심 전략 3: 전체 그림으로 합치기 (Global Aggregation)
작은 구역별로 찾은 단서들을 **중앙 지휘본부 (Axial Attention)**로 보내서, 전체 마을의 지도를 완성합니다. 이 지휘본부는 모든 단서를 연결하여 모순이 없는 하나의 거대한 인과 지도를 그립니다.

3. 왜 이것이 혁신적인가?

알 수 없는 변수도 해결: "누가 버튼을 눌렀는지"를 몰라도, 데이터의 변화 패턴을 비교하면 누가 영향을 받았는지 추론할 수 있습니다. (마치 범인의 얼굴을 보지 않아도, 범행 현장의 흔적만으로 범인을 특정하는 것과 같습니다.)
대규모 데이터 처리: 작은 팀 (서브셋) 으로 나누어 계산하기 때문에, 변수가 100 개, 200 개가 되어도 빠르게 작동합니다. 기존 방법들은 50 개만 되어도 멈춰버리는 경우가 많았습니다.
새로운 상황에도 적응: 훈련할 때 본 적 없는 종류의 데이터 (예: 전혀 다른 문화권의 마을) 가 와도, "비교 분석"이라는 원리를 적용하면 잘 적응합니다.

4. 요약: 한 줄로 정리하면?

"SCONE 는 두 가지 다른 상황 (평범한 날과 변화가 있는 날) 에서의 데이터를 작은 조각으로 나누어 비교하고, 그 차이점을 분석하여 '누가 누구를 움직였는지'를 정확히 찾아내는, 빠르고 똑똑한 인과관계 탐정입니다."

이 기술은 의학 (어떤 약이 어떤 유전자를 자극하는지), 경제 (정책이 시장에 미치는 영향), 기후 변화 연구 등 복잡한 시스템을 이해하는 데 큰 도움을 줄 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 인과 발견 (Causal Discovery) 은 관측 데이터만으로는 마르코프 동치 클래스 (Markov Equivalence Class, MEC) 까지만 식별이 가능합니다. 개입 (Intervention) 데이터를 활용하면 이를 줄일 수 있으나, 현실 세계에서는 개입이 **완벽한 개입 (Hard Intervention)**이 아닌 **부드러운 개입 (Soft Intervention)**인 경우가 많으며, 개입 대상 (Target) 이 알려지지 않은 (Unknown) 경우가 빈번합니다.
핵심 난제:
1. 알 수 없는 부드러운 개입: 개입이 변수의 메커니즘 분포를 변경하지만 그래프 구조는 유지하는 상황에서, 어떤 변수가 개입받았는지 알 수 없습니다.
2. 단일 개입 regime: 많은 시나리오에서 관측 데이터와 하나의 개입 데이터 (Regime) 만 존재합니다.
3. 확장성 (Scalability): 기존 이론적 방법론 (예: $\Psi$ -FCI) 은 전역 오라클 (Global Oracle) 접근과 재귀적 탐색을 요구하여 대규모 그래프에 적용하기 어렵습니다.
4. OOD 일반화: 훈련된 메커니즘과 다른 분포 (Out-of-Distribution) 에 대한 일반화 능력이 부족합니다.

2. 제안 방법론: SCONE (Methodology)

저자들은 SCONE (Scalable contrastive Causal discOv-ery under unknowN soft intervEntions) 이라는 확장 가능한 프레임워크를 제안합니다. 이는 두 개의 regime (관측 및 개입) 에서 공유되는 인과 구조를 학습하며, 알 수 없는 부드러운 개입 하에서 작동합니다.

A. 이론적 기반: 제한된 $\Psi$ -동치 클래스 (Restricted $\Psi$ -Equivalence)

기존 $\Psi$ -Markov 동치 클래스는 전역 오라클을 가정하지만, SCONE 은 제한된 정보 (Subset-restricted information) 하에서 작동합니다.
모델이 접근할 수 있는 정보는 다음과 같습니다:
1. 허용 가능한 부분 집합 (Admissible subsets) 에 대한 regime 별 국소 PDAG (Partially Directed Acyclic Graph).
2. regime 간 불변성 (Invariance) 을 테스트한 유한한 쿼리 결과.
이를 바탕으로 제한된 $\Psi$ -동치 클래스와 **테스트 유도 $\Psi$ -본질 그래프 (Test-induced $\Psi$ -Essential Graph, $G_{test}$ )**를 정의합니다. 이는 사용 가능한 정보 하에서 식별 가능한 최대 인과 구조를 의미합니다.

B. 대조적 방향성 규칙 (Contrastive Orientation Rules)

단일 regime 의 정보만으로는 방향성을 결정할 수 없는 엣지들을, 두 regime 간의 대조 (Contrast) 정보를 활용하여 방향을 결정합니다. 세 가지 핵심 규칙이 제안되었으며, 이는 제한된 $\Psi$ -동치 클래스 내에서 **정당성 (Soundness)**이 증명되었습니다.

단측 불변성 (Single-Sided Invariance, SSI):
- 두 regime 모두에서 방향이 결정되지 않은 엣지 $i-j$ 에 대해, 한쪽 노드 ( $j$ ) 만이 regime 간 변화 (Change) 를 보이고 다른 쪽 ( $i$ ) 은 불변 (Invariant) 일 때, $i \to j$ 로 방향을 결정합니다.
대조적 V-구조 (Contrastive V-structure, CVT):
- 보호되지 않은 삼중항 (Unshielded triple) $i-j-k$ 에서 중심 노드 $j$ 가 변화하고, 양쪽 이웃 $i, k$ 가 불변일 때, $i \to j \leftarrow k$ (콜라이더) 로 결정합니다.
대조적 구별 경로 (Contrastive Discriminating Path, DPT):
- 구별 경로 (Discriminating path) 상의 노드들이 특정 불변성/변화 패턴을 보일 때, 엣지 방향을 결정합니다.

C. 모델 아키텍처 (Model Architecture)

SCONE 은 Axial Attention을 활용한 확장 가능한 신경망 구조를 사용합니다.

두 개의 스트림 (Streams):
1. Marginal Stream: 샘플링된 부분 집합 (Subsets) 에서의 엣지 토큰을 처리.
2. Global Stream: 모든 노드 쌍에 대한 밀집 표현을 유지.
작동 과정:
1. 샘플링: 교차 regime 상관관계 변화와 민감도를 기반으로 변수 부분 집합을 샘플링.
2. 국소 인과 발견: 각 부분 집합에서 기존 방법 (PolyBIC 등) 을 사용하여 국소 PDAG 생성.
3. 대조적 재매개변수화 (Reparametrization): 엣지 임베딩을 '불변 (Invariant)' 채널과 '대조 (Contrast)' 채널로 분리하여 regime 간 차이를 명확히 함.
4. Bias Heads: 위에서 정의된 세 가지 대조적 규칙 (SSI, CVT, DPT) 을 학습된 편향 (Bias) 으로 구현하여 엣지 방향에 대한 신호를 생성.
5. Axial Aggregation: Axial Attention 을 통해 국소 정보를 전역 그래프 구조로 집계하고, Meek closure 를 적용하여 일관된 PDAG 생성.

3. 주요 기여 (Key Contributions)

모델 제안: 알 수 없는 부드러운 개입을 가진 두 regime 데이터에 대한 확장 가능한 대조적 인과 발견 아키텍처 (SCONE) 를 처음 제안.
이론적 증명:
- 제한된 정보 설정 하의 제한된 $\Psi$ -동치 클래스와 본질 그래프를 공식화.
- 제안된 세 가지 대조적 방향성 규칙이 제한된 $\Psi$ -동치 클래스 내에서 **정당성 (Soundness)**을 가지며, 비대조적 방법으로는 얻을 수 없는 엣지 방향을 식별할 수 있음을 증명.
- 샘플 수와 부분 집합 수가 무한히 증가할 때, 모델이 $G_{test}$ 로 **점근적으로 수렴 (Asymptotic Recovery)**함을 증명.
실험적 성과: 합성 데이터 실험을 통해 기존 방법론 대비 우수한 구조 복원 성능, 미지의 인과 메커니즘에 대한 일반화 능력, 그리고 대규모 그래프 (100 노드 이상) 에 대한 확장성을 입증.

4. 실험 결과 (Empirical Results)

데이터셋: 다양한 인과 메커니즘 (선형, 다항식, 신경망 등) 과 그래프 크기 (20~100 노드) 를 가진 합성 데이터.
비교 대상: NOTEARS, DCDI, AVICI, SEA (Sample-Estimate-Aggregate) 등 최신 인과 발견 모델.
주요 결과:
- In-distribution 성능: 20 노드 그래프에서 SCONE 은 가장 낮은 SHD (Structural Hamming Distance) 와 높은 F1 점수를 기록.
- Out-of-Distribution (OOD) 일반화: 훈련 시 사용되지 않은 메커니즘 (예: 훈련은 선형/NN, 테스트는 다항식/시그모이드) 에 대해 SCONE 이 다른 모델들보다 훨씬 강력한 일반화 성능을 보임.
- 확장성: 100 노드 100 엣지 그래프에서 SCONE 은 SHD 126.7, F1 0.237 을 기록한 반면, 기존 방법들 (DCD-FG, SEA 등) 은 SHD 가 급격히 증가하거나 (1000 이상) F1 이 0.05 미만에 머무름.
- Ablation Study:
  - Bias Head 제거: 방향성 규칙을 제거하면 SHD 가 증가하고 F1 이 감소하여, 대조적 규칙이 추가적인 엣지 방향 결정에 필수적임을 확인.
  - 대조적 특징 제거: 불변성/대조 정보를 제거하면 성능이 크게 저하되어, regime 간 차이를 활용하는 것이 핵심임을 입증.

5. 의의 및 결론 (Significance & Conclusion)

실용성: 실제 과학적 데이터 (생물학, 경제학 등) 에서 흔히 발생하는 "알 수 없는 부드러운 개입" 상황을 해결할 수 있는 첫 번째 확장 가능한 프레임워크를 제공.
이론적 엄밀성: 단순히 경험적 성능을 넘어, 제한된 정보 하에서의 식별 가능성 (Identifiability) 과 방법론의 정당성을 수학적으로 증명.
일반화 능력: 훈련된 메커니즘과 다른 환경에서도 인과 구조를 복원할 수 있어, 실제 OOD 환경에서의 적용 가능성이 높음.
한계 및 향후 작업: 현재는 두 개의 regime 만 지원하며, 신뢰성 (Faithfulness) 가정과 증인 (Witness) 커버리지에 의존합니다. 향후 더 풍부한 개입 유형과 적응형 증인 선택으로 확장할 계획입니다.

요약하자면, SCONE 은 **대조적 학습 (Contrastive Learning)**과 심층 신경망 아키텍처를 결합하여, 알 수 없는 부드러운 개입 하에서도 확장 가능하고 일반화 능력이 뛰어난 인과 그래프를 복원하는 새로운 패러다임을 제시한 연구입니다.

Scalable Contrastive Causal Discovery under Unknown Soft Interventions

1. 문제 상황: "미스터리한 사건"과 "완벽하지 않은 증거"

2. SCONE 의 해결책: "두 명의 탐정"과 "비교 분석"

비유: "평범한 날"과 "축제 날"의 마을

3. 왜 이것이 혁신적인가?

4. 요약: 한 줄로 정리하면?

1. 문제 정의 (Problem Statement)

2. 제안 방법론: SCONE (Methodology)

A. 이론적 기반: 제한된 Ψ\PsiΨ-동치 클래스 (Restricted Ψ\PsiΨ-Equivalence)

B. 대조적 방향성 규칙 (Contrastive Orientation Rules)

C. 모델 아키텍처 (Model Architecture)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Empirical Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers

A. 이론적 기반: 제한된 $\Psi$ -동치 클래스 (Restricted $\Psi$ -Equivalence)