Distributional Equivalence in Linear Non-Gaussian Latent-Variable Cyclic Causal Models: Characterization and Learning

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 제목: "보이지 않는 조종사 (Latent Variables) 가 있는 비행기 구조를 어떻게 파악할까?"

우리가 살아가는 세상은 눈에 보이는 것만 있는 게 아닙니다.

심리학: 설문지 답변 (보이는 것) 뒤에는 '성격'이라는 보이지 않는 원인이 숨어 있습니다.
경제: 주식 가격 (보이는 것) 뒤에는 '시장 심리'나 '거시 경제' 같은 보이지 않는 힘이 작용합니다.

이처럼 **눈에 보이지 않는 원인 (잠재 변수)**이 있을 때, "무엇이 무엇을导致了 (cause) 했는지"를 찾아내는 것을 **인과 관계 발견 (Causal Discovery)**이라고 합니다.

🚧 기존 방법의 문제점: "너무 많은 가정을 해야 했다"

지금까지 과학자들은 이 보이지 않는 원인을 찾기 위해 엄청난 가설을 세우곤 했습니다.

"보이는 변수들은 잠재 변수의 '순수한 측정기'여야 해." (예: 성격 테스트 문항은 오직 성격만 반영해야 함)
"원인과 결과의 관계는 한 방향으로만 흘러야 해." (피드백, 즉 순환 구조는 금지!)
"특정 패턴이 반드시 있어야 해."

이런 가설들은 현실 세계 (예: 주식 시장, 생태계) 에서는 너무 강해서 자주 틀렸습니다. 마치 "비행기는 날개가 두 개여야 하고, 엔진은 앞에만 있어야 한다"고 정해놓고, 실제로는 날개가 네 개 달린 이상한 비행기를 발견했을 때 "아, 이건 비행기가 아니야"라고 버리는 것과 비슷합니다.

💡 이 논문의 핵심 아이디어: "동일한 결과를 내는 모든 구조 찾기"

저자들은 **"가정을 하지 않고, 오직 데이터만 보고 원인을 찾을 수 있을까?"**라고 물었습니다.

이를 위해 그들은 **'동일성 (Equivalence)'**이라는 개념을 정립했습니다.

비유: 두 개의 완전히 다른 레시피 (A 와 B) 가 있다고 칩시다. A 는 '설탕 10g', B 는 '꿀 15g'을 썼는데, 둘 다 완전히 똑같은 맛의 케이크가 나왔다면? 우리는 "어느 레시피가 진짜 원조인지" 알 수 없습니다. 둘 다 '동일한 맛 (분포)'을 내는 동등한 레시피인 것입니다.

이 논문은 **"어떤 구조 (그래프) 들이 서로 다른 모양을 하고 있어도, 관찰된 데이터 (케이크 맛) 를 똑같이 만들어내는지"**를 수학적으로 완벽하게 증명했습니다.

🛠️ 새로운 도구: "변수들의 '연결성 점수' (Edge Rank Constraints)"

이 연구의 가장 큰 기여는 **'엣지 랭크 (Edge Rank)'**라는 새로운 도구를 개발한 것입니다.

기존 방식 (Path Rank): "A 에서 B 로 가는 경로가 몇 개나 있을까?"를 세는 방식. (전체 지도를 다 봐야 함, 복잡함)
새로운 방식 (Edge Rank): "A 와 B 사이의 직접적인 연결 고리가 얼마나 단단한가?"를 보는 방식. (국소적이고 직관적임)

비유:

기존: "서울에서 부산까지 가는 길이 몇 개나 있을까?"를 세려면 지도 전체를 뒤져야 합니다.
새로운: "서울역과 부산역 사이의 직통 열차가 몇 대나 있는지"만 보면 됩니다. 이 직통 열차의 수만으로도 두 도시의 연결 상태를 완벽하게 파악할 수 있습니다.

이 '직통 열차 (Edge Rank)' 개념을 통해, 복잡한 인과 관계를 훨씬 쉽고 빠르게 분석할 수 있게 되었습니다.

🗺️ 성과: "동일한 맛을 내는 모든 레시피 지도 (Equivalence Class)"

이 논문은 다음과 같은 3 가지 큰 성과를 냈습니다.

동일성 판별 기준: "두 개의 복잡한 인과 구조가 실제로 같은 결과를 내는지"를 그래프 모양만 보고 바로 알 수 있는 규칙을 만들었습니다.
구조 변환 도구: "어떤 구조를 어떻게 변형하면 (화살표 방향 바꾸기, 선 추가/삭제) 같은 결과를 내는 다른 구조가 되는지"를 알려주는 이동 지도를 만들었습니다.
알고리즘 개발 (glvLiNG): 실제 데이터 (예: 주식 가격) 를 넣으면, 어떤 가설도 세우지 않고 모든 가능한 인과 관계 구조의 집합을 찾아내는 프로그램을 만들었습니다.

📈 실제 적용 사례: 홍콩 주식 시장 분석

저자들은 이 알고리즘을 홍콩 주식 시장 데이터에 적용해 보았습니다.

결과: 은행, 부동산, 유틸리티 등 14 개 종목과 2 개의 보이지 않는 잠재 변수를 찾아냈습니다.
발견:
- 큰 은행들 (HSBC 등) 이 시장을 이끄는 '상류'에 있고, 부동산은 '하류'에 있는 것을 발견했습니다.
- 유틸리티 기업들은 서로 복잡하게 얽혀 순환 구조를 이루고 있었습니다.
- 보이지 않던 잠재 변수 중 하나는 '특정 기업 그룹의 영향력'으로 해석될 수 있었습니다.

🌟 결론: "가설 없이, 데이터가 말하는 대로"

이 논문은 **"우리가 알지 못하는 보이지 않는 원인 (Latent Variables) 이 있더라도, 그 구조를 자유롭게 탐색할 수 있는 첫 번째 방법론"**을 제시했습니다.

마치 미스터리 소설에서, 범인을 잡기 위해 "범인은 반드시 남자가 있어야 한다"거나 "범인은 밤에만 출현한다"는 식의 편견을 버리고, 오직 증거 (데이터) 만으로 모든 가능한 범인 후보를 찾아내는 것과 같습니다.

이 연구는 인과 관계 추론의 새로운 지평을 열었으며, 앞으로 AI 가 더 복잡한 현실 세계의 문제를 해결하는 데 큰 도움이 될 것으로 기대됩니다.

한 줄 요약:

"보이지 않는 원인을 찾기 위해 기존의 복잡한 가정을 버리고, **'직접 연결의 수'**라는 새로운 나침반을 만들어, 데이터가 말하는 모든 가능한 인과 관계를 찾아내는 방법을 개발했습니다."

Each language version is independently generated for its own context, not a direct translation.

이 논문은 선형 비가우시안 (Linear Non-Gaussian, LiNG) 잠재 변수 순환 인과 모델에서의 **분포 동등성 (Distributional Equivalence)**에 대한 체계적인 특성화 (Characterization) 와 학습 방법을 제시합니다. 기존 방법론들이 강한 구조적 가정 (예: 측정 모델, 위계적 구조, 비순환성 등) 에 의존해 왔던 한계를 극복하고, 구조적 가정 없이도 잠재 변수와 순환 (cycles) 을 포함한 일반적인 모델에서 인과 구조를 동등성 클래스 (equivalence class) 단위로 복원하는 것을 목표로 합니다.

다음은 이 논문의 기술적 요약입니다.

1. 문제 정의 (Problem)

배경: 관측되지 않은 잠재 변수 (Latent Variables) 가 존재하는 환경에서 인과 구조를 발견하는 것은 어렵습니다. 기존 방법들 (FCI 등) 은 주로 조건부 독립 (CI) 제약에 의존하며, 이는 잠재 변수 간의 관계를 식별하기에 불충분합니다.
한계: 최근 비가우시안성이나 선형성 등의 매개변수 가정을 도입한 방법들이 등장했으나, 대부분 "순수 측정 변수 (pure indicators)", "위계적 구조", "비순환성 (acyclicity)"과 같은 강한 구조적 가정을 전제로 합니다. 또한, 순환 (feedback loops) 이 존재하는 실제 시스템에서는 적용이 제한적입니다.
핵심 장애물: 인과 모델이 관측 데이터에 어떤 분포를 생성하는지 식별하기 위해서는, 어떤 두 모델이 동일한 관측 분포 집합을 생성하는지 (분포 동등성) 를 정의하는 동등성 특성화 (equivalence characterization) 가 필수적입니다. 그러나 잠재 변수와 순환이 공존하는 LiNG 모델에 대한 일반적인 동등성 특성화는 존재하지 않았습니다.
목표: 구조적 가정 없이, 임의의 잠재 변수 구조와 순환을 허용하는 선형 비가우시안 모델에서 두 그래프가 분포적으로 동등한지 판단하는 기준을 마련하고, 이를 통해 동등성 클래스 전체를 탐색하는 알고리즘을 개발하는 것.

2. 방법론 (Methodology)

2.1. 기본 설정 및 전처리

모델: $V = BV + E$ 형태의 선형 구조 방정식 모델. $E$ 는 비가우시안 독립 노이즈, $B$ 는 가중치 인접 행렬입니다.
비축약성 (Irreducibility): 식별 불가능한 자명한 경우 (예: 관측 변수에 영향을 주지 않는 잠재 변수) 를 제거하기 위해 비축약성 (Irreducibility) 개념을 도입합니다. 이는 혼합 행렬 (mixing matrix) 의 열들이 비례하지 않도록 보장하며, 그래프 이론적으로 각 잠재 변수 집합이 관측 변수 밖으로 최소 2 개 이상의 자식을 가져야 함을 의미합니다.

2.2. 새로운 도구: 엣지 랭크 (Edge Ranks)

경로 랭크 (Path Ranks) 의 한계: 기존 연구는 혼합 행렬의 랭크를 그래프의 경로 수 (최대 유량 - 최소 컷) 와 연결하는 '경로 랭크'를 사용했습니다. 그러나 이는 전역적 (global) 인 성질로, 그래프 구조를 국소적으로 조작하거나 동등성을 판단하기 어렵습니다.
엣지 랭크의 도입: 저자들은 **엣지 랭크 (Edge Ranks)**라는 새로운 도구를 제안합니다.
- 정의: 그래프 $G$ 에서 두 정점 집합 $Z, Y$ 간의 최대 이분 매칭 (maximum bipartite matching) 의 크기입니다.
- 특징: 행렬의 '매칭 랭크 (matching rank)'와 직접적으로 대응되며, **국소적 (local)**이고 조작하기 쉽습니다.
- 이중성 (Duality): 경로 랭크와 엣지 랭크 사이에는 강력한 이중성 관계가 존재합니다 (Theorem 1). 이를 통해 경로 랭크로 표현되던 복잡한 조건들을 엣지 랭크로 변환하여 더 간결하게 다룰 수 있습니다.

2.3. 분포 동등성의 그래픽 특성화

주요 정리 (Theorem 2): 두 비축약 모델 $(G, X)$ $(G, X)$ 와 $(H, X)$ $(H, X)$ 가 분포적으로 동등할 필요충분조건은, 정점의 순열 $\pi$ $π$ 가 존재하여 다음과 같은 기저 (bases) 조건이 성립하는 것입니다:
1. 잠재 변수 집합 $L$ 의 자식 기저 (children bases) 가 일치.
2. 각 관측 변수 $X_i$ 를 $L$ 에 추가했을 때의 자식 기저가 일치.
- 이는 모든 부분집합을 확인하는 대신, 각 관측 변수를 개별적으로 확인하면 된다는 것을 의미하여 계산 효율성을 높였습니다.

2.4. 동등성 클래스 탐색 (Traversal)

변환적 특성화 (Theorem 3): 동등한 두 그래프는 다음 두 가지 연산을 통해 서로 변환될 수 있습니다:
1. 허용된 순환 반전 (Admissible Cycle Reversals): 서로 소인 (disjoint) 단순 순환을 반전시키는 것.
2. 허용된 엣지 추가/삭제 (Admissible Edge Additions/Deletions): 엣지 랭크 조건을 위반하지 않는 범위 내에서 엣지를 추가하거나 제거하는 것. (이는 매트로이드 이론의 'coloop' 개념과 관련됨)
이 두 연산은 동등성 클래스 내의 모든 그래프를 탐색 (BFS/DFS) 하는 데 충분합니다.

2.5. 알고리즘: glvLiNG

OICA 기반: 과완전 독립성 성분 분석 (Overcomplete ICA, OICA) 을 사용하여 관측 데이터로부터 혼합 행렬 $\tilde{A}$ 를 추정합니다.
랭크 실현 (Rank Realization): 추정된 행렬의 랭크 패턴을 만족하는 이진 지원 행렬 (support matrix, 즉 그래프) 을 구성합니다.
- Phase 1: 잠재 변수에서 나가는 엣지를 복원 (이분 그래프 실현 문제).
- Phase 2: 관측 변수에서 나가는 엣지를 복원 (단일 열 추가 문제를 독립적으로 해결).
동등성 클래스 탐색: 복원된 그래프를 시작점으로 하여, Theorem 3 의 변환 연산을 적용하여 전체 동등성 클래스를 탐색합니다.

3. 주요 기여 (Key Contributions)

최초의 일반적 동등성 특성화: 구조적 가정 없이 잠재 변수와 순환을 모두 허용하는 선형 비가우시안 모델에 대한 최초의 분포 동등성 특성화를 제시했습니다.
엣지 랭크 (Edge Ranks) 도구 개발: 인과 발견을 위한 랭크 기반 방법론에 새로운 국소적 도구를 추가하여, 경로 랭크의 복잡성을 극복하고 더 직관적인 그래프 조작을 가능하게 했습니다.
효율적인 탐색 알고리즘 (glvLiNG): 구조적 가정이 필요 없는 첫 번째 알고리즘을 개발하여, 데이터로부터 동등성 클래스까지 복원하는 것을 증명했습니다.
상호작용 데모 및 코드: 동등성 클래스를 시각화하고 탐색할 수 있는 인터랙티브 데모 (https://equiv.cc) 와 코드를 공개했습니다.

4. 실험 결과 (Results)

동등성 클래스 크기 분석: 변수 수가 증가함에 따라 동등성 클래스 내 그래프의 수가 기하급수적으로 증가함을 확인했습니다 (예: 5 변수, 2 잠재 변수 시 783 개의 동등성 클래스).
성능 비교:
- 구조적 가정 위반 시: 기존 방법들 (LaHiCaSl, PO-LiNGAM) 은 복잡한 구조나 밀집된 그래프에서 구조적 가정이 깨질 경우 성능이 급격히 저하되고 엣지를 잘못 식별하는 경향이 있었습니다.
- glvLiNG의 우위: 구조적 가정이 없는 glvLiNG 는 밀집된 그래프와 높은 잠재 변수 차원에서도 기존 방법들보다 우수한 성능 (낮은 SHD) 을 보였습니다. 특히 잠재 변수의 수 증가에 대해 더 강건했습니다.
실제 데이터 적용: 홍콩 주식 시장 데이터 (14 개 주요 기업) 에 적용하여, 은행 섹터가 인과적 중심 역할을 하고 부동산 섹터가 하류 효과를 받는 등의 의미 있는 패턴을 복원했습니다.

5. 의의 및 결론 (Significance)

이론적 의의: 인과 발견 분야에서 '무엇을 식별할 수 있는가 (identifiability)'에 대한 근본적인 질문에 답을 제공했습니다. 잠재 변수와 순환이 공존하는 복잡한 환경에서도 동등성 클래스를 완전히 특성화할 수 있음을 보였습니다.
실용적 의의: 연구자들이 특정 구조적 가정을 검증하기 어렵거나, 가정이 실제 데이터에 맞지 않을 때 사용할 수 있는 강력한 도구를 제공합니다.
미래 방향: OICA 의 계산 비용 문제를 해결하기 위한 방법 (랭크 정보만 부분적으로 활용하는 등) 과 선형 가우시안 모델, 이산 모델 등으로의 확장 가능성이 제시되었습니다.

이 논문은 인과 발견 분야에서 구조적 가정의 제약을 벗어나는 중요한 전환점을 마련하며, 잠재 변수와 순환이 있는 복잡한 시스템의 인과 구조를 이해하는 데 새로운 이론적, 실용적 기반을 제공합니다.