CIGPose: Causal Intervention Graph Neural Network for Whole-Body Pose Estimation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"CIGPose"**라는 새로운 인공지능 기술을 소개합니다. 이 기술은 사람의 몸 전체 (얼굴, 손, 발 등) 의 자세를 카메라 사진에서 찾아내는 '포즈 추정' 문제를 해결하기 위해 고안되었습니다.

기존의 최신 기술들도 복잡한 상황 (사람이 가려지거나, 배경이 지저분할 때) 에서는 엉뚱한 추측을 하거나 해부학적으로 불가능한 자세를 그려내는 경우가 많았습니다. 이 논문은 그 원인을 **"잘못된 유혹 (Spurious Correlations)"**에서 찾았고, 이를 해결하기 위해 **'인과관계 (Causality)'**라는 개념을 도입했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: "배경이 사람을 속이다" (가짜 상관관계)

기존 AI 모델들은 사진을 볼 때, 사람의 몸만 보는 게 아니라 배경까지 너무 많이 봅니다.

비유: Imagine you are trying to guess what someone is wearing by looking at a photo.
- 만약 사진 배경에 **'의자'**가 있다면, AI 는 "아, 의자가 있으니까 저 사람은 **'앉아 있는 자세'**일 거야"라고 추측합니다.
- 하지만 실제로는 그 사람이 의자 옆에 '서 있는' 상태일 수도 있습니다.
- AI 는 "의자 (배경)"와 "앉은 자세 (몸)"가 함께 나오는 경우가 많았기 때문에, 배경이 몸의 위치를 결정한다는 가짜 상관관계를 배우게 된 것입니다.
- 그래서 배경이 복잡하거나 가려지면 AI 는 당황해서 엉뚱한 손이나 발 위치를 예측합니다.

2. 해결책: "진짜 이유만 믿는 AI" (인과적 개입)

저자들은 이 문제를 해결하기 위해 **SCM(구조적 인과 모델)**이라는 도구를 사용했습니다. 이는 **"배경 (의자) 이 몸 (자세) 을 만든 게 아니라, 몸이 자세를 만든다"**는 진짜 인과관계를 찾아내는 과정입니다.

이를 위해 CIGPose라는 새로운 시스템을 만들었습니다. 이 시스템의 핵심은 두 가지 단계로 나뉩니다.

1 단계: "의심스러운 부분 찾기" (불확실성 감지)

AI 가 사진을 보고 "어? 이 손가락 위치가 좀 이상한데?"라고 생각할 때가 있습니다. AI 가 어떤 부분인지 확신이 없을 때 (불확실성이 높을 때), 그 부분은 배경의 방해 (가려짐, 복잡한 배경) 를 받아 오염된 정보일 가능성이 높습니다.

비유: detective 가 사건 현장을 조사할 때, "이 부분은 증거가 흐릿해서 믿을 수 없어"라고 표시하는 것과 같습니다.

2 단계: "깨끗한 기억으로 교체하기" (반사실적 대체)

여기가 이 기술의 가장 창의적인 부분입니다. AI 가 "이 손가락은 배경 때문에 혼란스러워"라고 판단하면, 그 혼란스러운 데이터를 지우고, AI 가 이미 학습한 **"가장 이상적이고 깨끗한 손가락의 모습 (표준 기억)"**으로 대체해 버립니다.

비유:
- 가짜 뉴스 (배경의 방해) 를 보고 당황한 학생이 있습니다.
- 선생님이 "너는 그 가짜 뉴스를 믿지 말고, 우리가 배운 **정답 (표준 기억)**을 떠올려봐"라고 말합니다.
- 학생은 가짜 뉴스를 잊고, 순수하게 배운 지식만으로 문제를 풉니다.
- 이렇게 AI 는 **배경의 방해 (Confounder)**를 차단하고, **몸의 구조 (해부학)**에만 집중하게 됩니다.

3. 마지막 단계: "뼈대 연결하기" (계층적 그래프 신경망)

오염된 데이터를 깨끗하게 교체한 후, AI 는 사람의 뼈대 구조를 다시 한번 점검합니다.

비유: 손이 어디에 있어야 하는지, 다리가 어떻게 연결되어야 하는지 해부학적 규칙을 따져봅니다. "손이 발 위에 있다면 이상하니까, 다시 조정해야지"라고 생각하며 전체적인 자세가 자연스러운지 확인합니다.

4. 결과: 왜 이것이 특별한가?

이 방법 덕분에 CIGPose 는 다음과 같은 성과를 냈습니다.

데이터 효율성: 다른 AI 들은 엄청난 양의 추가 데이터 (UBody 등) 를 학습시켜야 좋은 성적을 냈는데, CIGPose 는 기존 데이터만으로도 그들보다 더 좋은 성적을 냈습니다. (배경의 방해만 제거해도 성능이 크게 오르기 때문입니다.)
강건함: 사람이 가려지거나, 배경이 지저분하거나, 빛이 어두운 상황에서도 사람의 몸 구조를 올바르게 이해하여 정확한 자세를 찾아냅니다.
신뢰도: 단순히 "배경과 함께 자주 나오는 패턴"을 외우는 게 아니라, **"왜 그 자세가 그런지"**에 대한 인과관계를 학습했기 때문에, 예상치 못한 상황에서도 실수를 줄입니다.

요약

CIGPose는 **"배경의 속임수에 넘어가지 않고, 사람의 몸이 가진 진짜 구조 (인과관계) 에 집중하는 AI"**입니다.

기존 AI: "의자가 있으니까 앉아 있는 거겠지?" (배경에 의존)
CIGPose: "의자가 있든 없든, 이 몸의 뼈대 구조를 보면 서 있는 게 맞다. 배경은 무시하고 뼈대만 보자." (인과관계에 의존)

이처럼 가짜 신호 (배경) 를 차단하고 진짜 신호 (몸의 구조) 로 교체하는 기술을 통해, 복잡한 세상에서도 가장 정확한 포즈를 찾아내는 새로운 기준을 세웠습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존 최첨단 (SOTA) 전신 자세 추정 (Whole-body Pose Estimation) 모델들은 복잡한 실제 환경 (심한 가림, 혼잡한 배경, 어려운 조명 등) 에서 생리학적적으로 불가능한 예측을 자주 수행합니다.

근본 원인: 이러한 실패는 모델이 시각적 문맥 (Visual Context) 에서 학습한 위조된 상관관계 (Spurious Correlations) 에 기인합니다.
- 예: "등받이 (backrest)"라는 배경 요소가 "몸통 (torso)"과 자주 함께 등장하기 때문에, 모델은 등받이를 몸통으로 오인하는 경향을 학습합니다.
인과적 관점: 이는 시각적 문맥 $C$ 가 특징 $F$ 와 최종 자세 $Y$ 사이의 교란자 (Confounder) 역할을 하여, 비인과적인 백도어 경로 (Backdoor path: $F \leftarrow X \leftarrow C \rightarrow Y$ ) 를 생성하기 때문입니다. 결과적으로 모델은 개입 분포 $P(Y|do(F))$ 가 아닌 관측 분포 $P(Y|F)$ 를 학습하게 되어 취약해집니다.

2. 방법론 (Methodology)

저자들은 구조적 인과 모델 (Structural Causal Model, SCM) 을 도입하여 이 문제를 해결하고, CIGPose라는 새로운 프레임워크를 제안했습니다.

가. 인과적 개입 (Causal Intervention)

목표: 교란자의 영향을 제거하고 진정한 인과 효과 $P(Y|do(F))$ 를 추정하기 위해 도구 연산자 (do-operator) 를 적용합니다.
구현: 백도어 조정 공식은 고차원 시각적 문맥으로 인해 계산이 불가능하므로, 반사실적 대체 (Counterfactual Replacement) 를 통해 이를 근사합니다.

나. 핵심 구성 요소

인과적 개입 모듈 (Causal Intervention Module, CIM):
- 교란자 식별: 예측 불확실성 (Predictive Uncertainty) 을 교란의 지표로 사용합니다. 가림 (Occlusion) 이나 모호한 상황에서는 예측 확률 분포가 퍼지게 되며, 이를 교란 점수 (Confounder Score) 로 계산합니다.
- 대체 작업: 식별된 교란된 킵포인트 임베딩을 학습된 문맥 불변의 표준 임베딩 (Learned Context-invariant Canonical Embeddings) 으로 대체합니다. 이는 교란자 $C$ 와 독립적인 이상적인 표현을 사용하여 백도어 경로를 차단합니다.
계층적 그래프 신경망 (Hierarchical GNN):
- CIM 을 통해 정제된 (Deconfounded) 임베딩을 입력받습니다.
- 국소 모델링: 표준 해부학적 골격 그래프를 사용하여 국소적인 운동학적 관계를 모델링합니다.
- 전역 모델링: 의미론적 하이퍼그래프 (Semantic Hypergraph) 를 통해 장기 의존성 (예: 손, 발, 몸통 간의 관계) 을 모델링하고, 주의 메커니즘 (Attention) 을 적용하여 전체적인 해부학적 일관성을 강제합니다.
연합 최적화 (Joint Optimization):
- 주 예측 손실: 개입된 경로 (Counterfactual path) 의 예측과 정답 간의 KL 발산을 최소화합니다.
- 반사실적 일관성 손실 (Counterfactual Consistency Loss): 개입되지 않은 안정된 킵포인트에 대해서는 관측 경로와 개입 경로의 예측이 일관되도록 정규화하여, 불필요한 변형을 방지합니다.

3. 주요 기여 (Key Contributions)

인과적 프레임워크 정립: 2D 전신 자세 추정을 인과적 관점에서 공식화하고, 시각적 문맥이 주요 교란자임을 규명했습니다.
새로운 모듈 제안 (CIM): 예측 불확실성을 기반으로 교란된 임베딩을 식별하고, 학습 가능한 표준 임베딩으로 대체하는 새로운 메커니즘을 개발했습니다. 이는 고차원 교란자를 직접 계산하지 않고도 인과적 개입을 근사하는 실용적인 방법입니다.
해부학적 일관성 강화: 정제된 임베딩 위에 계층적 GNN 을 구축하여, 국소 및 전역 수준의 해부학적 구조를 명시적으로 모델링했습니다.
성능 기록 달성: COCO-WholeBody, COCO, CrowdPose 등 주요 벤치마크에서 SOTA 성능을 달성했습니다.

4. 실험 결과 (Results)

COCO-WholeBody:
- 추가 데이터 없이 COCO-WholeBody 만으로 학습한 CIGPose-x 모델은 67.0% AP를 기록하여, 추가 데이터 (UBody) 와 2 단계 증류 (Distillation) 를 사용한 기존 SOTA 인 DWPose-l (66.5% AP) 을 능가했습니다.
- UBody 데이터를 추가 학습하면 67.5% AP로进一步提升되어, 데이터 효율성과 강건성이 뛰어남을 입증했습니다.
COCO 및 CrowdPose:
- 일반 17-킵포인트 추정 (COCO) 과 혼잡한 장면 (CrowdPose) 에서도 기존 모델 (RTMPose, HRFormer 등) 대비 일관된 성능 향상을 보였습니다. 특히 CrowdPose 의 'Hard' 및 'Medium' 서브셋에서 가림과 배경 혼란에 대한 강건성이 두드러졌습니다.
Qualitative 분석:
- 가림이 심하거나 배경이 복잡한 이미지에서 CIGPose 는 해부학적으로 타당한 자세를 예측하는 반면, 기존 모델은 배경 패턴을 사지로 오인하는 등 오류를 보였습니다.

5. 의의 및 결론 (Significance)

강건성 확보: 단순한 데이터 양의 증가나 모델 크기 확대가 아닌, 인과적 추론 (Causal Reasoning) 을 통해 모델이 시각적 편향 (Bias) 에 덜 의존하도록 만들어 실제 환경에서의 신뢰성을 크게 높였습니다.
데이터 효율성: 추가적인 대규모 데이터셋 없이도 기존 SOTA 를 능가하는 성능을 보여주어, 데이터 효율적인 학습의 새로운 방향을 제시했습니다.
미래 전망: 이 연구는 2D 자세 추정을 넘어 3D 추정 및 분포 외 (Out-of-Distribution) 시나리오로 확장 가능한 인과적 프레임워크의 가능성을 보여주었습니다.

요약하자면, CIGPose는 시각적 문맥에 의한 편향을 인과적 개입을 통해 제거하고, 해부학적 구조를 그래프 신경망으로 강화함으로써 복잡한 환경에서도 정확하고 신뢰할 수 있는 전신 자세 추정을 가능하게 한 획기적인 연구입니다.