Unsupervised Representation Learning - an Invariant Risk Minimization Perspective

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"라벨 (정답) 이 없는 데이터에서도, 어떤 환경이 변하더라도 흔들리지 않는 '진짜 핵심'을 찾아내는 방법"**을 제안합니다.

기존의 인공지능 연구는 주로 "정답 (라벨) 이 있는 데이터"를 통해 학습했습니다. 하지만 현실에서는 정답이 없는 데이터가 훨씬 많습니다. 이 논문은 정답이 없어도 데이터 속에 숨겨진 **불변의 규칙 (Invariant)**을 찾아내는 두 가지 새로운 방법을 소개합니다.

이해하기 쉽게 요리와 사진관의 비유로 설명해 드리겠습니다.

1. 문제 상황: "맛있는 요리는 환경에 따라 달라져?"

상상해 보세요. 당신이 훌륭한 요리사 (AI) 입니다.

환경 A: 한국 식당에서 김치를 먹습니다. (김치 + 밥)
환경 B: 일본 식당에서 김치를 먹습니다. (김치 + 밥)
환경 C: 미국 식당에서 김치를 먹습니다. (김치 + 밥)

여기서 김치는 변하지 않는 핵심 재료 (불변 특징) 입니다. 하지만 밥이나 접시는 식당마다 다릅니다 (환경적 특징).

기존의 AI 는 "김치가 맛있는 이유"를 배우려다 보면, 실수로 "접시가 하얀색일 때 맛있는 거야!"라고 착각할 수 있습니다. (김치와 접시 색이 우연히 겹쳐서 학습된 것). 이렇게 되면 접시가 검은색인 새로운 식당 (테스트 환경) 에 가면 김치가 맛이 없다고 판단해 버립니다.

이 논문은 **"정답 (김치가 맛있는지 아닌지) 을 알려주는 사람이 없어도, 여러 식당 (환경) 에서 공통적으로 변하지 않는 '김치'의 본질만 찾아내라"**고 말합니다.

2. 제안된 두 가지 방법

저자들은 이 문제를 해결하기 위해 두 가지 도구를 만들었습니다.

① PICA (주성분 불변 분석): "변하지 않는 축 찾기"

비유: 여러 개의 카메라로 같은 장면을 찍었을 때, 카메라 각도나 조명 (환경) 은 다르지만 사물의 **실루엣 (핵심)**은 같습니다.
원리: 수학적으로 데이터의 '변동'을 분석합니다. 환경마다 달라지는 부분 (조명, 배경) 은 버리고, 모든 환경에서 똑같이 유지되는 방향 (실루엣) 만 골라냅니다.
효과: 잡음 (환경적 요소) 을 제거하고 진짜 핵심 데이터만 남기는 필터 역할을 합니다.

② VIAE (변분 불변 오토인코더): "분리된 잠금장치가 있는 사진관"

비유: 이 모델은 두 개의 잠금장치가 달린 사진관입니다.
1. 불변 잠금 (Invariant): 사람의 얼굴 모양, 표정, 자세 (변하지 않는 것).
2. 환경 잠금 (Environment): 배경, 조명, 의상 (바뀌는 것).
작동 방식:
- 사진을 입력하면 AI 는 얼굴 (불변) 과 배경 (환경) 을 분리합니다.
- 생성: "이 사람의 얼굴을 유지하되, 배경을 사막에서 해변으로 바꿔줘"라고 하면, 얼굴은 그대로고 배경만 바뀐 사진을 만들어냅니다.
- 이동 (Environment Transfer): 한국 식당에서 찍은 김치 사진을 일본 식당 스타일로 바꾸되, 김치 자체는 그대로 유지할 수 있습니다.

3. 왜 이것이 중요한가요? (실제 효과)

이 연구는 라벨이 없는 데이터만으로도 AI 가 환경 변화에 강한 (Robust) 지능을 가질 수 있음을 증명했습니다.

실험 결과:
- 숫자 인식 (MNIST): 숫자 '3'을 배경색이나 위치에 상관없이 정확히 인식합니다.
- 얼굴 인식 (CelebA): 남성과 여성이라는 '환경'을 분리하여, 성별을 바꾸지 않고도 얼굴의 핵심 특징 (표정, 얼굴형) 을 유지하며 이미지를 변형할 수 있었습니다.
- 공정성 (Fairness): 인종이나 성별 같은 민감한 정보 (환경적 요소) 를 배제하고, 오직 능력이나 자격 (불변 요소) 만으로 판단할 수 있는 공정한 AI 를 만드는 데 기여할 수 있습니다.

4. 요약: 한 문장으로 정리하면?

"정답이 없어도, 여러 다른 상황 (환경) 에서 변하지 않는 '진짜 핵심'만 골라내는 AI 를 만들었습니다. 마치 여러 나라의 식당에서 '김치'의 맛만 추출해내는 요리사처럼 말이죠."

이 기술은 라벨을 구하기 어렵거나 비싼 분야 (의료, 자율주행 등) 에서 AI 가 새로운 상황에도 유연하게 적응할 수 있는 길을 열어줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경: 기존 불변 위험 최소화 (Invariant Risk Minimization, IRM) 는 라벨이 있는 데이터를 활용하여 분포 변화 (Distribution Shift) 에 강건한 표현을 학습하는 데 중점을 둡니다. IRM 은 여러 환경 (Environment) 에서 일관된 예측을 수행하는 불변 특징 (Invariant Features) 을 찾고, 환경에 의존적인 특징 (Spurious Features) 을 필터링하는 것을 목표로 합니다.
한계: 기존 IRM 방법론은 학습에 라벨 (Y) 이 필수적입니다. 그러나 실제 응용 분야에서는 라벨 획득이 어렵거나 비용이 많이 드는 경우가 많습니다.
핵심 문제: 라벨 없이도 여러 환경에서 분포가 다른 레이블 없는 데이터 (Unlabeled Data) 로부터 환경에 불변하는 표현 (Invariant Representation) 을 학습할 수 있는가? 즉, 라벨에 의존하지 않고 어떻게 "불변성 (Invariance)"을 정의하고 학습할 것인가?

2. 제안 방법론 (Methodology)

저자들은 라벨이 없는 설정에서 불변성을 정의하기 위해 새로운 구조적 인과 모델 (Unsupervised Structural Causal Model, SCM) 을 제안하고, 이를 기반으로 두 가지 알고리즘을 개발했습니다.

2.1. 핵심 개념: 비지도 IRM 최적화

목표: 학습된 특징 $\phi(X)$ $ϕ (X)$ 의 분포가 모든 환경 $e$ $e$ 에서 동일하도록 제약 조건을 두면서, 데이터의 로그 가능도 (Log-likelihood) 를 최대화합니다.
- $\max_\theta \sum \log P_\theta(X|\phi(X))$
- 제약 조건: $P_\theta^{e_1}(\phi(X)) = P_\theta^{e_2}(\phi(X))$ (모든 환경에서 특징 분포가 일치해야 함).
인과적 구조: 잠재 공간 (Latent Space) 을 불변 성분 ( $Z_{inv}$ ) 과 환경 의존 성분 ( $Z_e$ ) 으로 분리합니다. $Z_{inv}$ 는 환경에 무관하며, $Z_e$ 는 환경별 분포 변화를 담당합니다.

2.2. 제안 알고리즘 1: PICA (Principal Invariant Component Analysis)

특징: 선형 (Linear) 및 가우시안 (Gaussian) 가정을 기반으로 한 차원 축소 방법입니다.
원리:
1. 각 환경의 공분산 행렬 ( $\Sigma_x^e$ ) 을 계산합니다.
2. 환경 간 공분산의 차이 ( $\Sigma_x^i - \Sigma_x^j$ ) 가 0 이 되는 방향 (Null Space) 을 찾아 환경 의존적인 차원을 제거합니다.
3. 이 Null Space 내에서 전체 환경의 공분산 합 ( $\Sigma_x^i + \Sigma_x^j$ ) 을 최대화하는 주성분을 선택하여 불변 방향을 추출합니다.
결과: 환경에 따라 변하는 분산은 제거하고, 환경 간에 공유되는 불변 분산 방향을 보존합니다.

2.3. 제안 알고리즘 2: VIAE (Variational Invariant Autoencoder)

특징: 심층 생성 모델 (Deep Generative Model) 로, VAE 아키텍처를 IRM 에 맞게 수정한 것입니다.
아키텍처:
- 공유 인코더 (Invariant Encoder): 입력 $X$ 와 환경별 잠재 변수 $Z_e$ 를 받아 불변 잠재 변수 $Z_{inv}$ 를 생성합니다. (모든 환경에서 파라미터 공유)
- 환경별 인코더 (Environmental Encoders): 각 환경 $e$ 에 대해 전용 인코더를 가지며, $X$ 를 받아 환경 의존 잠재 변수 $Z_e$ 를 생성합니다.
- 디코더 (Decoder): $Z_{inv}$ 와 $Z_e$ 를 결합하여 원본 데이터 $X$ 를 재구성합니다.
인과적 제약:
- $Z_{inv}$ 는 환경 $e$ 와 조건부 독립입니다.
- 디코더는 환경 정보를 명시적으로 입력받지 않으며, 오직 $Z_{inv}$ 와 $Z_e$ 만을 통해 생성을 수행합니다. 이는 생성 메커니즘이 환경에 무관하다는 인과적 가정을 반영합니다.

3. 주요 기여 (Key Contributions)

비지도 IRM 프레임워크 정립: 라벨 없이도 분포 변화에 강건한 표현을 학습할 수 있는 새로운 이론적 틀과 최적화 문제를 제시했습니다.
새로운 SCM 모델 제안: 비지도 설정에 적합한 인과적 생성 모델을 정의하여, 불변 특징과 환경 특징의 분리를 가능하게 했습니다.
두 가지 실용적 알고리즘 개발:
- PICA: 선형/가우시안 가정 하에서 해석 가능한 불변 주성분 추출.
- VIAE: 복잡한 비선형 데이터에서 잠재 공간 분리 및 생성/전송이 가능한 심층 모델.
환경 전송 (Environment Transfer) 가능성 증명: 학습된 환경뿐만 아니라 보지 못한 환경 (Unseen Environments) 에서도 데이터를 특정 타겟 환경으로 변환 (Transfer) 하여 분포 정렬을 수행할 수 있음을 보였습니다.

4. 실험 결과 (Results)

데이터셋: 합성 데이터, MNIST 변형 (SMNIST, SCMNIST), CelebA (얼굴 데이터).
성능 평가:
- 불변성 검증: VIAE 의 불변 인코더 ( $Z_{inv}$ ) 에서 추출된 특징으로 라벨 (숫자) 을 분류하는 데 높은 정확도 (약 83-84%) 를 보인 반면, 환경 의존 특징 ( $Z_e$ ) 으로 분류하면 성능이 급격히 떨어졌습니다. 반대로 환경 분류는 $Z_e$ 에서 100% 정확도를 보여 잠재 공간의 성공적인 분리를 입증했습니다.
- 샘플 생성: 고정된 $Z_{inv}$ (예: 숫자 모양) 에 대해 다양한 $Z_e$ 를 입력하면, 환경별 특징 (예: 배경 색상, 사각형 위치) 은 변하지만 숫자 자체는 유지되는 샘플이 생성되었습니다.
- 환경 전송: 한 환경 (예: 파란색 배경) 의 이미지를 다른 환경 (예: 빨간색 배경) 으로 변환하되, 핵심 내용 (숫자) 은 보존하는 데 성공했습니다. 특히 훈련 데이터에 없던 환경 (Unseen) 으로도 전송이 가능한지 실험했으며, 훈련 환경이 충분히 다양할 경우 유효함을 보였습니다.
- 공정성 (Fairness) 적용: CelebA 데이터셋에서 '성별'을 환경 특징으로, '얼굴 구조/표정'을 불변 특징으로 분리하여 성별을 변경하되 신원 정보는 유지하는 생성 실험을 수행했습니다.

5. 의의 및 결론 (Significance & Conclusion)

라벨 없는 시대의 IRM: 라벨이 부족하거나 비싼 상황에서 분포 변화에 강건한 모델을 학습할 수 있는 새로운 길을 열었습니다.
인과적 해석 가능성: 제안된 모델은 인과적 구조를 명시적으로 모델링하여, 왜 특정 특징이 불변인지에 대한 해석 가능성을 제공합니다.
응용 분야 확장:
- 공정성 (Fairness): 민감한 속성 (성별, 인종 등) 을 환경 특징으로 간주하여 편향을 제거하는 공정한 표현 학습에 적용 가능합니다.
- 도메인 적응 (Domain Adaptation): 라벨이 없는 소스/타겟 도메인 간 전송 학습에 활용 가능합니다.
향후 과제: 보지 못한 환경 (Unseen Environment) 으로의 전송을 위한 메타러닝 (Meta-learning) 접근법 도입 및 더 복잡한 생성 모델 (Diffusion, GAN) 로의 확장이 필요하다고 제안합니다.

이 논문은 IRM 연구의 지평을 넓혀, 라벨에 의존하지 않는 불변 표현 학습의 이론적 기반과 실용적 도구를 제공했다는 점에서 중요한 의미를 가집니다.