Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

이 논문은 대규모 멀티모달 데이터의 복잡성을 포착하기 위해 DAG 를 넘어선 잠재적 부분 인과 모델을 제안하고, 통계적 식별성을 통해 멀티모달 대비 학습 (MMCL) 이 잠재 변수를 학습한다는 이론적 근거를 제시하여 CLIP 과 같은 사전 훈련 모델의 표현 분리 및 도메인 일반화 능력을 입증합니다.

Yuhang Liu, Zhen Zhang, Dong Gong, Erdun Gao, Biwei Huang, Mingming Gong, Anton van den Hengel, Kun Zhang, Javen Qinfeng Shi

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "하나의 지도로는 세상을 다 그릴 수 없다" (DAG 의 한계)

기존의 AI 연구자들은 세상을 이해할 때 **'방향성 있는 화살표 (DAG, 유방향 비순환 그래프)'**라는 지도를 사용했습니다.

  • 비유: "원인 (A) → 결과 (B)"라는 단순한 인과 관계를 그리는 지도입니다. 예를 들어, "비가 온다 (A) → 땅이 젖는다 (B)"처럼요.

하지만 현실의 데이터, 특히 **이미지와 텍스트가 짝을 이룬 데이터 (예: 사진과 설명글)**는 훨씬 복잡합니다.

  • 상황: 어떤 사진은 "글을 보고 그림을 그리는 (Text-to-Image)" 방식으로 만들어졌고, 어떤 사진은 "그림을 보고 글을 쓴 (Image-to-Text)" 방식으로 만들어졌습니다.
  • 문제: 이 두 가지 과정은 화살표 방향이 정반대입니다. 기존의 '하나의 지도 (DAG)'로는 이 서로 다른 방향의 흐름을 한 번에 설명하기 어렵습니다. 마치 북쪽을 가리키는 나침반과 남쪽을 가리키는 나침반을 하나로 합치려다 방향을 잃는 것과 같습니다.

2. 해결책: "서로 손을 맞잡은 쌍둥이" (잠재적 부분 인과 모델)

저자들은 이 문제를 해결하기 위해 **'잠재적 부분 인과 모델 (Latent Partial Causal Model)'**이라는 새로운 개념을 제안합니다.

  • 핵심 아이디어: 이미지와 텍스트는 각각 고유한 특징 (mx, mt) 을 가지고 있지만, 그 이면에는 **서로 손을 맞잡고 있는 '쌍둥이' 같은 공통된 의미 (zx, zt)**가 숨어 있습니다.
  • 비유:
    • **이미지 (x)**와 **텍스트 (t)**는 겉모습이 다른 두 사람입니다.
    • **공통된 의미 (zx, zt)**는 두 사람이 공유하는 '마음'이나 '생각'입니다.
    • 기존 모델은 이 마음들이 어떻게 만들어졌는지 화살표로 설명하려 했지만, 저자들은 **"이 두 마음은 서로 연결되어 있다 (Undirected Edge)"**고 봅니다. 방향이 정해져 있지 않아도, 서로가 서로를 이해하고 있다는 사실만으로도 충분하다는 것입니다.

3. 왜 CLIP 같은 AI 는 잘 작동할까? (이론적 증명)

우리가 이미 알고 있는 CLIP 같은 AI 는 수많은 이미지와 텍스트 쌍을 비교하며 학습합니다 (대조 학습, Contrastive Learning).

  • 기존 의문: "왜 이렇게 단순하게 '비슷한 것끼리 붙이고 다른 것은 떼어놓는' 학습을 시키면, AI 가 세상을 잘 이해하게 될까?"
  • 이 논문의 발견: 저자들은 수학적으로 증명했습니다. **"CLIP 이 학습한 결과물은, 사실 우리가 찾고 있던 그 '숨겨진 마음 (잠재 변수)'과 거의 똑같다"**는 것입니다.
    • 비유: AI 가 학습한 결과물은 마치 '혼합된 주스'처럼 보이지만, 실제로는 '과일 (공통 의미)'과 '물 (노이즈)'이 섞여 있을 뿐입니다. 이 논리는 "CLIP 이 학습을 잘하면, 그 주스에서 진짜 과일만 골라낼 수 있다"는 것을 수학적으로 보장해 줍니다.

4. 실전: "혼합된 주스에서 과일만 골라내다" (분리, Disentanglement)

이론이 증명되었으니, 이제 실전에 적용해 봅니다. AI 가 배운 '혼합된 주스'에서 진짜 의미 (과일) 만 따로 분리해 내는 것입니다.

  • 방법: FastICA라는 도구를 사용합니다.
    • 비유: 여러 가지 향이 섞인 향수를 만들어낸 뒤, 그 향수에서 '장미 향', '바다 향'처럼 각 향기를 따로 분리해 내는 작업입니다.
  • 효과: 이렇게 분리된 '순수한 의미'를 사용하면 AI 는 훨씬 똑똑해집니다.
    • 소량 학습 (Few-shot Learning): 아주 적은 예시만 보여줘도 새로운 것을 잘 알아봅니다. (과일만 골라냈으니, 새로운 과일이 와도 '이건 사과구나'라고 바로 알 수 있습니다.)
    • 범용성 (Domain Generalization): 훈련된 환경과 다른 곳 (예: 그림에서 실사 사진으로) 으로 가도 잘 작동합니다.

5. 실험 결과: "이론이 현실이 되다"

저자들은 이 이론이 단순히 책상 위의 수학이 아니라, 실제 CLIP 모델에서도 통한다는 것을 증명했습니다.

  • 얼굴 데이터 (CelebA): AI 가 학습한 데이터에서 '미소', '안경', '머리색' 같은 속성들을 서로 섞이지 않게 분리해 내는 데 성공했습니다.
  • 이미지 인식 (ImageNet): 아주 적은 데이터로 학습했을 때, 기존 방법보다 훨씬 높은 정확도를 보여주었습니다.

요약: 이 논문이 우리에게 주는 메시지

  1. 세상은 단순한 화살표가 아니다: 이미지와 텍스트는 서로 다른 방향에서 만들어질 수 있으므로, 고정된 인과 관계 (DAG) 로만 보면 안 된다.
  2. AI 는 이미 알고 있다: 우리가 만든 AI (CLIP) 는 이미 이 복잡한 관계를 잘 파악하고 있으며, 그 안에 '진짜 의미'가 숨겨져 있다.
  3. 분리하면 더 똑똑해진다: 이 숨겨진 의미들을 '분리 (Disentanglement)'해 내기만 하면, AI 는 적은 데이터로도 더 잘 배우고, 다양한 상황에 더 잘 적응할 수 있다.

한 줄 평: "이 논문은 AI 가 세상을 이해하는 방식이 생각보다 훨씬 유연하며, 우리가 그 '숨겨진 의미'를 잘만 꺼내면 AI 를 훨씬 더 똑똑하고 유연하게 만들 수 있음을 증명했습니다."