Disentangled Hierarchical VAE for 3D Human-Human Interaction Generation

이 논문은 물리적 타당성과 상호작용 의미론을 동시에 고려하여 3D 인간 - 인간 상호작용을 생성하기 위해, CoTransformer 모듈을 통해 전역 상호작용 맥락과 개별 운동 패턴을 분리하고 대비 학습을 적용한 계층적 잠재 확산 모델 (DHVAE) 을 제안합니다.

Zichen Geng, Zeeshan Hayder, Bo Miao, Jian Liu, Wei Liu, Ajmal Mian

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"두 사람이 함께 춤추거나 악수할 때, 그 자연스러운 움직임을 AI 가 어떻게 더 잘 만들어낼 수 있을까?"**에 대한 해답을 제시합니다.

기존의 AI 들은 두 사람의 움직임을 하나의 큰 덩어리로만 생각해서, 때로는 서로의 손이 뚫고 지나가거나 (관통), 악수할 때 손을 맞대지 못하는 어색한 상황을 만들어냈습니다. 이 논문은 이를 해결하기 위해 DHVAE라는 새로운 시스템을 제안합니다.

이 복잡한 기술을 쉽게 이해할 수 있도록 **'오케스트라 지휘자'**와 **'레고'**에 비유해서 설명해 드릴게요.


1. 문제점: "혼란스러운 합창단"

기존의 AI 모델들은 두 사람의 움직임을 만들 때, 마치 모든 악기 소리를 하나로 섞어 녹음하는 것과 같았습니다.

  • 문제: A 사람이 손을 뻗는 동작과 B 사람이 그 손을 잡는 동작이 섞여버려서, AI 가 "누가 무엇을 해야 하는지"를 정확히 구분하지 못했습니다.
  • 결과: 악수할 때 손이 공중에 떠 있거나, 두 사람의 몸이 서로 겹쳐서 뚫고 지나가는 (물리적으로 불가능한) 기괴한 영상이 만들어졌습니다.

2. 해결책: "명확한 역할 분담" (DHVAE)

이 논문이 제안한 DHVAE는 두 사람의 움직임을 세 가지 레고 블록으로 나누어 관리합니다.

  1. A 사람의 블록 (개인 운동): A 만의 고유한 춤 동작이나 걸음걸이.
  2. B 사람의 블록 (개인 운동): B 만의 고유한 움직임.
  3. 공유 블록 (상호작용): 두 사람이 서로 어떻게 반응할지 정하는 '지휘자' 역할.

이 세 가지를 따로따로 분리해서 (Disentangled) 학습시킴으로써, AI 는 "A 가 손을 뻗으면 B 는 자연스럽게 맞잡아야 한다"는 맥락을 훨씬 잘 이해하게 됩니다. 마치 오케스트라에서 지휘자가 전체 흐름을 잡고, 각 악기 연주자는 자신의 파트를 완벽하게 소화하는 것과 같습니다.

3. 핵심 기술 1: "거울 보기" (대비 학습)

두 사람이 악수할 때, 손이 맞닿아야 자연스럽습니다. 하지만 AI 는 처음엔 이를 잘 모릅니다.

  • 방법: 연구진은 AI 에게 **"맞은 손 (옳은 것)"**과 **"맞지 않은 손 (틀린 것)"**을 보여주고 비교하게 했습니다.
    • 옳은 예: 두 손이 딱 붙어 있는 모습.
    • 틀린 예: 손이 10cm 떨어져 있거나, 서로 관통하는 모습.
  • 효과: AI 는 "아, 손이 닿아야 '악수'구나!"라고 스스로 배우게 됩니다. 이를 통해 물리적으로 불가능한 장면 (관통 등) 을 막아주고, 실제 인간처럼 자연스러운 접촉을 만들어냅니다.

4. 핵심 기술 2: "고급 필터" (확산 모델)

AI 가 움직임을 만들어내는 과정은 마치 흐린 그림을 점점 선명하게 만드는 과정과 같습니다.

  • 이 논문은 그 흐린 그림을 정리하는 과정에서 **세부적인 구조 (위치, 크기)**를 잃지 않도록 특별한 기술 (AdaLN-Transformer) 을 사용했습니다.
  • 덕분에 텍스트 명령 ("악수해라", "춤추자") 을 입력하면, 그 명령에 딱 맞는 매우 사실적이고 정확한 3D 애니메이션이 만들어집니다.

5. 왜 이것이 중요한가요?

  • 더 현실적인 가상 세계: 게임 속 캐릭터나 영화 속 CG 가 서로 상호작용할 때, 더 이상 어색하지 않고 자연스럽게 움직입니다.
  • 로봇과의 협업: 인간과 로봇이 함께 물건을 옮기거나 악수할 때, 로봇이 인간의 움직임을 예측하고 안전하게 반응할 수 있게 됩니다.
  • 효율성: 기존에 거대한 컴퓨터가 필요했던 작업을, 훨씬 가볍고 빠른 모델로 처리할 수 있게 되었습니다.

요약

이 논문은 **"두 사람이 함께 움직이는 복잡한 춤을 가르칠 때, 각자의 동작과 서로의 관계를 따로따로 가르쳐주면 AI 가 훨씬 더 똑똑하고 자연스러운 춤을 춘다"**는 것을 증명했습니다.

기존의 AI 가 두 사람의 움직임을 '뭉개서' 만들었다면, 이제는 **'분리해서 조율'**하여 물리 법칙을 지키고 의미 있는 상호작용을 만들어내는 시대가 왔습니다.