MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling

이 논문은 구조와 외관을 분리하여 3D 구조 트랜스포머와 인간 인식 동적 제어 모듈을 통해 복잡한 인간 운동과 환경 상호작용을 포함한 고품질 인간 비디오 생성을 가능하게 하는 'MoSA' 모델과 대규모 데이터셋을 제안합니다.

Haoyu Wang, Hao Tang, Donglin Di, Zhilu Zhang, Wangmeng Zuo, Feng Gao, Siwei Ma, Shiliang Zhang

게시일 2026-02-25
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

MoSA: 사람 영상을 만드는 새로운 방식 (쉽게 설명한 MoSA 논문)

이 논문은 **"텍스트로 사람 영상을 만들 때, 몸의 움직임이 어색하거나 비현실적으로 나오는 문제를 해결한 새로운 기술"**을 소개합니다. 기존 AI 들은 사람의 얼굴이나 옷감 같은 '외모'는 잘 만들지만, 걷거나 뛰는 '움직임'을 만들 때 팔다리가 뚝 떨어지거나 물체를 뚫고 지나가는 기괴한 현상이 자주 발생했습니다.

저희는 이를 **'모자 (MoSA)'**라고 이름 붙였는데, 마치 건축가인테리어 디자이너가 따로 일하는 것처럼 **구조 (움직임)**와 **외관 (화면)**을 분리해서 만드는 방식을 제안합니다.


1. 왜 기존 방식은 실패했을까요? (기존의 문제점)

기존의 AI 영상 생성 모델들은 마치 아이스크림을 한 번에 쏟아붓는 것과 비슷했습니다. "사람이 달린다"라고 입력하면, AI 는 얼굴, 옷, 배경, 그리고 다리가 움직이는 모습을 동시에 한 번에 만들어내려 했습니다.

하지만 문제는 아이스크림이 녹아내리듯, 복잡한 동작을 할 때 구조가 무너진다는 점입니다.

  • 비유: 마치 **무거운 돌덩이 (복잡한 동작)**를 들고 있는 **약한 종이 인형 (기존 모델)**을 생각해보세요. 종이 인형은 얼굴은 예쁘게 그려져 있지만, 돌을 들려고 하면 팔이 꺾이거나 몸이 찢어집니다.
  • 결과: 팔다리가 뒤집히거나, 벽을 뚫고 지나가는 등 물리 법칙을 무시한 기괴한 영상이 나옵니다.

2. MoSA 의 해결책: "구조"와 "외관"을 분리하다

MoSA 는 이 문제를 해결하기 위해 두 단계로 나누는 전략을 사용합니다.

1 단계: 건축가가 뼈대를 짓다 (구조 생성)

먼저, **3D 구조 트랜스포머 (3D Structure Transformer)**라는 '건축가'가 나옵니다.

  • 역할: 텍스트 ("사람이 계단을 뛰어오른다") 를 보고, 사람의 **3D 뼈대 (키포인트)**를 먼저 만듭니다.
  • 왜 3D 인가요? 2D 그림만 보면 팔이 뒤에 있는지 앞에 있는지 알 수 없지만, 3D 공간에서는 깊이 (Depth) 정보를 알 수 있어 팔이 가려져도 자연스럽게 다리를 연결할 수 있습니다.
  • 비유: 마치 **인형극의 대본과 인형의 뼈대 (조형)**를 먼저 완벽하게 준비하는 단계입니다. "이 인형이 어떻게 움직일지"를 먼저 확실히 정해두는 거죠.

2 단계: 인테리어 디자이너가 살을 붙이다 (외관 생성)

뼈대가 완성되면, 이제 외관 생성 모델이 나옵니다.

  • 역할: 위에서 만든 '뼈대'를 가이드로 삼아, 피부, 옷, 배경, 조명 등 실제 영상을 채워 넣습니다.
  • 핵심 기술 (HADC): 뼈대는 가늘고 희미한 선 (스케치) 일 뿐입니다. 이를 바탕으로 살을 붙일 때, "이 부분은 사람이니까 더 자세히, 저 부분은 배경이니까 흐릿하게" 처리하는 지능형 컨트롤을 적용합니다.
  • 비유: 뼈대 위에 살을 붙이고 옷을 입히는 과정입니다. 뼈대가 흔들리지 않도록 단단히 고정해줍니다.

3. 특별한 기술들: 현실감을 높이는 비법

이 논문에는 구조와 외관을 더 완벽하게 연결하는 세 가지 '비법'이 있습니다.

  1. 밀착된 추적 (Dense Tracking Loss):

    • 비유: 영상 속 사람의 눈, 코, 팔, 다리 등 모든 점을 카메라가 쫓아다니며 "이게 움직였으니 저것도 따라 움직여야 해"라고 가르치는 것입니다.
    • 효과: 사람이 걸을 때 발이 땅에 닿는 순간부터 다시 떨어질 때까지, 부자연스러운 떨림 없이 매끄럽게 움직이게 합니다.
  2. 접촉 제약 (Contact Constraint):

    • 비유: 사람이 계단이나 의자에 발을 올릴 때, 발이 의자 안으로 파고들지 않도록 AI 에게 "발은 표면에 닿아야 한다"는 규칙을 강제합니다.
    • 효과: 사람이 물체를 통과하거나, 발이 공중에 떠 있는 어색한 상황을 막아줍니다.
  3. 새로운 데이터셋 (MoVid):

    • 문제: 기존에 있던 데이터들은 대부분 '얼굴 표정'이나 '상체 춤' 위주였습니다.
    • 해결: 연구팀은 3 만 개 이상의 복잡한 전신 운동 영상 (달리기, 점프, 장애물 넘기 등) 으로 구성된 새로운 데이터셋 MoVid를 만들었습니다.
    • 비유: 기존에는 '얼굴 표정 연습'만 한 배우에게 '전신 무술'을 시켰던 것이라면, 이제는 전신 무술을 전문으로 훈련한 배우를 기용한 것입니다.

4. 결론: 왜 이것이 중요한가요?

MoSA 는 **"움직임의 논리 (구조)"**와 **"화면의 아름다움 (외관)"**을 분리해서 각각 최적화한 뒤 다시 합쳤습니다.

  • 기존 방식: "예쁜 얼굴을 만들면서 동시에 복잡한 춤을 추게 하려다" 실패.
  • MoSA 방식: "먼저 춤 동작을 완벽하게 설계 (뼈대) 하고, 그 위에 예쁜 옷과 배경을 입혀 완성."

이 덕분에 팔다리가 뚝 떨어지거나, 벽을 뚫고 지나가는 기괴한 영상이 사라지고, 물리 법칙을 따르는 자연스러운 사람 영상을 텍스트로 쉽게 만들 수 있게 되었습니다. 마치 현실 세계의 물리 법칙을 완벽하게 이해한 디지털 배우가 무대에 선 것과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →