Each language version is independently generated for its own context, not a direct translation.

MoSA: 사람 영상을 만드는 새로운 방식 (쉽게 설명한 MoSA 논문)

이 논문은 **"텍스트로 사람 영상을 만들 때, 몸의 움직임이 어색하거나 비현실적으로 나오는 문제를 해결한 새로운 기술"**을 소개합니다. 기존 AI 들은 사람의 얼굴이나 옷감 같은 '외모'는 잘 만들지만, 걷거나 뛰는 '움직임'을 만들 때 팔다리가 뚝 떨어지거나 물체를 뚫고 지나가는 기괴한 현상이 자주 발생했습니다.

저희는 이를 **'모자 (MoSA)'**라고 이름 붙였는데, 마치 건축가와 인테리어 디자이너가 따로 일하는 것처럼 **구조 (움직임)**와 **외관 (화면)**을 분리해서 만드는 방식을 제안합니다.

1. 왜 기존 방식은 실패했을까요? (기존의 문제점)

기존의 AI 영상 생성 모델들은 마치 아이스크림을 한 번에 쏟아붓는 것과 비슷했습니다. "사람이 달린다"라고 입력하면, AI 는 얼굴, 옷, 배경, 그리고 다리가 움직이는 모습을 동시에 한 번에 만들어내려 했습니다.

하지만 문제는 아이스크림이 녹아내리듯, 복잡한 동작을 할 때 구조가 무너진다는 점입니다.

비유: 마치 **무거운 돌덩이 (복잡한 동작)**를 들고 있는 **약한 종이 인형 (기존 모델)**을 생각해보세요. 종이 인형은 얼굴은 예쁘게 그려져 있지만, 돌을 들려고 하면 팔이 꺾이거나 몸이 찢어집니다.
결과: 팔다리가 뒤집히거나, 벽을 뚫고 지나가는 등 물리 법칙을 무시한 기괴한 영상이 나옵니다.

2. MoSA 의 해결책: "구조"와 "외관"을 분리하다

MoSA 는 이 문제를 해결하기 위해 두 단계로 나누는 전략을 사용합니다.

1 단계: 건축가가 뼈대를 짓다 (구조 생성)

먼저, **3D 구조 트랜스포머 (3D Structure Transformer)**라는 '건축가'가 나옵니다.

역할: 텍스트 ("사람이 계단을 뛰어오른다") 를 보고, 사람의 **3D 뼈대 (키포인트)**를 먼저 만듭니다.
왜 3D 인가요? 2D 그림만 보면 팔이 뒤에 있는지 앞에 있는지 알 수 없지만, 3D 공간에서는 깊이 (Depth) 정보를 알 수 있어 팔이 가려져도 자연스럽게 다리를 연결할 수 있습니다.
비유: 마치 **인형극의 대본과 인형의 뼈대 (조형)**를 먼저 완벽하게 준비하는 단계입니다. "이 인형이 어떻게 움직일지"를 먼저 확실히 정해두는 거죠.

2 단계: 인테리어 디자이너가 살을 붙이다 (외관 생성)

뼈대가 완성되면, 이제 외관 생성 모델이 나옵니다.

역할: 위에서 만든 '뼈대'를 가이드로 삼아, 피부, 옷, 배경, 조명 등 실제 영상을 채워 넣습니다.
핵심 기술 (HADC): 뼈대는 가늘고 희미한 선 (스케치) 일 뿐입니다. 이를 바탕으로 살을 붙일 때, "이 부분은 사람이니까 더 자세히, 저 부분은 배경이니까 흐릿하게" 처리하는 지능형 컨트롤을 적용합니다.
비유: 뼈대 위에 살을 붙이고 옷을 입히는 과정입니다. 뼈대가 흔들리지 않도록 단단히 고정해줍니다.

3. 특별한 기술들: 현실감을 높이는 비법

이 논문에는 구조와 외관을 더 완벽하게 연결하는 세 가지 '비법'이 있습니다.

밀착된 추적 (Dense Tracking Loss):
- 비유: 영상 속 사람의 눈, 코, 팔, 다리 등 모든 점을 카메라가 쫓아다니며 "이게 움직였으니 저것도 따라 움직여야 해"라고 가르치는 것입니다.
- 효과: 사람이 걸을 때 발이 땅에 닿는 순간부터 다시 떨어질 때까지, 부자연스러운 떨림 없이 매끄럽게 움직이게 합니다.
접촉 제약 (Contact Constraint):
- 비유: 사람이 계단이나 의자에 발을 올릴 때, 발이 의자 안으로 파고들지 않도록 AI 에게 "발은 표면에 닿아야 한다"는 규칙을 강제합니다.
- 효과: 사람이 물체를 통과하거나, 발이 공중에 떠 있는 어색한 상황을 막아줍니다.
새로운 데이터셋 (MoVid):
- 문제: 기존에 있던 데이터들은 대부분 '얼굴 표정'이나 '상체 춤' 위주였습니다.
- 해결: 연구팀은 3 만 개 이상의 복잡한 전신 운동 영상 (달리기, 점프, 장애물 넘기 등) 으로 구성된 새로운 데이터셋 MoVid를 만들었습니다.
- 비유: 기존에는 '얼굴 표정 연습'만 한 배우에게 '전신 무술'을 시켰던 것이라면, 이제는 전신 무술을 전문으로 훈련한 배우를 기용한 것입니다.

4. 결론: 왜 이것이 중요한가요?

MoSA 는 **"움직임의 논리 (구조)"**와 **"화면의 아름다움 (외관)"**을 분리해서 각각 최적화한 뒤 다시 합쳤습니다.

기존 방식: "예쁜 얼굴을 만들면서 동시에 복잡한 춤을 추게 하려다" 실패.
MoSA 방식: "먼저 춤 동작을 완벽하게 설계 (뼈대) 하고, 그 위에 예쁜 옷과 배경을 입혀 완성."

이 덕분에 팔다리가 뚝 떨어지거나, 벽을 뚫고 지나가는 기괴한 영상이 사라지고, 물리 법칙을 따르는 자연스러운 사람 영상을 텍스트로 쉽게 만들 수 있게 되었습니다. 마치 현실 세계의 물리 법칙을 완벽하게 이해한 디지털 배우가 무대에 선 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 비디오 생성 모델들은 텍스트나 이미지 프롬프트에서 인간이 포함된 비디오를 생성할 때 다음과 같은 한계를 가지고 있습니다:

구조적 비일관성: 복잡한 전신 운동 (whole-body movements), 장거리 이동, 그리고 인간과 환경 간의 상호작용 (예: 계단 오르기, 물체와의 접촉) 을 구현할 때 인체의 해부학적 구조가 왜곡되거나 물리적으로 불가능한 동작이 자주 발생합니다.
외관 중심의 편향: 기존 모델들은 주로 픽셀 공간에서의 노이즈 재구성 목표를 통해 학습되어 외관 (Appearance) 의 충실도는 높지만, 구조적 일관성 (Structural Coherence) 과 운동의 자연스러움은 부족합니다.
데이터 부족: 기존 인간 비디오 데이터셋 (HumanVid, CelebV 등) 은 주로 얼굴이나 상반신 움직임에 집중되어 있거나, 춤과 같은 단순한 동작 위주로 구성되어 있어 복잡한 전신 운동을 학습하기 어렵습니다.

2. 제안 방법 (Methodology: MoSA)

저자들은 구조 - 외관 분리 (Structure-Appearance Decoupling) 패러다임을 도입하여 MoSA (Motion-Coherent Human Video Generation via Structure-Appearance Decoupling) 를 제안했습니다. 이 프레임워크는 비디오 생성 과정을 두 가지 주요 단계로 나눕니다.

가. 구조 생성 브랜치 (Structure Generation Branch)

목표: 텍스트 프롬프트에 기반한 인간의 3D 운동 구조를 생성합니다.
3D 구조 트랜스포머 (3D Structure Transformer): 텍스트 프롬프트 (운동 관련 정보만 추출된 $p'$ $p^{'}$ ) 를 입력받아 3D 인간 키 포인트 (Keypoints) 시퀀스를 생성합니다.
- 3D 의 이점: 직접 2D 스�keleton 을 생성하는 대신 3D 공간에서 생성함으로써, 팔다리가 가려지는 (occlusion) 상황에서도 깊이 정보를 활용하여 구조적 타당성을 유지합니다. 또한, 대규모 운동 데이터셋으로 사전 학습된 인간 선형 (Human Priors) 을 활용하여 해부학적으로 타당한 구조를 보장합니다.
프로젝션: 생성된 3D 키 포인트 시퀀스를 2D 스�keleton 시퀀스로 변환하여 외관 생성을 위한 구조적 가이드 ( $g_s$ ) 로 사용합니다.

나. 외관 생성 브랜치 (Appearance Generation Branch)

목표: 생성된 구조적 가이드 ( $g_s$ ) 와 텍스트 프롬프트를 조건으로 실제 비디오의 외관 (텍스처, 배경, 조명 등) 을 합성합니다.
Human-Aware Dynamic Control (HADC) 모듈:
- 희소한 스�keleton 정보만으로는 미세한 운동 제어가 어렵다는 문제를 해결하기 위해 도입되었습니다.
- 학습 가능한 동적 가중치 예측기 (Dynamic Weight Predictor) 를 사용하여 스�keleton 특징에 대응하는 가중치 맵을 생성합니다.
- 마스크 손실 (Mask Loss): 희소한 구조적 가이드가 전체 운동 영역으로 전파되도록 유도하고, 공간 위치에 따라 동적인 가중치를 부여하여 미세한 운동 제어력을 향상시킵니다.
밀집 추적 손실 (Dense Tracking Loss):
- CoTracker3 등을 활용하여 생성된 비디오의 점 추적 (Point Tracking) 을 수행하고, 이를 Ground Truth 비디오의 추적 경로와 비교합니다.
- 시간 간격이 긴 프레임 쌍에 더 큰 가중치를 부여하여 장거리 운동 의존성 (Long-range motion dependencies) 을 학습하고 운동의 일관성을 강화합니다.
접촉 제약 (Contact Constraint):
- 인간과 환경 간의 상호작용 (예: 바닥에 발이 닿는 것, 물체 통과 방지) 을 물리적으로 타당하게 모델링하기 위해 도입되었습니다.
- 3D 점 구름과 장면 메시 (Mesh) 간의 침투 (Interpenetration) 를 감지하고 이를 패널티로 부과하여 비현실적인 관통 현상을 방지합니다.

3. 주요 기여 (Key Contributions)

구조 - 외관 분리 프레임워크: 인간 비디오 생성을 구조 생성과 외관 생성으로 분리하여, 물리적으로 타당한 운동과 고품질 외관을 동시에 달성하는 새로운 패러다임을 제시했습니다.
고급 제어 모듈 및 손실 함수:
- HADC: 희소한 구조 정보를 밀집된 운동 영역으로 전파하여 미세한 제어력을 높입니다.
- 밀집 추적 손실: 시간적 일관성을 강화합니다.
- 접촉 제약: 인간 - 환경 상호작용의 물리적 타당성을 보장합니다.
대규모 데이터셋 (MoVid):
- 기존 데이터셋의 한계를 극복하기 위해 30,000 개의 고품질 인간 운동 비디오로 구성된 MoVid 데이터셋을 구축했습니다.
- 얼굴/상반신 중심이 아닌 전신 운동, 다양한 배경, 복잡한 동작 (계단 오르기, 스키, 운동 등) 을 포함하며, 정밀한 텍스트 주석과 3D 구조 정보를 제공합니다.

4. 실험 결과 (Results)

정량적 평가: MoSA 는 기존 일반 비디오 생성 모델 (Wan 2.1, HunyuanVideo, CogVideoX 등) 및 인간 비디오 생성/애니메이션 모델과 비교하여 대부분의 지표에서 우수한 성능을 보였습니다.
- FVD (Fréchet Video Distance): 1093 (기존 모델 대비 가장 낮음, 즉 비디오 품질이 우수함).
- CLIP Similarity: 0.3035 (텍스트와 비디오의 일치도가 높음).
- VBench 점수: 주제 일관성, 배경 일관성, 운동 매끄러움, 역동성 등 모든 항목에서 최상위 성능을 기록했습니다.
정성적 평가:
- 복잡한 동작 (스케이팅, 계단 오르기, 물체와의 상호작용) 에서 기존 모델들이 겪는 구조 왜곡 (다리 뒤틀림, 물체 관통 등) 을 MoSA 는 성공적으로 해결했습니다.
- HADC 모듈과 접촉 제약의 효과를 시각적으로 입증하여, 가려진 부분 (Occlusion) 이나 물체와의 접촉 시 자연스러운 생성이 가능함을 보였습니다.
사용자 연구: 운동의 질 (Motion Quality) 과 비디오의 외관 품질 (Video Quality) 모두에서 다른 모델들에 비해 압도적인 선호도를 받았습니다.

5. 의의 및 결론 (Significance)

기술적 혁신: 단순한 외관 생성을 넘어, 물리적으로 타당한 운동 구조를 명시적으로 모델링함으로써 인간 비디오 생성의 핵심 난제인 "운동의 일관성" 문제를 해결했습니다.
데이터의 중요성: 복잡한 인간 운동을 학습하기 위해서는 고품질의 대규모 데이터셋이 필수적임을 증명하고, 이를 위해 MoVid 데이터셋을 공개했습니다.
확장성: 제안된 프레임워크는 Wan 2.1 과 같은 최신 비디오 생성 모델에도 적용 가능하여, 기존 모델의 성능을 크게 향상시킬 수 있는 범용적인 접근법임을 입증했습니다.
미래 전망: 손가락 관절과 같은 더 세밀한 구조적 제어를 위한 연구 방향을 제시하며, 향후 더 정교한 인간 - 환경 상호작용 생성을 위한 기반을 마련했습니다.

이 논문은 텍스트 기반 인간 비디오 생성 분야에서 구조적 정확성과 시각적 충실도를 동시에 달성한 새로운 표준을 제시했다는 점에서 중요한 의의를 가집니다.

MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling