CoMoVi: Co-Generation of 3D Human Motions and Realistic Videos

✨

이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'코모비 (CoMoVi)'**라는 새로운 인공지능 기술을 소개합니다. 쉽게 말해, **"한 번에 3D 캐릭터의 움직임과 실제 같은 영상을 동시에 만들어내는 마법 같은 도구"**라고 생각하시면 됩니다.

기존의 기술들은 보통 "글로 설명하면 3D 움직임을 만들고, 그 움직임을 영상으로 바꾼다"거나 "영상을 먼저 만들고 그걸 분석해서 움직임을 찾아냈다"는 식으로 순서대로 (한 단계씩) 작업했습니다. 하지만 이 방식은 한 단계에서 실수가 나면 다음 단계까지 그 실수가 그대로 전달되는 문제가 있었습니다.

코모비는 이 문제를 해결하기 위해 **동시성 (Co-generation)**을 도입했습니다. 마치 쌍둥이가 서로 손을 잡고 동시에 자라는 것과 같습니다.

이제 이 기술이 어떻게 작동하는지 일상적인 비유로 설명해 드릴게요.

1. 핵심 아이디어: "동시 출생"의 쌍둥이

기존 방식은 레고 조립처럼 하나씩 쌓아 올리는 방식이었습니다. 먼저 뼈대 (3D 움직임) 를 만들고, 그 위에 살을 입혀서 (영상) 완성하는 식이죠. 하지만 코모비는 한 번에 두 가지가 태어나는 쌍둥이처럼 작동합니다.

3D 움직임 (뼈대): 캐릭터가 어떻게 움직일지 결정하는 구조적인 뼈대입니다.
2D 영상 (살과 옷): 실제 카메라로 찍은 것처럼 보이는 생생한 영상입니다.

이 두 가지가 동시에 만들어지면서 서로를 도와줍니다.

3D 움직임은 영상이 "인체 구조가 이상하지 않게" (예: 손이 뒤로 꺾이지 않게) 도와주는 건축 설계도 역할을 합니다.
영상 모델은 3D 움직임이 "자연스럽고 다양하게" 움직이도록 도와주는 영감의 원천 역할을 합니다.

2. 가장 큰 난관: "언어 장벽"을 넘기

문제는 3D 움직임 (수학적 좌표) 과 2D 영상 (픽셀 이미지) 은 서로 완전히 다른 언어를 쓴다는 점입니다. 마치 **건축가 (3D)**와 **화가 (2D)**가 서로 다른 말을 하며 대화할 때처럼요.

이를 해결하기 위해 코모비는 **새로운 번역기 (2D 움직임 표현)**를 발명했습니다.

기존에는 3D 움직임을 2D 영상으로 옮길 때, 단순히 뼈대 위치만 보여주거나 (2D 포즈), 표면의 방향만 보여주거나 (정규 맵) 하는 식으로 한쪽 정보만 전달했습니다.
하지만 코모비가 만든 새로운 번역기는 **3D 구조 정보 (얼굴이 어느 쪽을 보고 있는지 등)**와 **신체 부위의 의미 (왼손, 오른손 구분)**를 하나의 **색깔이 있는 그림 (RGB 이미지)**으로 압축합니다.
비유: 마치 3D 인형의 움직임을 색칠한 그림으로 바꾸는 것입니다. 이 그림을 보면 "왼손이 위로 올라갔다"는 의미 (색깔) 와 "손이 위로 향했다"는 3D 방향 (색의 농도) 을 동시에 알 수 있습니다. 이렇게 하면 기존에 훈련된 영상 AI 가 이 그림을 바로 이해하고 활용할 수 있게 됩니다.

3. 작동 방식: "두 개의 브랜치"가 손잡고 춤추기

코모비는 **두 개의 브랜치 (가지)**를 가진 하나의 큰 AI 모델입니다.

영상 브랜치: 실제 같은 영상을 만들어냅니다.
움직임 브랜치: 3D 움직임을 만들어냅니다.

이 두 브랜치는 **서로 끊임없이 대화 (상호 작용)**하며 움직임을 만듭니다.

영상 브랜치가 "이 손 모양이 이상해!"라고 말하면, 움직임 브랜치는 "아, 고쳐야겠다"고 수정합니다.
움직임 브랜치가 "이제 발을 내딛어야 해"라고 말하면, 영상 브랜치는 "알겠어, 발을 내딛는 장면을 그릴게"라고 반응합니다.

이렇게 한 번의 과정 (단일 디퓨징 루프) 안에서 두 가지가 서로를 보완하며 완성되므로, 결과물이 훨씬 자연스럽고 일관성이 있습니다.

4. 새로운 데이터: "코모비 데이터셋"

이 기술을 가르치려면 3D 움직임, 영상, 그리고 설명 글이 모두 완벽하게 맞춰진 데이터가 필요합니다. 하지만 기존에는 이런 데이터가 거의 없었습니다. (영상은 많지만 3D 데이터가 없거나, 3D 데이터는 많지만 영상이 저화질인 식이었습니다.)

연구팀은 직접 5 만 개 이상의 고화질 실사 영상을 모아서, AI 를 이용해 3D 움직임을 재현하고 설명글을 달아 **새로운 데이터셋 (CoMoVi-Dataset)**을 만들었습니다. 이는 이 분야의 '교과서' 역할을 하며, 모델이 더 똑똑하게 학습할 수 있게 했습니다.

5. 요약: 왜 이것이 중요한가요?

기존: 글 → 3D 움직임 → 영상 (또는 그 반대). 실수가 누적되고, 외부에서 움직임을 참조해야 함.
코모비: 글 + 시작 이미지 → 3D 움직임과 영상이 동시에 탄생.
결과:
- 3D 움직임: 더 자연스럽고, 다양한 동작을 잘 따라함.
- 영상: 외부 참조 없이도 인체의 구조가 깨지지 않은 (손이 3 개 달리는 등 이상한 현상 없음) 고품질 영상을 생성.

결론적으로, 코모비는 "3D 움직임"과 "실제 영상"이라는 두 마리 토끼를 동시에 잡을 수 있는 혁신적인 기술입니다. 앞으로 게임, VR, 영화 제작 등에서 캐릭터를 더 현실적이고 유연하게 움직이게 하는 데 큰 역할을 할 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

기존의 3D 인간 모션 생성과 2D 비디오 생성 기술은 다음과 같은 한계를 가지고 있습니다:

연속적 (Cascaded) 생성의 비효율성: 기존 방법들은 모션에서 비디오로, 혹은 비디오에서 모션으로의 단방향 생성을 수행합니다. 이는 오차 전파 (error propagation) 를 유발하고, 두 생성 과정 간의 밀접한 상호작용 (coupling) 을 무시하여 비최적의 결과를 초래합니다.
데이터 부족과 일반화 문제: 고품질 3D 모션 데이터의 부재로 인해 텍스트 기반 모션 생성 (T2M) 모델의 일반화 능력과 프롬프트 충실도가 제한적입니다.
외부 참조 의존성: 고품질 인간 중심 비디오 생성을 위해 기존에는 2D 포즈나 3D 모션과 같은 외부 참조 신호가 필수적이었습니다. 이러한 참조 없이 고품질의 일관된 비디오를 생성하는 것은 여전히 미해결 과제였습니다.
모달리티 간 간극 (Modality Gap): 3D 모션 데이터와 2D 비디오 데이터는 표현 방식이 달라, 하나의 확산 (diffusion) 루프 내에서 동기화하여 생성하기 어렵습니다.

2. 방법론 (Methodology)

저자들은 3D 인간 모션과 2D 비디오를 단일 확산 (diffusion) 루프 내에서 동기적으로 생성하는 CoMoVi 프레임워크를 제안합니다.

가. 2D 인간 모션 표현 (2D Human Motion Representation)

3D 모션과 2D 비디오 간의 모달리티 간극을 해결하기 위해 새로운 2D 표현 방식을 고안했습니다.

통합 표현: 기존에 분리되어 사용되던 '법선 맵 (Normal Map)'과 '의미론적 맵 (Semantic Map)'을 하나의 RGB 이미지로 통합합니다.
구현 방식:
- Blue/Green 채널: SMPL 메시의 정점 법선 (vertex normal) 의 $x, y$ 성분을 인코딩합니다.
- Red 채널: 신체 부위의 의미 (body part semantics) 와 법선의 $z$ 성분 부호 (sign) 를 결합하여 인코딩합니다.
효과: 이 표현은 3D 구조적 기하 정보와 심층적인 의미 정보를 모두 포함하면서도, 사전 훈련된 비디오 확산 모델 (VDM) 의 잠재 공간 (latent space) 에 자연스럽게 매핑될 수 있습니다.

나. 듀얼 브랜치 확산 모델 (Dual-Branch Diffusion Model)

Wan2.2-I2V-5B 모델을 기반으로 확장된 듀얼 브랜치 아키텍처를 사용합니다.

구조: RGB 비디오 생성을 위한 브랜치 ( $D_{video}$ ) 와 2D 모션 표현 생성을 위한 브랜치 ( $D_{motion}$ ) 로 구성됩니다.
상호 특징 상호작용 (Mutual Feature Interactions): 두 브랜치 사이에 ZeroLinear 모듈을 삽입하여 특징을 교환합니다. 이를 통해 비디오 생성은 강력한 모션 사전 지식을, 모션 생성은 비디오 생성의 일반화 능력을 공유합니다.
3D-2D 크로스 어텐션 (3D-2D Cross-Attention): 융합된 잠재 특징 ( $x^{fused}_t$ ) 을 키 (Key) 와 값 (Value) 으로 사용하여, 3D 모션 쿼리 (Query) 와 상호작용하게 합니다. 이를 통해 비디오 잠재 공간에서 직접 3D SMPL 모션을 추정합니다.
학습 전략:
1. 1 단계: $D_{motion}$ 브랜치만 미세 조정 (Fine-tuning) 하여 2D 모션 표현 도메인에 적응시킵니다.
2. 2 단계: 두 브랜치를 결합하여 상호작용과 크로스 어텐션을 학습합니다. 이때 $D_{video}$ 는 고정 (Frozen) 하고, $L_{smpl}$ (3D 모션 정규화 손실) 을 추가하여 구조적 일관성을 강화합니다.

다. CoMoVi-Dataset 구축

고품질의 3D 모션, 비디오, 텍스트 설명이 모두 포함된 대규모 데이터셋을 구축했습니다.

규모: 약 5 만 개의 고해상도 실세계 인간 비디오.
특징: Koala-36M, HumanVid 등 다양한 소스에서 데이터를 수집하고, Qwen3, Qwen2.5-VL, YOLO 등을 활용한 정교한 필터링 파이프라인을 통해 단일 인물, 전신 가시성, 자연스러운 모션을 가진 클립만 선별했습니다.
주석: Gemini-2.5-Pro 를 활용한 정밀한 모션 캡션과 CameraHMR 을 통한 3D SMPL 모션 레이블을 제공합니다.

3. 주요 기여 (Key Contributions)

동시 생성 프레임워크 (CoMoVi): 3D 모션과 2D 비디오를 별도의 단계 없이 단일 확산 루프에서 동기적으로 생성하는 최초의 프레임워크입니다. 이는 두 모달리티 간의 상호 보완적 이점을 극대화합니다.
혁신적인 2D 모션 표현: 3D 법선과 의미 정보를 단일 RGB 이미지로 압축하여, VDM 이 3D 구조 정보를 직접 학습하고 활용할 수 있게 했습니다.
대규모 고품질 데이터셋 (CoMoVi-Dataset): 기존 데이터셋의 한계를 극복하고, 텍스트 - 이미지 - 3D 모션 - 비디오가 모두 정렬된 5 만 개 규모의 데이터셋을 공개했습니다.
외부 참조 불필요: 외부 비디오나 미리 추출된 모션 신호 없이도, 텍스트와 시작 이미지만으로 고품질의 3D 모션과 비디오를 생성할 수 있습니다.

4. 실험 결과 (Results)

모션 생성 (Motion Generation): Motion-X++ 및 CoMoVi-Dataset 에서 SOTA(T2M) 모델 (MDM, MotionGPT, Go-to-Zero 등) 을 압도하는 성능을 보였습니다. 특히 FID(0.349) 와 R-Precision(0.565) 에서 최상의 결과를 기록하며, 모션의 자연스러움과 프롬프트 충실도가 뛰어났습니다.
비디오 생성 (Video Generation): VBench 벤치마크에서 Subject Consistency(0.955), Background Consistency(0.963), Motion Smoothness(0.993) 등 모든 지표에서 기존 I2V 모델 (CogVideoX, Wan2.2) 및 캐스케이드 기반 베이스라인을 능가했습니다.
정성적 평가: 생성된 비디오는 신체 구조가 일관되고, 모션이 물리적으로 타당하며, 텍스트 설명에 정확히 부합하는 것을 확인했습니다.

5. 의의 및 결론 (Significance)

이 연구는 3D 모션 생성과 비디오 생성이 본질적으로 결합되어 있음을 증명하고, 이를 동시에 해결하는 새로운 패러다임을 제시했습니다.

기술적 진보: 모달리티 간 간극을 효과적으로 해소하고, 사전 훈련된 VDM 의 일반화 능력을 3D 모션 생성에 성공적으로 이식했습니다.
응용 가능성: 가상 현실 (VR/AR), 게임 캐릭터 애니메이션, 영화 제작 등 다양한 분야에서 고품질의 3D 모션과 리얼한 비디오를 효율적으로 생성할 수 있는 기반을 마련했습니다.
미래 방향: 가변 길이 생성, 인간 - 객체 상호작용 확장, 생성 속도 가속화 (Distillation) 등을 통해 향후 연구의 방향성을 제시합니다.

요약하자면, CoMoVi 는 3D 모션과 2D 비디오의 동시 생성을 통해 기존 방법들의 한계를 극복하고, 고품질의 데이터셋과 혁신적인 표현 방식을 통해 인간 행동 생성 분야에서 새로운 표준을 제시한 획기적인 연구입니다.