CoMoVi: Co-Generation of 3D Human Motions and Realistic Videos

이 논문은 3D 인간 모션과 2D 비디오 생성 간의 본질적인 연관성을 활용하여, 3D 모션을 2D 표현으로 투영하고 이중 분기 확산 모델을 통해 단일 루프에서 동기화된 고품질 3D 모션과 인간 중심 비디오를 생성하는 'CoMoVi' 프레임워크를 제안합니다.

원저자: Chengfeng Zhao, Jiazhi Shu, Yubo Zhao, Tianyu Huang, Jiahao Lu, Zekai Gu, Chengwei Ren, Zhiyang Dou, Qing Shuai, Yuan Liu

게시일 2026-04-13
📖 3 분 읽기☕ 가벼운 읽기

이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'코모비 (CoMoVi)'**라는 새로운 인공지능 기술을 소개합니다. 쉽게 말해, **"한 번에 3D 캐릭터의 움직임과 실제 같은 영상을 동시에 만들어내는 마법 같은 도구"**라고 생각하시면 됩니다.

기존의 기술들은 보통 "글로 설명하면 3D 움직임을 만들고, 그 움직임을 영상으로 바꾼다"거나 "영상을 먼저 만들고 그걸 분석해서 움직임을 찾아냈다"는 식으로 순서대로 (한 단계씩) 작업했습니다. 하지만 이 방식은 한 단계에서 실수가 나면 다음 단계까지 그 실수가 그대로 전달되는 문제가 있었습니다.

코모비는 이 문제를 해결하기 위해 **동시성 (Co-generation)**을 도입했습니다. 마치 쌍둥이가 서로 손을 잡고 동시에 자라는 것과 같습니다.

이제 이 기술이 어떻게 작동하는지 일상적인 비유로 설명해 드릴게요.


1. 핵심 아이디어: "동시 출생"의 쌍둥이

기존 방식은 레고 조립처럼 하나씩 쌓아 올리는 방식이었습니다. 먼저 뼈대 (3D 움직임) 를 만들고, 그 위에 살을 입혀서 (영상) 완성하는 식이죠. 하지만 코모비는 한 번에 두 가지가 태어나는 쌍둥이처럼 작동합니다.

  • 3D 움직임 (뼈대): 캐릭터가 어떻게 움직일지 결정하는 구조적인 뼈대입니다.
  • 2D 영상 (살과 옷): 실제 카메라로 찍은 것처럼 보이는 생생한 영상입니다.

이 두 가지가 동시에 만들어지면서 서로를 도와줍니다.

  • 3D 움직임은 영상이 "인체 구조가 이상하지 않게" (예: 손이 뒤로 꺾이지 않게) 도와주는 건축 설계도 역할을 합니다.
  • 영상 모델은 3D 움직임이 "자연스럽고 다양하게" 움직이도록 도와주는 영감의 원천 역할을 합니다.

2. 가장 큰 난관: "언어 장벽"을 넘기

문제는 3D 움직임 (수학적 좌표) 과 2D 영상 (픽셀 이미지) 은 서로 완전히 다른 언어를 쓴다는 점입니다. 마치 **건축가 (3D)**와 **화가 (2D)**가 서로 다른 말을 하며 대화할 때처럼요.

이를 해결하기 위해 코모비는 **새로운 번역기 (2D 움직임 표현)**를 발명했습니다.

  • 기존에는 3D 움직임을 2D 영상으로 옮길 때, 단순히 뼈대 위치만 보여주거나 (2D 포즈), 표면의 방향만 보여주거나 (정규 맵) 하는 식으로 한쪽 정보만 전달했습니다.
  • 하지만 코모비가 만든 새로운 번역기는 **3D 구조 정보 (얼굴이 어느 쪽을 보고 있는지 등)**와 **신체 부위의 의미 (왼손, 오른손 구분)**를 하나의 **색깔이 있는 그림 (RGB 이미지)**으로 압축합니다.
  • 비유: 마치 3D 인형의 움직임을 색칠한 그림으로 바꾸는 것입니다. 이 그림을 보면 "왼손이 위로 올라갔다"는 의미 (색깔) 와 "손이 위로 향했다"는 3D 방향 (색의 농도) 을 동시에 알 수 있습니다. 이렇게 하면 기존에 훈련된 영상 AI 가 이 그림을 바로 이해하고 활용할 수 있게 됩니다.

3. 작동 방식: "두 개의 브랜치"가 손잡고 춤추기

코모비는 **두 개의 브랜치 (가지)**를 가진 하나의 큰 AI 모델입니다.

  1. 영상 브랜치: 실제 같은 영상을 만들어냅니다.
  2. 움직임 브랜치: 3D 움직임을 만들어냅니다.

이 두 브랜치는 **서로 끊임없이 대화 (상호 작용)**하며 움직임을 만듭니다.

  • 영상 브랜치가 "이 손 모양이 이상해!"라고 말하면, 움직임 브랜치는 "아, 고쳐야겠다"고 수정합니다.
  • 움직임 브랜치가 "이제 발을 내딛어야 해"라고 말하면, 영상 브랜치는 "알겠어, 발을 내딛는 장면을 그릴게"라고 반응합니다.

이렇게 한 번의 과정 (단일 디퓨징 루프) 안에서 두 가지가 서로를 보완하며 완성되므로, 결과물이 훨씬 자연스럽고 일관성이 있습니다.

4. 새로운 데이터: "코모비 데이터셋"

이 기술을 가르치려면 3D 움직임, 영상, 그리고 설명 글이 모두 완벽하게 맞춰진 데이터가 필요합니다. 하지만 기존에는 이런 데이터가 거의 없었습니다. (영상은 많지만 3D 데이터가 없거나, 3D 데이터는 많지만 영상이 저화질인 식이었습니다.)

연구팀은 직접 5 만 개 이상의 고화질 실사 영상을 모아서, AI 를 이용해 3D 움직임을 재현하고 설명글을 달아 **새로운 데이터셋 (CoMoVi-Dataset)**을 만들었습니다. 이는 이 분야의 '교과서' 역할을 하며, 모델이 더 똑똑하게 학습할 수 있게 했습니다.

5. 요약: 왜 이것이 중요한가요?

  • 기존: 글 → 3D 움직임 → 영상 (또는 그 반대). 실수가 누적되고, 외부에서 움직임을 참조해야 함.
  • 코모비: 글 + 시작 이미지 → 3D 움직임과 영상이 동시에 탄생.
  • 결과:
    • 3D 움직임: 더 자연스럽고, 다양한 동작을 잘 따라함.
    • 영상: 외부 참조 없이도 인체의 구조가 깨지지 않은 (손이 3 개 달리는 등 이상한 현상 없음) 고품질 영상을 생성.

결론적으로, 코모비는 "3D 움직임"과 "실제 영상"이라는 두 마리 토끼를 동시에 잡을 수 있는 혁신적인 기술입니다. 앞으로 게임, VR, 영화 제작 등에서 캐릭터를 더 현실적이고 유연하게 움직이게 하는 데 큰 역할을 할 것으로 기대됩니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →