Kling-MotionControl Technical Report

이 논문은 신체의 큰 구조적 안정성과 얼굴, 손의 미세한 표현력을 통합하고, 다양한 캐릭터에 대한 일반화 능력과 빠른 추론 속도를 보장하며 텍스트 기반 제어도 지원하는 강건하고 정교한 전신 캐릭터 애니메이션을 위한 통합 DiT 기반 프레임워크인 'Kling-MotionControl'을 제안합니다.

Kling Team, Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Kang He, Xu He, Jingyun Hua, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Fan Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Tiancheng Wen, Zhiyong Wu, Haoxian Zhang, Runze Zhao, Yuanxing Zhang, Yan Zhou

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

클링-모션컨트롤 (Kling-MotionControl): 사진 속 인물을 영화처럼 움직이게 만드는 마법

이 논문은 클링 (Kling) 팀이 개발한 새로운 기술, **'클링 - 모션컨트롤'**에 대해 설명합니다. 쉽게 말해, 이 기술은 정지된 사진 속 인물에게 다른 사람의 움직임을 입혀서 생생한 영상을 만들어주는 마법과 같습니다.

기존 기술들은 얼굴만 움직이거나 몸만 움직이는 데 그쳤거나, 움직일 때 얼굴이 변형되거나 손가락이 뭉개지는 문제가 있었습니다. 하지만 이 새로운 기술은 전신, 얼굴, 손가락까지 모두 자연스럽고 정교하게 움직이게 합니다.

이 복잡한 기술을 일상적인 비유로 설명해 드리겠습니다.


1. 핵심 아이디어: "분업과 협력" (Divide-and-Conquer)

이 기술의 가장 큰 특징은 몸, 얼굴, 손을 따로따로 관리하되 하나의 팀으로 합치는 것입니다.

  • 비유: imagine 한 대형 오케스트라를 상상해 보세요.
    • 몸 (Body): 거대한 현악기 섹션처럼 큰 동작 (걷기, 뛰기, 춤추기) 을 담당합니다. 무너지지 않고 안정적으로 움직여야 합니다.
    • 얼굴 (Face): 작은 플루트나 바이올린처럼 미세한 표정 (미소, 눈썹 찌푸리기) 을 담당합니다. 아주 섬세해야 합니다.
    • 손 (Hands): 재즈 드럼처럼 복잡한 리듬 (손가락 움직임, 제스처) 을 담당합니다.
    • 기존 기술: 한 명의 연주자가 모든 악기를 동시에 치려다 보니, 큰 동작을 할 때 손가락이 뭉개지거나, 표정을 지을 때 몸이 흔들리는 문제가 있었습니다.
    • 클링 - 모션컨트롤: 각 악기 섹션 (몸, 얼굴, 손) 에 전문 연주자를 배치하고, 지휘자 (AI) 가 이들을 완벽하게 조율합니다. 그래서 큰 춤을 추면서도 손가락 하나하나가 선명하고, 표정이 살아있는 영상을 만듭니다.

2. 누구든 자연스럽게: "의상 교체"와 "캐릭터 변환"

이 기술은 사진 속 인물의 얼굴이나 몸매를 바꾸지 않고, 다른 사람의 움직임을 그대로 따라 하게 합니다.

  • 비유: 유명한 배우가 의상과 분장을 바꾸지 않은 채, 다른 무용수의 춤을 완벽하게 따라 하는 상황입니다.
    • 실제 사람 → 만화 캐릭터: 실제 사람이 춤추는 영상을 만화 캐릭터에게 적용하면, 만화 캐릭터가 그 춤을 자연스럽게 추지만, 여전히 그 만화 캐릭터의 고유한 얼굴과 옷을 유지합니다.
    • 어른 → 아이: 어른의 움직임을 아이에게 적용해도, 아이의 작은 몸매에 맞게 자연스럽게 변형되면서도 아이의 얼굴은 그대로 유지됩니다.
    • 핵심: "누가 움직이는지 (동작)"와 "누가 그리는지 (얼굴/모습)"를 완벽하게 분리해서, 움직임을 옮기더라도 얼굴이 변해버리는 '얼굴 유령' 현상을 막아줍니다.

3. 3D 감각과 카메라 조종: "영화 감독이 되는 경험"

단순히 앞뒤로 움직이는 2D 영상을 넘어, 3D 공간감을 이해합니다.

  • 비유: 사진 속 인물이 실제 3D 공간에 서 있는 인형이라고 상상해 보세요.
    • 사용자가 "왼쪽으로 돌아서 카메라가 줌인해"라고 텍스트로 말하면, 인물이 자연스럽게 몸을 돌리고 카메라가 다가가는 영상을 만들어냅니다.
    • 단순히 사진이 흔들리는 게 아니라, 인물이 3D 공간에서 실제로 회전하는 것처럼 자연스러운 원근감을 유지합니다.

4. 빠른 속도: "고속도로 터널"

기존의 고화질 영상 생성 기술은 매우 느려서 한 장의 영상을 만드는 데 시간이 오래 걸렸습니다.

  • 비유: 기존 기술이 산길을 천천히 걷는 것이라면, 이 기술은 고속도로 터널을 통과하는 것입니다.
    • 복잡한 과정을 단계별로 최적화하고, '지식 증류 (Distillation)'라는 기술을 써서, 이전보다 10 배 이상 빠르게 영상을 만들어냅니다. 전문가가 아닌 일반인도 실시간에 가깝게 결과를 볼 수 있게 된 것입니다.

5. 텍스트로 조종하기: "마법 주문"

동작을 주는 영상 (드라이빙 비디오) 외에도, 사용자가 글자 (텍스트) 로 명령을 내릴 수 있습니다.

  • 비유: 마법사가 주문을 외우듯, "옷을 빨간색으로 바꿔줘", "배경을 바다로 바꿔줘"라고 입력하면, 인물의 움직임은 그대로 유지하면서 옷이나 배경만 바뀐 영상을 만들어냅니다.

요약: 왜 이것이 중요한가요?

기존의 기술들은 "얼굴은 잘 움직이지만 손은 뭉개지고, 몸은 흔들린다"는 한계가 있었습니다. 하지만 클링 - 모션컨트롤은:

  1. 전신, 얼굴, 손을 모두 정교하게 다룹니다.
  2. 실제 사람, 만화, 동물 등 어떤 캐릭터든 자연스럽게 움직이게 합니다.
  3. 얼굴과 옷이 변하지 않게 지켜줍니다.
  4. 텍스트 명령과 카메라 조절이 가능합니다.
  5. 생성 속도가 매우 빠릅니다.

이 기술은 디지털 아바타 제작, 애니메이션 제작, 그리고 누구나 쉽게 고품질의 영상을 만들 수 있는 시대를 여는 중요한 도약입니다. 마치 사진 속 인물을 영화의 주인공처럼 자유롭게 조종하는 마법과 같습니다.