Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

이 논문은 의미적 조건과 운동학적 조건을 통합하기 위해 확산 기반 이산 모션 토크나이저 (MoTok) 를 도입한 3 단계 프레임워크를 제안하여, 적은 토큰 수로 높은 제어 가능성과 운동 충실도를 달성함을 보여줍니다.

Chenyang Gu, Mingyuan Zhang, Haozhe Xie, Zhongang Cai, Lei Yang, Ziwei Liu

게시일 2026-03-20
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏗️ 1. 문제: 왜 기존 방식은 힘들었을까요?

기존의 움직임 생성 AI 들은 크게 두 부류로 나뉩니다.

  1. 의미 중심 (토큰 방식): "왼손으로 컵을 들고 오른쪽으로 돌아서라"라는 **명령어 (텍스트)**를 잘 이해합니다. 하지만 명령을 구체적으로 실행할 때, 손가락이 어디에 닿아야 하는지 같은 미세한 자세를 맞추는 데는 약합니다. 마치 건축 설계도는 완벽하지만, 벽돌 하나하나를 쌓는 시공은 서툴러서 건물이 비틀거리는 경우입니다.
  2. 자세 중심 (확산 모델): 손가락 하나하나의 위치를 정밀하게 조절할 수 있습니다. 하지만 "컵을 들고 돌아서라"는 큰 의미를 잃어버리고, 엉뚱한 동작을 하거나 부자연스러워지는 경우가 많습니다. 마치 시공팀은 벽돌을 아주 잘 쌓지만, 설계도 없이 막상 쌓으니 건물이 기울어지는 경우입니다.

핵심 문제: 이 두 가지를 모두 잘하려면, AI 가 너무 많은 정보를 한 번에 처리해야 해서 "의미"와 "자세" 사이에서 타협을 해야 했습니다. 자세를 정확히 하려니 의미가 흐려지고, 의미를 지키려니 자세가 부정확해지는 것이죠.


🚀 2. 해결책: 모톡 (MoTok) 의 '3 단계 협업 시스템'

저자들은 이 문제를 해결하기 위해 **세 단계 (지각 - 계획 - 제어)**로 나누어 역할을 명확히 했습니다.

1 단계: 지각 (Perception) - "명령을 듣다"

사용자가 입력한 텍스트 ("컵을 들고 돌아서") 나 궤도 (손이 이동할 경로) 를 AI 가 분석합니다. 이때 **전체적인 흐름 (글로벌)**과 **세부적인 제약 (로컬)**을 구분해서 준비합니다.

2 단계: 계획 (Planning) - "건축가가 스케치하다"

여기서 MoTok의 핵심인 **'토큰 (Token)'**이 나옵니다.

  • 비유: 건축가가 간단한 스케치를 그리는 단계입니다. "여기에 문이 있고, 저기에 창문이 있다"는 **큰 그림 (의미)**만 잡습니다.
  • 기존 방식의 한계: 기존에는 이 스케치에 "벽돌 하나하나의 위치"까지 다 그려 넣으려다 보니 스케치가 너무 복잡해지고, AI 가 혼란을 겪었습니다.
  • MoTok 의 혁신: MoTok 은 **의미만 담은 아주 간결한 스케치 (컴팩트한 토큰)**만 그립니다. "손이 여기로 간다"는 정도만 기록하고, 손이 어떻게 움직이는지 같은 세부적인 디테일은 나중에 맡깁니다.

3 단계: 제어 (Control) - "시공팀이 정교하게 완성하다"

이제 **확산 모델 (Diffusion Model)**이 나옵니다.

  • 비유: 건축가의 간단한 스케치를 받은 정교한 시공팀이 작업을 시작합니다.
  • 작동 원리: 시공팀은 스케치에 있는 "문 위치"를 바탕으로, 벽돌을 쌓으면서 실시간으로 "손이 궤도에서 벗어나지 않게", "자연스럽게 움직이게" **수정 (보정)**을 가합니다.
  • 핵심: 세부적인 자세 (자세, 궤도) 는 이 단계에서 AI 가 스스로 완벽하게 맞추기 때문에, 2 단계의 계획자가 세부 사항에 신경 쓸 필요가 없습니다.

✨ 3. 왜 이것이 획기적인가요? (비유로 설명)

[기존 방식: 모든 것을 한 사람이 하려다]
한 명의 장인이 "이 집은 2 층이고, 창문은 3 개고, 벽돌은 100 만 개를 정확히 쌓아라"라고 모든 것을 한 번에 외우려다 보니, **창문 위치 (의미)**를 지키느라 **벽돌 쌓기 (자세)**가 엉망이 되거나, 그 반대가 되었습니다.

[MoTok 방식: 전문가 팀워크]

  • 건축가 (계획자): "2 층에 창문 3 개"라는 핵심 아이디어만 아주 간결하게 적어서 넘깁니다. (데이터 양이 6 분의 1 로 줄어듦!)
  • 시공팀 (확산 모델): 그 아이디어를 받아 실제 벽돌을 쌓으면서 "아, 이 벽돌은 이 궤도를 따라가야겠네"라고 실시간으로 수정하며 완벽하게 완성합니다.

결과:

  1. 효율성: 필요한 정보량 (토큰 수) 이 기존보다 6 분의 1로 줄어들어 훨씬 빠르고 가볍습니다.
  2. 정확도: "손이 궤도에서 0.08cm 만 벗어나도 실패"라는 조건에서도, **의미 (텍스트)**를 잃지 않으면서 **자세 (궤도)**도 완벽하게 맞춥니다.
  3. 자연스러움: 기계적인 움직임이 아니라, 실제 사람이 움직이는 것처럼 매끄럽고 자연스러운 결과를 냅니다.

💡 요약

이 논문은 **"큰 그림을 그리는 사람 (의미)"**과 **"세부 작업을 하는 사람 (자세)"**을 분리해서, 각각의 전문성을 극대화한 새로운 AI 시스템을 만들었습니다.

마치 명령을 내리는 지휘자악기를 완벽하게 연주하는 오케스트라가 협력하여, 지휘자의 뜻도 정확히 전달되면서 악기 소리도 완벽하게 조화시키는 것과 같습니다. 덕분에 우리는 더 적은 정보로, 더 정확하고 자연스러운 사람 움직임을 AI 로 만들어낼 수 있게 되었습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →