Controllable Dance Generation with Style-Guided Motion Diffusion

이 논문은 음악의 스타일과 사용자 프롬프트를 통합하여 다양한 스타일의 춤을 생성하고, 공간 - 시간 마스킹 메커니즘을 통해 궤적 기반 생성, 춤 끼워넣기, 춤 인페인팅 등 다양한 제어 작업을 수행할 수 있는 '스타일 가이드 모션 확산 (SGMD)' 모델을 제안합니다.

Hongsong Wang, Ying Zhu, Xin Geng, Liang Wang

게시일 2026-03-11
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"음악을 듣고 스타일을 정하면, AI 가 그 스타일에 맞춰 춤을 추게 해주는 기술"**에 대한 연구입니다.

기존의 AI 춤 생성 기술은 단순히 "음악에 맞춰 춤을 추는 것"에는 집중했지만, **"어떤 느낌 (스타일) 으로 춤을 추게 할지"**나 "특정 동작만 수정하고 나머지는 AI 가 채워주게 하는 것" 같은 세밀한 조절은 잘 못했습니다. 이 연구는 그 빈틈을 메우는 **'스타일 가이드 무브 확산 (SGMD)'**이라는 새로운 기술을 제안합니다.

이 기술을 쉽게 이해할 수 있도록 몇 가지 비유로 설명해 드릴게요.


1. 핵심 아이디어: "춤추는 AI 에게 '연출가'를 붙이다"

기존의 AI 는 마치 악보만 보고 기계적으로 춤을 추는 로봇 같았습니다. 음악이 빠르면 빨리, 느리면 느리게 추지만, 그 춤의 '분위기'나 '스타일'은 일정했습니다.

하지만 이 연구에서 제안한 SGMD는 그 로봇에게 **전문적인 '연출가 (Style Modulation)'**를 붙여준 것과 같습니다.

  • 연출가의 역할: 사용자가 "이 춤은 '힙합'처럼 강렬하게", 혹은 "발레처럼 우아하게"라고 말하면 (스타일 프롬프트), AI 는 그 지시에 맞춰 춤의 톤과 매력을 바꿉니다.
  • 결과: 같은 음악이라도, '힙합' 스타일과 '발레' 스타일로 춤을 추면 완전히 다른 느낌의 춤이 나옵니다.

2. 마법 같은 도구: "시간과 공간의 가위 (Spatial-Temporal Masking)"

이 기술의 가장 멋진 점은 사용자가 직접 춤을 '수정'할 수 있다는 것입니다. 이를 위해 연구팀은 **'시간과 공간의 가위'**라는 비유가 가능한 기술을 개발했습니다.

  • 상황: AI 가 만든 춤 중 일부가 마음에 들지 않거나, 특정 부분만 고정하고 싶을 때.
  • 작동 원리:
    • 시간 (Time) 조절: "처음 3 초는 내가 직접 춤을 추고, 그 뒤는 AI 가 이어줘." (앞부분은 고정, 뒷부분은 생성)
    • 공간 (Space) 조절: "다리는 내가 추는 대로 고정하고, 상체만 AI 가 알아서 추게 해줘." (하체는 고정, 상체는 생성)
    • 빈칸 채우기 (Inpainting): "이 부분의 춤이 끊어졌는데, 이 빈칸을 자연스럽게 채워줘."

이것은 마치 사진 편집 프로그램에서 '필터'를 씌우거나 '부분 수정'을 하듯이, 춤의 특정 부분만 지우거나 고정하고 AI 가 나머지 부분을 자연스럽게 이어 붙여주는 것과 같습니다.

3. 스타일을 어떻게 배우게 했나? "세 가지 언어"

AI 에게 스타일을 가르칠 때, 연구팀은 세 가지 방법을 시도했습니다.

  1. 단순 분류 (One-hot): "힙합", "발레"처럼 카테고리만 알려주는 것. (너무 단순함)
  2. 장르 이름 (Genre Name): "힙합"이라는 단어 자체를 분석하는 것. (약간 더 좋음)
  3. 상세한 설명 (Style Description): **"힙합은 강렬한 비트에 맞춰 발을 구르고, 몸의 힘을 뿜어내는 춤이야"**라고 GPT-3 같은 거대 언어 모델이 쓴 자세한 설명을 주는 것.

결과: 세 번째 방법인 **'상세한 설명'**을 주는 것이 가장 좋은 춤을 만들어냈습니다. 마치 요리사에게 "매운 음식"이라고만 하는 것보다 "매운맛이 입안에서 터지고, 후추 향이 강하게 느껴지는 음식"이라고 설명해 주는 것이 더 맛있는 요리를 만드는 것과 같습니다.

4. 왜 이 기술이 중요한가?

  • 게임과 영화: 게임 캐릭터나 영화 속 배우가 상황에 맞는 다양한 스타일의 춤을 추게 할 수 있습니다.
  • 개인 맞춤: 사용자가 "내 춤은 좀 더 우아하게, 하지만 발동작은 이대로 유지해줘"라고 요청하면 AI 가 바로 반영해 줍니다.
  • 창의성: 단순히 춤을 추는 것을 넘어, 예술적인 표현을 할 수 있는 도구가 됩니다.

요약

이 논문은 **"음악에 맞춰 춤을 추는 AI 에게 '연출가'를 붙이고, '가위'로 춤의 특정 부분만 수정할 수 있게 만든 기술"**입니다. 사용자는 이제 춤의 스타일과 특정 동작을 마음대로 지시할 수 있게 되어, 훨씬 더 다양하고 창의적인 춤을 만들어낼 수 있게 되었습니다.

한 줄 평: "이제 AI 는 단순히 춤을 추는 로봇이 아니라, 사용자의 지시에 따라 스타일을 바꿔주는 유능한 안무 파트너가 되었습니다."