Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

이 논문은 Mamba 기반 확산 모델과 가우시안 기반 비트 표현을 도입하여 기존 트랜스포머 기반 방법의 한계를 극복하고, 음악의 리듬과 비트에 정확히 동기화된 고품질 춤 동작을 생성하는 'MambaDance'를 제안합니다.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 뇌를 바꾼다: "트랜스포머"에서 "맘바"로 🧠➡️🐍

기존의 AI 춤 생성 모델들은 **'트랜스포머 (Transformer)'**라는 기술을 썼습니다. 이는 마치 거대한 도서관의 사서처럼, 모든 춤 동작을 한 번에 훑어보며 패턴을 찾는 방식입니다. 하지만 춤은 시간의 흐름에 따라 이어지는 연속적인 운동입니다.

  • 기존 방식의 문제: 도서관 사서가 책 1,000 권을 한 번에 다 읽으려다 보니, 시간이 오래 걸리고 (계산 비용 증가), 긴 춤을 추다 보면 앞뒤가 맞지 않거나 리듬을 놓치는 경우가 많았습니다.
  • 새로운 방식 (Mamba): 연구팀은 **'맘바 (Mamba)'**라는 기술을 도입했습니다. 이는 유능한 리드미컬한 댄서처럼, 앞서 추던 동작을 기억하면서 다음 동작을 자연스럽게 이어가는 방식입니다.
    • 비유: 트랜스포머가 "모든 춤 동작을 한눈에 보려고 애쓰는" 방식이라면, 맘바는 "현재 리듬을 타고 다음 동작을 자연스럽게 이어가는" 방식입니다. 덕분에 긴 춤을 추더라도 리듬이 깨지지 않고, 계산도 훨씬 빠르고 효율적입니다.

2. 박자를 잡는 나침반: "가우시안 박자 표현" 🥁✨

춤에서 가장 중요한 것은 **음악의 박자 (Beat)**입니다. 기존 AI 들은 박자를 단순히 "이곳에 박자가 있다"는 숫자 (0 또는 1) 로만 인식했습니다. 하지만 실제 춤은 박자 바로 전후에도 리듬감이 느껴집니다.

  • 기존 방식의 문제: 박자를 '스위치'처럼 켜고 끄는 방식이라, 박자와 박자 사이의 흐름이 매끄럽지 않았습니다.
  • 새로운 방식 (가우시안 박자): 연구팀은 박자를 **종 모양의 부드러운 곡선 (가우시안)**으로 표현했습니다.
    • 비유: 박자를 강한 빛이라고 생각해보세요.
      • 기존 방식: 박자가 있는 순간만 "빛이 켜짐 (ON)", 없으면 "꺼짐 (OFF)".
      • 새로운 방식: 박자가 있는 순간에 가장 밝게 빛나고, 그에서 멀어질수록 서서히 빛이 약해지다가 다시 다음 박자에 밝아지는 방식입니다.
    • 이 부드러운 빛 (리듬감) 이 AI 에게 "지금 이 순간이 박자 중심이니까, 여기에 힘을 실어 춤을 춰라"라고 자연스럽게 지시해 줍니다. 덕분에 춤 동작이 음악의 박자에 딱 맞춰져서 훨씬 리드미컬해집니다.

🏗️ 어떻게 춤을 추게 하나요? (두 단계 프로세스)

이 AI 는 춤을 추는 과정을 두 단계로 나누어 매우 정교하게 만듭니다.

  1. 전체 구상 (Global Diffusion): 먼저 긴 음악 전체를 보고, 춤의 **핵심 포인트 (키 포인트)**만 대략적으로 잡습니다. 마치 안무가가 "여기서 점프하고, 저기서 회전하자"라고 큰 그림을 그리는 단계입니다.
  2. 디테일 채우기 (Local Diffusion): 그 다음, 그 핵심 포인트들을 바탕으로 세부적인 동작을 채워 넣습니다. 마치 안무가가 "점프할 때 팔은 이렇게 흔들고, 발은 이렇게 디디자"라고 구체적으로 가르치는 단계입니다.
    • 이 과정에서 가우시안 박자가 "이곳은 박자가 강하니까 동작을 확실히 해!"라고 도와줍니다.

🏆 결과는 어떨까요?

연구팀은 **AIST++**와 FineDance라는 두 가지 큰 춤 데이터셋으로 실험을 했습니다.

  • 결과: 기존 AI 들보다 더 현실적이고, 음악 박자와 더 잘 맞으며, 다리가 땅에 닿는 느낌 (물리 법칙) 이 더 자연스러웠습니다.
  • 특징: 짧은 춤이든, 긴 춤이든 일관되게 좋은 성능을 냈습니다. 특히 긴 춤을 추더라도 리듬이 흐트러지지 않아서, 마치 프로 댄서가 추는 것처럼 보였습니다.

💡 한 줄 요약

"이제 AI 는 음악의 박자를 '부드러운 빛'으로 느끼고, '유능한 댄서'처럼 리듬을 타고 춤을 춥니다. 그래서 더 자연스럽고 멋진 춤을 만들어냅니다!"

이 기술은 게임 캐릭터, 가상 현실 (VR) 아바타, 혹은 음악 영상 제작 등에 활용되어 더 생생한 디지털 춤을 보여줄 것으로 기대됩니다.