ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

이 논문은 텍스트와 신체 부위의 정렬 부족 및 전체 동작의 비일관성이라는 기존 한계를 극복하기 위해, 부위별 동작 생성과 전체 동작 생성을 통합하는 'ParTY' 프레임워크를 제안하여 텍스트 기반 인간 동작 생성의 표현력과 일관성을 동시에 향상시킨다는 내용입니다.

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh Cho

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤔 기존 기술들은 왜 문제가 있었을까요?

텍스트로 움직임을 만드는 AI 는 크게 두 가지 방식으로 나뉘었는데, 둘 다 치명적인 약점이 있었습니다.

  1. 통일된 방식 (Holistic):

    • 비유: 마치 한 명의 무용수에게 "오른발로 점프하고, 왼손을 흔들어"라고 전체적으로 지시하는 것과 같습니다.
    • 문제: 전체적인 흐름은 자연스럽지만, **"오른발"**이나 **"왼손"**처럼 특정 부위의 동작을 정확히 지시하면 AI 가 혼란을 겪습니다. "오른발" 대신 "왼발"로 점프하거나, 손 흔들기가 엉뚱한 방향으로 나가는 식이죠.
  2. 부위별 분리 방식 (Part-wise):

    • 비유: 오른손, 왼손, 다리, 몸통을 각각 다른 무용수에게 따로 지시하는 것입니다. "오른손은 흔들어", "다리는 점프해"라고 따로따로 시키죠.
    • 문제: 각 부위는 텍스트를 잘 따르지만, 서로가 서로를 모릅니다. 그래서 오른손은 흔드는 데, 다리는 점프를 하고, 몸통은 멈춰서 있는 등 몸이 뚝뚝 끊어진 듯한 어색한 움직임이 나옵니다. 마치 인형의 팔다리가 따로 놀고 있는 것처럼요.

✨ ParTY 의 해결책: "리허설"과 "지휘자"

ParTY 는 이 두 가지 방식의 장점을 합쳐서 완벽한 조화를 이루게 합니다. 세 가지 핵심 아이디어가 있습니다.

1. 🎼 부위별 텍스트 해석기 (Part-aware Text Grounding)

  • 비유: 같은 "춤을 춰"라는 지시어도, 발레리나에게는 "발끝으로 서서"로, 힙합 댄서에게는 "무릎을 굽혀"로 해석되는 것처럼, AI 가 텍스트를 부위별로 다르게 이해하게 만듭니다.
  • 작동 원리: AI 는 입력된 문장을 보고, "왼손은 뭐를 해야지?", "다리는 뭐를 해야지?"라고 스스로 질문을 만들어냅니다 (LLM 사용). 이를 통해 각 부위가 정확히 무엇을 해야 할지 명확히 파악합니다.

2. 🎻 리허설을 먼저 하는 시스템 (Part-Guided Network)

  • 비유: 전체 공연을 하기 전에, 각 악기 (부위) 들이 먼저 짧은 리허설을 하고 그 결과를 바탕으로 지휘자가 전체 곡을 지시하는 것과 같습니다.
  • 작동 원리:
    1. 먼저 AI 가 "왼손은 이렇게 움직이고, 다리는 저렇게 움직여"라고 **부위별 시뮬레이션 (리허설)**을 몇 초간 진행합니다.
    2. 이렇게 만들어진 **부위별 움직임의 흐름 (가이드)**을 전체 AI 에게 보여줍니다.
    3. 전체 AI 는 이 가이드를 보고 "아, 다리가 이렇게 움직이니까 내 몸통은 이렇게 맞춰야겠구나!"라고 생각하며 전체 움직임을 만듭니다.
    • 효과: 부위별 정확성은 유지하면서, 전체적인 흐름은 자연스럽게 이어집니다.

3. 🤝 실시간 협업 (Holistic-Part Fusion)

  • 비유: 오케스트라에서 **지휘자 (전체)**와 **악단 (부위)**이 서로 눈을 마주치며 실시간으로 조율하는 모습입니다.
  • 작동 원리: 전체 움직임을 만들면서도, 부위별 움직임 정보를 계속 참고합니다. 만약 다리가 너무 빨리 움직이면, AI 는 "아, 몸통도 따라가야지"라고 실시간으로 수정합니다. 이렇게 해서 몸이 뚝뚝 끊어지는 일이 사라집니다.

📊 결과는 어떨까요?

연구팀은 새로운 평가 기준도 만들었습니다.

  • 부위별 정확도: "오른손을 흔들어"라고 했을 때, 진짜 오른손이 흔들리는가?
  • 전체적 조화: 몸이 비틀리거나, 팔다리가 엉뚱한 방향으로 나가는가?

ParTY 는 기존 방법들보다 두 가지 모두에서 압도적인 성적을 냈습니다.

  • ParCo (기존 부위별 방식): 부위는 잘 움직이지만, 몸이 비틀려서 기괴함.
  • MoMask (기존 전체 방식): 몸은 자연스럽지만, "오른손"을 "왼손"으로 잘못 움직임.
  • ParTY (우리 방법): "오른손을 정확히 흔들면서, 몸 전체도 자연스럽게 춤추는" 완벽한 결과물을 만들어냅니다.

💡 한 줄 요약

ParTY는 "전체적으로 자연스럽게"와 "부위별로 정확하게"라는 상충되는 두 마리 토끼를 모두 잡기 위해, 부위별 리허설을 먼저 시키고 그 결과를 바탕으로 전체를 지휘하는 똑똑한 시스템을 개발했습니다. 이제 텍스트로 원하는 동작을 입력하면, AI 가 마치 프로 무용수처럼 정확한 부위와 완벽한 조화를 보여주게 됩니다! 🕺💃