Each language version is independently generated for its own context, not a direct translation.
🤔 기존 기술들은 왜 문제가 있었을까요?
텍스트로 움직임을 만드는 AI 는 크게 두 가지 방식으로 나뉘었는데, 둘 다 치명적인 약점이 있었습니다.
통일된 방식 (Holistic):
- 비유: 마치 한 명의 무용수에게 "오른발로 점프하고, 왼손을 흔들어"라고 전체적으로 지시하는 것과 같습니다.
- 문제: 전체적인 흐름은 자연스럽지만, **"오른발"**이나 **"왼손"**처럼 특정 부위의 동작을 정확히 지시하면 AI 가 혼란을 겪습니다. "오른발" 대신 "왼발"로 점프하거나, 손 흔들기가 엉뚱한 방향으로 나가는 식이죠.
부위별 분리 방식 (Part-wise):
- 비유: 오른손, 왼손, 다리, 몸통을 각각 다른 무용수에게 따로 지시하는 것입니다. "오른손은 흔들어", "다리는 점프해"라고 따로따로 시키죠.
- 문제: 각 부위는 텍스트를 잘 따르지만, 서로가 서로를 모릅니다. 그래서 오른손은 흔드는 데, 다리는 점프를 하고, 몸통은 멈춰서 있는 등 몸이 뚝뚝 끊어진 듯한 어색한 움직임이 나옵니다. 마치 인형의 팔다리가 따로 놀고 있는 것처럼요.
✨ ParTY 의 해결책: "리허설"과 "지휘자"
ParTY 는 이 두 가지 방식의 장점을 합쳐서 완벽한 조화를 이루게 합니다. 세 가지 핵심 아이디어가 있습니다.
1. 🎼 부위별 텍스트 해석기 (Part-aware Text Grounding)
- 비유: 같은 "춤을 춰"라는 지시어도, 발레리나에게는 "발끝으로 서서"로, 힙합 댄서에게는 "무릎을 굽혀"로 해석되는 것처럼, AI 가 텍스트를 부위별로 다르게 이해하게 만듭니다.
- 작동 원리: AI 는 입력된 문장을 보고, "왼손은 뭐를 해야지?", "다리는 뭐를 해야지?"라고 스스로 질문을 만들어냅니다 (LLM 사용). 이를 통해 각 부위가 정확히 무엇을 해야 할지 명확히 파악합니다.
2. 🎻 리허설을 먼저 하는 시스템 (Part-Guided Network)
- 비유: 전체 공연을 하기 전에, 각 악기 (부위) 들이 먼저 짧은 리허설을 하고 그 결과를 바탕으로 지휘자가 전체 곡을 지시하는 것과 같습니다.
- 작동 원리:
- 먼저 AI 가 "왼손은 이렇게 움직이고, 다리는 저렇게 움직여"라고 **부위별 시뮬레이션 (리허설)**을 몇 초간 진행합니다.
- 이렇게 만들어진 **부위별 움직임의 흐름 (가이드)**을 전체 AI 에게 보여줍니다.
- 전체 AI 는 이 가이드를 보고 "아, 다리가 이렇게 움직이니까 내 몸통은 이렇게 맞춰야겠구나!"라고 생각하며 전체 움직임을 만듭니다.
- 효과: 부위별 정확성은 유지하면서, 전체적인 흐름은 자연스럽게 이어집니다.
3. 🤝 실시간 협업 (Holistic-Part Fusion)
- 비유: 오케스트라에서 **지휘자 (전체)**와 **악단 (부위)**이 서로 눈을 마주치며 실시간으로 조율하는 모습입니다.
- 작동 원리: 전체 움직임을 만들면서도, 부위별 움직임 정보를 계속 참고합니다. 만약 다리가 너무 빨리 움직이면, AI 는 "아, 몸통도 따라가야지"라고 실시간으로 수정합니다. 이렇게 해서 몸이 뚝뚝 끊어지는 일이 사라집니다.
📊 결과는 어떨까요?
연구팀은 새로운 평가 기준도 만들었습니다.
- 부위별 정확도: "오른손을 흔들어"라고 했을 때, 진짜 오른손이 흔들리는가?
- 전체적 조화: 몸이 비틀리거나, 팔다리가 엉뚱한 방향으로 나가는가?
ParTY 는 기존 방법들보다 두 가지 모두에서 압도적인 성적을 냈습니다.
- ParCo (기존 부위별 방식): 부위는 잘 움직이지만, 몸이 비틀려서 기괴함.
- MoMask (기존 전체 방식): 몸은 자연스럽지만, "오른손"을 "왼손"으로 잘못 움직임.
- ParTY (우리 방법): "오른손을 정확히 흔들면서, 몸 전체도 자연스럽게 춤추는" 완벽한 결과물을 만들어냅니다.
💡 한 줄 요약
ParTY는 "전체적으로 자연스럽게"와 "부위별로 정확하게"라는 상충되는 두 마리 토끼를 모두 잡기 위해, 부위별 리허설을 먼저 시키고 그 결과를 바탕으로 전체를 지휘하는 똑똑한 시스템을 개발했습니다. 이제 텍스트로 원하는 동작을 입력하면, AI 가 마치 프로 무용수처럼 정확한 부위와 완벽한 조화를 보여주게 됩니다! 🕺💃