TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

이 논문은 단일 인체 기반 또는 분리 모델링 방식의 한계를 극복하기 위해 인과적 상호작용 주입, 역할 진화 스캐닝, 지역적 패턴 증폭 기법을 도입한 효율적이고 효과적인 인간 - 인간 모션 생성 프레임워크인 TIMotion 을 제안하고 InterHuman 및 InterX 데이터셋에서 우수한 성능을 입증합니다.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong Liu

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

TIMotion: 두 사람이 함께 춤추는 법을 배우는 새로운 AI

이 논문은 인공지능 (AI) 이 두 사람이 서로 상호작용하며 움직이는 장면 (예: 악수하기, 안기, 함께 물건을 들기) 을 만들어내는 기술을 다룹니다. 기존 방법들은 두 사람을 따로따로 생각하거나, 단순히 두 사람을 하나로 붙여버리는 방식이라서 자연스럽지 못했습니다.

저자들은 이를 해결하기 위해 TIMotion이라는 새로운 방법을 제안했습니다. 이걸 이해하기 쉽게 세 가지 비유로 설명해 드릴게요.

1. 기존 방식의 문제점: "혼자 춤추기"와 "서로 무시하기"

기존 AI 들은 두 사람이 춤추는 장면을 만들 때 두 가지 실수를 했습니다.

  • 방법 A (한 사람으로 합치기): 두 사람을 가상의 '거인' 하나로 합쳐서 춤을 추게 합니다. 하지만 거인은 두 사람의 개별적인 느낌을 살리기 어렵습니다.
  • 방법 B (서로 따로따로): 두 사람을 따로 춤추게 한 뒤, 마지막에 서로의 동작을 섞습니다. 하지만 이 방식은 두 사람이 서로를 '보고' 반응하는 순간적인 타이밍을 놓칩니다. 마치 두 명이 대화할 때, 한 사람이 말하고 다른 사람이 듣는 '인과 관계'를 무시하는 것과 같습니다.

2. TIMotion 의 핵심 아이디어: "자연스러운 대화"처럼

저자들은 두 사람의 움직임을 **'인과 관계가 있는 대화'**로 봅니다. 한 사람이 손을 내밀면 (원인), 다른 사람이 잡아야 합니다 (결과). 이 논리를 바탕으로 세 가지 기술을 개발했습니다.

① 인과적 주입 (Causal Interactive Injection): "연극 대본의 흐름"

  • 비유: 두 사람이 대화할 때, A 가 말을 하고 B 가 대답하는 순서가 중요합니다.
  • 설명: TIMotion 은 두 사람의 움직임을 따로따로 보지 않고, "A 가 움직인 뒤 B 가 반응한다"는 시간의 흐름과 인과 관계를 가진 하나의 긴 줄기로 만듭니다. 이렇게 하면 AI 가 "누가 먼저 시작했는지"를 자연스럽게 이해하게 됩니다.

② 역할 진화 스캐닝 (Role-Evolving Scanning): "주인과 하인"이 오가는 상황

  • 비유: 두 사람이 악수할 때, 처음에는 한 사람이 손을 내밀고 (주도), 그다음 상대방이 잡습니다 (수동). 하지만 안기 동작으로 넘어가면 역할이 바뀔 수 있습니다.
  • 설명: 기존 방법은 '누가 주도하는지'를 고정해 두었습니다. 하지만 TIMotion 은 역할이 실시간으로 바뀐다는 점을 인정합니다. "지금 내가 주도하고 있니, 아니면 상대방이 주도하고 있니?"를 매 순간 AI 가 스스로 판단하게 하여, 더 유연하고 자연스러운 상호작용을 만들어냅니다.

③ 국소 패턴 증폭 (Localized Pattern Amplification): "세밀한 손짓"을 잡기

  • 비유: 춤을 출 때 큰 동작 (몸을 돌리는 것) 도 중요하지만, 손가락을 살짝 움직이는 작은 동작도 중요합니다. 기존 AI 는 큰 흐름만 보고 작은 디테일을 놓쳤습니다.
  • 설명: TIMotion 은 짧은 순간의 미세한 움직임 패턴을 따로 잡아줍니다. 마치 거친 그림에 세밀한 붓터치를 더하는 것처럼, 두 사람의 움직임이 너무 뚝뚝 끊기지 않고 부드럽고 매끄럽게 이어지도록 도와줍니다.

3. 왜 이것이 중요한가요?

  • 더 빠르고 가볍습니다: 기존 방법보다 필요한 메모리 (파라미터) 가 적고 계산 속도가 빠릅니다.
  • 더 자연스럽습니다: 두 사람이 서로를 의식하며 움직이는 '사회적'인 느낌이 살아납니다.
  • 다양한 적용: 이 기술은 Transformer, Mamba, RWKV 등 다양한 AI 구조에 적용될 수 있어 범용성이 높습니다.

요약

TIMotion은 두 사람이 서로 상호작용하는 움직임을 만들 때, 단순히 두 사람을 합치는 게 아니라 **"서로가 서로의 행동에 반응하는 인과 관계"**와 "역할의 변화", 그리고 **"세부적인 디테일"**까지 모두 고려하여, 마치 실제 인간이 춤추는 것처럼 자연스러운 영상을 만들어내는 혁신적인 기술입니다.

이 기술이 발전하면 게임 속 NPC 들이 더 현실적으로 반응하거나, 로봇이 사람과 함께 물건을 나르는 등 다양한 분야에서 활용될 수 있을 것입니다.