RDM: Recurrent Diffusion Model for Human Motion Generation

Each language version is independently generated for its own context, not a direct translation.

사람의 움직임을 만드는 AI 는 크게 두 가지 방식으로 나뉩니다.

기존 방식 (Volume Diffusion):
- 비유: 10 분짜리 영화를 찍을 때, 한 번에 모든 장면을 다 찍으려고 시도하는 감독을 상상해 보세요.
- 문제: 컴퓨터가 한 번에 너무 많은 정보를 처리해야 하므로, 영화 길이에 제한이 생깁니다. (예: 5 초만 찍을 수 있음). 그리고 5 초를 넘어가면 장면이 끊기거나 엉망이 됩니다.
기존의 다른 방식 (Autoregressive Diffusion):
- 비유: 10 분짜리 영화를 찍을 때, 1 장 1 장 찍어서 이어붙이는 방식입니다. 1 장을 완벽하게 다 찍고 (노이즈를 완전히 제거하고), 그다음 장면을 찍습니다.
- 문제: 정확도는 좋지만, 시간이 너무 오래 걸립니다. 10 분 영상을 만들려면 1 장을 다 완성할 때까지 기다려야 하니까요.

저자들은 이 두 가지의 단점을 모두 해결한 새로운 방식을 제안했습니다. 이를 **RDM(재귀적 확산 모델)**이라고 부릅니다.

핵심 아이디어:
- 비유: RDM 은 연속극을 찍는 감독과 같습니다.
- 어떻게 작동하나요?
  1. 이전 장면의 '흐릿한 초상화'를 기억합니다: 완전히 다 찍힌 장면 (깨끗한 이미지) 을 기억할 필요 없이, 아직 흐릿하고 노이즈가 섞인 이전 장면을 기억합니다.
  2. 그걸 바탕으로 다음 장면을 찍습니다: "아까 그 흐릿한 장면이 이렇게 움직였으니, 다음 장면은 이렇게 흐릿하게 찍어보자"라고 이어갑니다.
  3. 결과: 이전 장면을 완벽하게 다 다듬을 필요 없이, 흐릿한 상태에서도 다음 장면을 자연스럽게 이어갈 수 있어 속도가 매우 빨라집니다.

여기서 중요한 문제가 생깁니다. 흐릿한 상태에서 다음 장면을 이어붙이다 보면, 확률적으로 엉뚱한 일이 생길 수 있습니다. (예: 갑자기 사람이 공중에 뜨거나 다리가 뒤로 꺾이는 등).

해결책: 저자들은 **'정규화 흐름 (Normalizing Flows)'**이라는 수학적 도구를 사용했습니다.
비유: 이는 변형 가능한 고무줄과 같습니다.
- 흐릿한 이미지를 다음 장면으로 옮길 때, 고무줄이 늘어나거나 줄어들더라도 무엇이든 '사람'이라는 형태를 유지하도록 수학적 규칙을 적용합니다.
- 덕분에 AI 는 자유롭게 움직임을 만들면서도, 논리적으로 틀어지지 않고 자연스러운 움직임을 유지할 수 있습니다.

긴 영상도 가능 (Horizon Agnostic):
- 기존 방식은 5 초만 찍을 수 있었지만, RDM 은 5 초, 50 초, 5 분이든 상관없이 계속 이어질 수 있습니다. 마치 무한히 이어지는 드라마처럼요.
엄청나게 빠름 (Efficiency):
- 이전 장면을 완벽하게 다듬을 필요가 없기 때문에, 기존 방식보다 훨씬 빠르게 영상을 만들어냅니다. (실험 결과, 기존 방식보다 최대 18 배까지 빠르다고 합니다!)
자연스러움:
- 발이 바닥에 닿는 모습이나 공을 드리블하는 동작처럼, 세부적인 움직임까지 매우 자연스럽게 이어집니다.

이 논문은 **"컴퓨터가 움직임을 만들 때, 한 번에 다 찍거나 (느림), 하나씩 완벽하게 찍는 (시간 걸림) 대신, 흐릿한 이전 장면을 기억하며 다음 장면을 빠르게 이어붙이는 새로운 방법 (RDM)"**을 제안했습니다.

이는 마치 마법 같은 고무줄을 이용해, AI 가 오래되고 긴 애니메이션을 순식간에 그리고 매우 자연스럽게 만들어낼 수 있게 해주는 기술입니다. 앞으로 게임 캐릭터나 로봇 제어, 영화 제작 등에서 큰 변화를 가져올 것으로 기대됩니다.

유사한 논문