Each language version is independently generated for its own context, not a direct translation.
PRISM: 움직임을 만드는 새로운 마법사
이 논문은 PRISM이라는 새로운 인공지능 모델을 소개합니다. 이 모델은 사람이 글을 읽으면 그 내용에 맞춰 자연스럽게 움직이는 3D 캐릭터를 만들어냅니다.
기존 기술들도 좋았지만, 두 가지 큰 문제가 있었습니다. PRISM은 이 두 문제를 아주 창의적인 방식으로 해결했습니다.
1. 문제: "한 덩어리"로 된 정보의 혼란
기존 방식:
기존의 AI 는 사람의 움직임을 한 장의 사진처럼 처리했습니다. 발, 손, 머리, 엉덩이 등 모든 관절의 움직임 정보를 **하나의 거대한 덩어리 (Latent Vector)**로 압축했습니다.
- 비유: 마치 모든 악기가 섞여 소음처럼 들리는 오케스트라를 한 대의 라디오로 듣는 것과 같습니다. AI 는 이 거대한 덩어리 속에서 "아, 이건 팔이 움직이는 신호구나, 저건 다리가 움직이는 신호구나"를 스스로 찾아내야 하므로 매우 힘들어하고, 결과적으로 움직임이 떨리거나 발이 바닥을 미끄러지는 (Foot sliding) 어색한 현상이 생깁니다.
PRISM 의 해결책: "개인 전용 좌석" (Joint-Factorized Latent)
PRISM 은 각 관절마다 **별개의 좌석 (Token)**을 만들어줍니다.
- 비유: 오케스트라에서 바이올린, 트럼펫, 드럼 등 각 악기마다 별도의 악보와 연주자를 둔 것과 같습니다. AI 는 이제 "팔이 어떻게 움직여야 하는지"와 "다리가 어떻게 움직여야 하는지"를 각각 명확하게 보고 배울 수 있습니다.
- 효과: AI 가 움직임을 이해하는 데 훨씬 수월해져서, 훨씬 자연스럽고 사실적인 동작을 만들어냅니다.
2. 문제: "긴 이야기"를 이어가는 어려움
기존 방식:
짧은 동작은 잘 만들지만, "A 가 걷다가 B 가 뛰어오르고 C 가 넘어진다"처럼 긴 이야기를 연속해서 만들면 AI 가 기억을 잃어버리거나 (Drift), 동작이 점점 망가져서 멈추게 됩니다.
- 비유: 긴 이야기를 들려줄 때, AI 가 앞부분을 잊어버리고 엉뚱한 결말을 말하거나, 이야기가 끊어지는 것과 같습니다.
PRISM 의 해결책: "깨끗한 연결고리" (Noise-Free Condition Injection)
PRISM 은 새로운 동작을 만들 때, 이전까지 만들어진 마지막 동작을 '깨끗한 정보'로 남겨두고 그 다음 부분만 새로 만들어냅니다.
- 비유: 영화를 찍을 때, 다음 장면을 찍기 위해 이미 찍힌 마지막 장면을 그대로 화면에 띄워두고 배우들이 그 흐름에 맞춰 다음 장면을 연기하는 것과 같습니다.
- 핵심 기술: AI 는 "이 부분은 이미 정해진 깨끗한 정보 (조건)"와 "이 부분은 이제부터 만들어야 할 잡음 (노이즈)"을 구별할 수 있습니다. 덕분에 텍스트로만 시작하든, 특정 자세에서 시작하든, 혹은 긴 이야기를 이어가든 하나의 모델로 모두 완벽하게 처리할 수 있습니다.
PRISM 이 가져온 놀라운 변화
단 하나의 모델로 모든 것 해결:
- "걷기"라고만 해도 걷고, "손을 흔들며 웃어라"라고 해도 웃으며 걷습니다.
- 특정 자세에서 시작하라고 해도 그 자세를 유지하며 다음 동작을 이어갑니다.
- 긴 이야기를 주면 끊김 없이 10 개 이상의 장면을 이어 붙여 긴 영화를 만들어냅니다.
오류가 쌓이지 않음 (Self-Forcing):
- 기존 방식은 앞부분의 작은 실수가 다음 부분으로 넘어가며 점점 커져서 결국 캐릭터가 넘어지는 일이 많았습니다.
- PRISM 은 훈련 과정에서 스스로 만든 동작을 다시 입력받아 다음 장면을 만드는 연습을 합니다. (스스로를 가르치는 방식) 덕분에 12 초짜리 짧은 영상으로 훈련했음에도 불구하고, 수십 분에 달하는 긴 영상에서도 흔들림 없이 안정적으로 움직입니다.
요약하자면?
PRISM 은 **"각 관절을 따로따로 관리하는 지능"**과 **"이전 장면을 깨끗하게 연결하는 기술"**을 결합했습니다. 덕분에 AI 가 사람의 움직임을 만들 때, 더 이상 어색한 로봇 같은 동작이 아니라, 실제 사람처럼 자연스럽고 긴 이야기를 따라가며 춤추는 듯한 움직임을 만들어냅니다.
이 기술은 게임, 영화, 가상 현실 (VR) 에서 캐릭터를 더 생생하게 만들어주는 핵심 열쇠가 될 것입니다.