Each language version is independently generated for its own context, not a direct translation.

PRISM: 움직임을 만드는 새로운 마법사

이 논문은 PRISM이라는 새로운 인공지능 모델을 소개합니다. 이 모델은 사람이 글을 읽으면 그 내용에 맞춰 자연스럽게 움직이는 3D 캐릭터를 만들어냅니다.

기존 기술들도 좋았지만, 두 가지 큰 문제가 있었습니다. PRISM은 이 두 문제를 아주 창의적인 방식으로 해결했습니다.

1. 문제: "한 덩어리"로 된 정보의 혼란

기존 방식:
기존의 AI 는 사람의 움직임을 한 장의 사진처럼 처리했습니다. 발, 손, 머리, 엉덩이 등 모든 관절의 움직임 정보를 **하나의 거대한 덩어리 (Latent Vector)**로 압축했습니다.

비유: 마치 모든 악기가 섞여 소음처럼 들리는 오케스트라를 한 대의 라디오로 듣는 것과 같습니다. AI 는 이 거대한 덩어리 속에서 "아, 이건 팔이 움직이는 신호구나, 저건 다리가 움직이는 신호구나"를 스스로 찾아내야 하므로 매우 힘들어하고, 결과적으로 움직임이 떨리거나 발이 바닥을 미끄러지는 (Foot sliding) 어색한 현상이 생깁니다.

PRISM 의 해결책: "개인 전용 좌석" (Joint-Factorized Latent)
PRISM 은 각 관절마다 **별개의 좌석 (Token)**을 만들어줍니다.

비유: 오케스트라에서 바이올린, 트럼펫, 드럼 등 각 악기마다 별도의 악보와 연주자를 둔 것과 같습니다. AI 는 이제 "팔이 어떻게 움직여야 하는지"와 "다리가 어떻게 움직여야 하는지"를 각각 명확하게 보고 배울 수 있습니다.
효과: AI 가 움직임을 이해하는 데 훨씬 수월해져서, 훨씬 자연스럽고 사실적인 동작을 만들어냅니다.

2. 문제: "긴 이야기"를 이어가는 어려움

기존 방식:
짧은 동작은 잘 만들지만, "A 가 걷다가 B 가 뛰어오르고 C 가 넘어진다"처럼 긴 이야기를 연속해서 만들면 AI 가 기억을 잃어버리거나 (Drift), 동작이 점점 망가져서 멈추게 됩니다.

비유: 긴 이야기를 들려줄 때, AI 가 앞부분을 잊어버리고 엉뚱한 결말을 말하거나, 이야기가 끊어지는 것과 같습니다.

PRISM 의 해결책: "깨끗한 연결고리" (Noise-Free Condition Injection)
PRISM 은 새로운 동작을 만들 때, 이전까지 만들어진 마지막 동작을 '깨끗한 정보'로 남겨두고 그 다음 부분만 새로 만들어냅니다.

비유: 영화를 찍을 때, 다음 장면을 찍기 위해 이미 찍힌 마지막 장면을 그대로 화면에 띄워두고 배우들이 그 흐름에 맞춰 다음 장면을 연기하는 것과 같습니다.
핵심 기술: AI 는 "이 부분은 이미 정해진 깨끗한 정보 (조건)"와 "이 부분은 이제부터 만들어야 할 잡음 (노이즈)"을 구별할 수 있습니다. 덕분에 텍스트로만 시작하든, 특정 자세에서 시작하든, 혹은 긴 이야기를 이어가든 하나의 모델로 모두 완벽하게 처리할 수 있습니다.

PRISM 이 가져온 놀라운 변화

단 하나의 모델로 모든 것 해결:
- "걷기"라고만 해도 걷고, "손을 흔들며 웃어라"라고 해도 웃으며 걷습니다.
- 특정 자세에서 시작하라고 해도 그 자세를 유지하며 다음 동작을 이어갑니다.
- 긴 이야기를 주면 끊김 없이 10 개 이상의 장면을 이어 붙여 긴 영화를 만들어냅니다.
오류가 쌓이지 않음 (Self-Forcing):
- 기존 방식은 앞부분의 작은 실수가 다음 부분으로 넘어가며 점점 커져서 결국 캐릭터가 넘어지는 일이 많았습니다.
- PRISM 은 훈련 과정에서 스스로 만든 동작을 다시 입력받아 다음 장면을 만드는 연습을 합니다. (스스로를 가르치는 방식) 덕분에 12 초짜리 짧은 영상으로 훈련했음에도 불구하고, 수십 분에 달하는 긴 영상에서도 흔들림 없이 안정적으로 움직입니다.

요약하자면?

PRISM 은 **"각 관절을 따로따로 관리하는 지능"**과 **"이전 장면을 깨끗하게 연결하는 기술"**을 결합했습니다. 덕분에 AI 가 사람의 움직임을 만들 때, 더 이상 어색한 로봇 같은 동작이 아니라, 실제 사람처럼 자연스럽고 긴 이야기를 따라가며 춤추는 듯한 움직임을 만들어냅니다.

이 기술은 게임, 영화, 가상 현실 (VR) 에서 캐릭터를 더 생생하게 만들어주는 핵심 열쇠가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제점 (Problem)

기존의 텍스트 기반 3D 인간 모션 생성 (Text-to-Motion) 기술은 급속히 발전했으나, 두 가지 근본적인 한계에 직면해 있었습니다.

비구조화된 잠재 공간 (Unstructured Latent Space): 기존 모션 오토인코더는 각 프레임의 모든 정보 (전체 궤적, 관절 회전, 보조 신호 등) 를 단일한 '모놀리식 (monolithic)' 잠재 벡터로 압축합니다. 이로 인해 생성 모델은 서로 다른 물리적 단위와 스케일을 가진 이질적인 신호들을 암묵적으로 분리 (disentangle) 해야 하는 부담을 지게 되어, 생성 품질이 저하되고 진동 (jitter), 발 미끄러짐 (foot sliding) 등의 아티팩트가 발생합니다.
작업별 분리 및 장기 생성의 불안정성: 텍스트 - 모션 (T2M), 포지션 조건 생성 (Pose-conditioned), 긴 시퀀스 생성은 보통 별도의 모델이나 메커니즘이 필요합니다. 또한, autoregressive(자기회귀) 방식으로 긴 시퀀스를 생성할 때 오류가 누적되어 궤적 이탈 (drift) 이나 모션 붕괴가 발생하는 문제가 있었습니다.

2. 제안 방법: PRISM (Methodology)

저자들은 PRISM을 제안하며, 위 문제들을 해결하기 위해 두 가지 핵심 기여를 통해 단일 모델로 모든 작업을 통합했습니다.

A. 관절 분해형 잠재 공간 (Joint-Factorized Motion Latent Space)

구조: 기존처럼 프레임당 하나의 토큰을 사용하는 대신, 각 신체 관절 (Root, Global Orientation, 21 개 관절 회전) 마다 별도의 토큰을 할당합니다. 이를 통해 시간 (Time) 과 관절 (Joints) 이 교차하는 구조화된 2D 잠재 그리드를 형성합니다.
Causal VAE: 이 2D 그리드를 인코딩하기 위해 인과적 (causal) 시공간 VAE를 사용합니다. 이는 과거 프레임만 참조하여 인코딩하므로, 전체 시퀀스를 다시 인코딩하지 않고도 새로운 세그먼트를 점진적으로 추가할 수 있습니다.
FK Supervision (전방 운동학 감독): 회전 공간 (Rotation space) 에서 직접 학습하되, 생성된 회전 각도가 실제 3D 관절 위치로 변환되었을 때의 오차를 보정하기 위해 전방 운동학 (Forward Kinematics, FK) 기반의 손실 함수를 도입했습니다. 이는 근위 관절의 작은 오차가 원위 관절에서 큰 위치 오차로 증폭되는 것을 방지합니다.

B. 무조건부 조건 주입 (Noise-Free Condition Injection)

원리: 각 잠재 토큰에 고유한 **타임스텝 임베딩 (timestep embedding)**을 부여합니다.
작동 방식:
- 조건부 프레임 (Conditioning frames): 타임스텝 $t=0$ 으로 설정하여 '깨끗한 (noise-free)' 토큰으로 주입합니다.
- 생성 타겟: 나머지 토큰은 $t>0$ 으로 설정하여 노이즈 제거 (denoising) 과정을 거칩니다.
효과: 이 메커니즘을 통해 텍스트 - 모션 생성, 포지션 조건 생성, 그리고 자기회귀적 시퀀스 체이닝을 아키텍처 변경 없이 단일 모델에서 처리할 수 있습니다.

C. 자기 강제 학습 (Self-Forcing) 및 스트리밍

Drift 억제: 긴 시퀀스 생성 시 발생하는 오류 누적을 막기 위해 Self-Forcing 전략을 사용합니다. 학습 시 모델이 생성한 출력을 다시 인코딩하여 다음 세그먼트의 조건으로 사용하는 실제 추론 파이프라인을 시뮬레이션합니다.
결과: 훈련 데이터의 길이 (약 12 초, 360 프레임) 를 훨씬 초과하는 10 개 이상의 연속된 세그먼트를 안정적으로 생성할 수 있습니다.

3. 주요 기여 (Key Contributions)

구조화된 잠재 공간 설계: 모션 생성의 병목이 생성기 (Generator) 가 아닌 잠재 공간 (Latent Space) 설계에 있음을 규명하고, 관절 단위 분해가 생성 품질을 획기적으로 향상시킴을 증명했습니다.
범용 생성 프레임워크: 텍스트, 포지션, 긴 시퀀스 생성 등 다양한 작업을 별도의 인페인팅 (inpainting) 네트워크나 특수 메커니즘 없이 단일 Flow Matching DiT 모델로 통합했습니다.
무제한 스트리밍 생성: Self-Forcing 과 Noise-Free Condition Injection 을 결합하여 훈련 범위를 훨씬 넘어선 긴 시퀀스에서도 안정적인 모션 생성이 가능하게 했습니다.

4. 실험 결과 (Results)

PRISM 은 HumanML3D, MotionHub, BABEL 등 주요 벤치마크에서 State-of-the-Art (SOTA) 성능을 기록했습니다.

Text-to-Motion (HumanML3D & MotionHub):
- FID 점수가 기존 최상위 모델 (ViMoGen 등) 대비 55% 개선 (0.027).
- R-Precision 은 실제 모션 데이터와 1.4% 차이 내로 근접 (0.893 vs 0.906).
- 다양한 텍스트 설명에 대해 물리적으로 타당하고 자연스러운 모션을 생성.
Pose-Conditioned Generation:
- 초기 포즈 (1, 5, 9 프레임) 를 조건으로 할 때, 기존 모델 (FlowMDM 등) 보다 훨씬 높은 정밀도와 품질을 보임 (FID 0.023~0.053).
Long-Horizon Sequential Generation (BABEL):
- 시퀀스 간 전환 (Transition) 의 부드러움과 전체 품질에서 SOTA 달성.
- Self-Forcing 을 통해 10 개 이상의 연속 세그먼트에서도 궤적 이탈 없이 일관된 모션 생성 가능.
Narrative Motion Composition:
- 자유 형식의 서사적 텍스트 (예: "전사가 문에 접근하고, 벽 뒤에 엎드린 후 옆으로 굴러 일어난다") 를 입력받아 여러 하위 동작을 매끄럽게 연결하는 데 성공. 사용자 연구에서 MotionStreamer 대비 70% 이상 선호도를 기록.

5. 의의 및 결론 (Significance)

PRISM 은 인간 모션 생성 분야에서 **생성기 모델의 규모 확장 (Scaling)**에만 의존하던 기존 패러다임을 전환시켰습니다. 이 논문은 **잠재 공간의 구조적 설계 (Structure of Latent Space)**가 생성 품질의 핵심 열쇠임을 입증했습니다.

특히, 단일 모델로 텍스트 기반 생성, 포지션 기반 생성, 그리고 무제한 길이의 스트리밍 생성을 모두 처리할 수 있게 함으로써, 게임, 영화, 가상현실 (VR), 그리고 embodied AI 분야에서 실시간적이고 확장 가능한 고품질 모션 생성 솔루션을 제시했다는 점에서 큰 의의가 있습니다.

PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

PRISM: 움직임을 만드는 새로운 마법사

1. 문제: "한 덩어리"로 된 정보의 혼란

2. 문제: "긴 이야기"를 이어가는 어려움

PRISM 이 가져온 놀라운 변화

요약하자면?

1. 연구 배경 및 문제점 (Problem)

2. 제안 방법: PRISM (Methodology)

A. 관절 분해형 잠재 공간 (Joint-Factorized Motion Latent Space)

B. 무조건부 조건 주입 (Noise-Free Condition Injection)

C. 자기 강제 학습 (Self-Forcing) 및 스트리밍

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes