Each language version is independently generated for its own context, not a direct translation.

DISPLAY: 당신의 손끝에서 살아나는 '사람과 사물'의 춤

안녕하세요! 오늘 소개해 드릴 논문은 DISPLAY라는 이름의 새로운 인공지능 기술에 관한 것입니다. 이 기술은 단순히 사람이 움직이는 영상을 만드는 것을 넘어, 사람이 사물을 어떻게 다루는지 (예: 컵을 집어 들거나, 태블릿을 만지는 모습) 를 우리가 직접 지시하면, 마치 마법처럼 자연스럽게 만들어주는 시스템입니다.

이 복잡한 기술을 일상적인 언어와 비유로 쉽게 설명해 드릴게요.

1. 기존 기술의 문제점: "너무 까다로운 지시" vs "엉뚱한 결과"

기존의 영상 생성 AI 들은 두 가지 큰 문제를 겪고 있었습니다.

문제 1: 너무 많은 지시 (무거운 짐)
- 비유: 요리사가 요리를 하려고 하는데, 손가락 하나하나의 위치, 물체의 무게, 그림자의 방향까지 모두 정밀하게 지시해야만 요리를 해준다고 상상해 보세요. 너무 힘들죠?
- 현실: 기존 기술은 사람의 손 모양, 물체의 3D 깊이, 복잡한 뼈대 데이터 등 너무 많은 정보를 요구했습니다. 사용자가 직접 이 모든 것을 조절하기는 거의 불가능에 가까웠습니다.
문제 2: 엉뚱한 결과 (물체가 변형됨)
- 비유: "사과를 잡으세요"라고 했을 때, AI 가 사과를 잡으려다 사과가 납작해지거나, 손이 사과를 뚫고 지나가는 기괴한 장면을 만들어냅니다.
- 현실: 사람 (손) 에 대한 정보는 많지만, 물체에 대한 정보가 부족해서 AI 가 물체의 모양을 망가뜨리거나 물리 법칙을 무시하는 경우가 많았습니다.

2. DISPLAY 의 핵심 아이디어: "간단한 지시, 놀라운 결과"

이 연구팀은 **"적은 정보로도 충분히 잘할 수 있다"**는 발상을 했습니다. 이를 위해 DISPLAY라는 새로운 시스템을 만들었습니다.

🌟 핵심 비유: "연극 대본과 무대 지시"

이 시스템을 한 편의 연극으로 상상해 보세요.

희박한 운동 지시 (Sparse Motion Guidance): "연출가의 간단한 손짓"
- 기존에는 배우의 손가락 위치부터 발끝까지 모든 것을 정해야 했지만, DISPLAY 는 오직 두 가지만 요구합니다.
  - 손목의 위치: "손이 어디로 움직일지" (시작점과 끝점만 찍어주면 됩니다).
  - 물체의 크기 상자: "물체가 어느 정도 크고 어디에 있을지" (모양은 상관없고 크기만 알려주면 됩니다).
- 효과: 사용자가 캔버스에 몇 번 클릭해서 손목이 움직일 경로와 물체 위치만 대충 그려주면, AI 가 나머지 모든 디테일 (손가락이 어떻게 물체를 감싸는지, 물체가 어떻게 흔들리는지) 을 스스로 채워줍니다. 마치 간단한 스케치만으로도 완성된 명화를 그려내는 화가처럼요.
물체 스트레스 어텐션 (Object-Stressed Attention): "물체에게 더 집중하는 AI"
- 비유: 보통 AI 는 사람 (배우) 에만 집중하다 보니, 소품 (물체) 을 무시하고 망가뜨리곤 합니다. 하지만 DISPLAY 는 **"물체도 주인공이다!"**라고 외칩니다.
- 기능: AI 가 영상을 만들 때, 물체 관련 정보에 더 높은 점수를 매겨 집중하게 만듭니다. 그래서 컵이 손에 잡힐 때 컵이 찌그러지지 않고, 사람이 물건을 놓을 때 물건이 바닥에 자연스럽게 떨어집니다.
멀티 태스크 보조 훈련 (Multi-Task Auxiliary Training): "만능 배우 양성소"
- 문제: 사람과 사물이 상호작용하는 '고퀄리티' 영상 데이터는 정말 귀합니다.
- 해결: 이 시스템은 '완벽한 상호작용 데이터'뿐만 아니라, '단순히 사람이 움직이는 일반 영상'도 함께 학습합니다.
- 비유: 전문 무용수 (HOI 데이터) 만 가르치는 게 아니라, 평범하게 걷는 사람 (일반 데이터) 도 함께 훈련시켜 신체 균형감각을 기르게 합니다. 그래서 데이터가 부족해도 사람 몸의 움직임은 매우 자연스럽고, 물체와의 상호작용도 실수하지 않게 됩니다.

3. 이 기술로 무엇을 할 수 있나요? (실제 활용 예시)

이 기술을 사용하면 다음과 같은 일이 가능해집니다.

🔄 사물 교체 (Object Replacement):
- 영상 속 사람이 들고 있는 '빨간 컵'을 '초록색 병'으로 바꾸고 싶다면? AI 가 컵을 병으로 자연스럽게 바꾸고, 손이 병을 잡는 모습까지 만들어줍니다.
📦 사물 추가 (Object Insertion):
- 원래 영상에 없던 '태블릿'을 갑자기 등장시켜 사람이 집어 드는 장면을 만들고 싶다면? 사용자가 손목이 움직일 경로만 그려주면, 태블릿이 공중에서 나타나 손에 잡히는 마법 같은 장면을 만들어줍니다.
🌍 환경 상호작용 (Environmental Interaction):
- 책상 위에 놓인 '컵'을 사람이 집어 들어 마시는 장면을 만들고 싶다면? 컵이 원래 있던 자리와 손이 움직일 경로만 알려주면, 사람이 자연스럽게 컵을 집어 들고 마시는 영상을 생성합니다.

4. 결론: 왜 이 기술이 중요한가요?

DISPLAY는 "복잡한 기술 없이, 누구나 원하는 대로 영상을 만들 수 있게" 해줍니다.

이전: 전문가만 복잡한 데이터를 입력해야 함.
현재 (DISPLAY): 일반 사용자도 몇 번의 클릭으로 손목과 물체 위치만 지정하면, 물리 법칙을 따르는 자연스러운 영상을 만들어냅니다.

마치 마법 지팡이를 휘두르면, 손끝의 간단한 지시만으로 사람과 사물이 살아 움직이는 세상을 만들어내는 것과 같습니다. 이 기술은 광고 제작, 교육 콘텐츠, 엔터테인먼트 등 다양한 분야에서 우리의 상상력을 현실로 바꿔줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

기존의 인간 중심 비디오 생성 기술은 인간 얼굴이나 신체의 재현에는 큰 진전을 이루었으나, 인간 - 사물 상호작용 (Human-Object Interaction, HOI) 을 생성하는 데에는 다음과 같은 한계가 존재합니다.

제어의 비효율성과 물리적 불일치: 기존 방법들은 복잡한 텍스트 프롬프트, 템플릿 비디오, 또는 고차원의 밀집 제어 신호 (2D 포즈, 3D 핸드 메쉬, 객체 깊이 맵 등) 에 의존합니다. 이는 사용자의 직관적인 제어를 어렵게 하고, 새로운 (Novel) 객체를 삽입할 때 기하학적 침투 (interpenetration) 나 객체 변형과 같은 물리적 불일치를 초래합니다.
표현의 불균형: 기존 연구는 손의 제어 신호는 강력하게 표현하지만, 상호작용하는 객체에 대한 명시적인 구조적 표현이 부족하여 모델이 손의 제어 신호에 과도하게 적합 (overfit) 되는 경향이 있습니다.
데이터 부족: 고품질의 HOI 데이터는 부족하며, 가려짐 (occlusion) 등의 문제로 인해 학습 데이터의 양과 질이 제한적입니다.

2. 방법론 (Methodology)

이 논문은 DISPLAY라는 새로운 프레임워크를 제안하며, 세 가지 핵심 기술로 구성됩니다.

A. 희소 모션 가이드 (Sparse Motion Guidance)

기존의 복잡한 제어 신호 대신 사용자의 직관적인 입력만으로 HOI 를 제어합니다.

구성 요소: 손목 관절 좌표 (Wrist joint coordinates) 와 사물의 모양에 구애받지 않는 (shape-agnostic) 사물 바운딩 박스 (Bounding Box) 만을 사용합니다.
장점:
1. 불균형 해소: 손과 객체 간의 표현 불균형을 완화하고, 훈련과 추론 간의 불일치를 줄입니다.
2. 유연성: 템플릿 비디오나 복잡한 3D 데이터 없이, 캔버스상의 몇몇 핵심 프레임에서 손목 위치와 객체 크기만 지정하면 됩니다.

B. 객체 강조 어텐션 (Object-Stressed Attention)

희소한 조건 하에서도 객체의 물리적 일관성과 품질을 보장하기 위해 도입된 메커니즘입니다.

원리: 표준 자기 어텐션 (Self-Attention) 대신, 객체 토큰 (Object Tokens) 과 그 상호작용에 가중치 계수 ( $\alpha$ ) 를 부여하여 어텐션 가중치를 조정합니다.
효과: 희소한 모션 가이드만으로도 손과 객체 간의 자연스러운 상호작용을 학습하게 하며, 생성된 객체가 주변 환경과 인간 포즈와 물리적으로 일관되게 유지되도록 합니다.

C. 멀티 태스크 보조 학습 전략 (Multi-Task Auxiliary Training)

고품질 HOI 데이터의 부족 문제를 해결하기 위한 전략입니다.

데이터 큐레이션: 고품질 HOI 데이터와 명시적인 HOI 주석이 없는 일반 인간 중심 비디오를 혼합하여 사용합니다.
학습 방식:
- Human-Body Masking: 몸통 영역만 가리거나 전체 프레임을 가리는 전략을 통해 모델이 다양한 모달리티 (이미지 투 비디오, 비디오 인페인팅 등) 를 학습하도록 유도합니다.
- Multi-Task Training Mask: 모션 시퀀스와 마스크된 시퀀스에 베르누이 분포를 적용하여 일부 정보를 드롭 (Drop) 시킵니다. 이는 모델이 시작과 끝의 단서만으로 중간 모션을 추론하거나, 이미지에서 비디오를 생성하는 능력을 강화합니다.

D. 아키텍처

베이스 모델: 사전 훈련된 대규모 비디오 생성 모델 (Wan2.1-14B) 을 기반으로 합니다.
ControlNet 스타일: 사전 훈련된 T2V(Text-to-Video) 모델은 고정 (Frozen) 하고, 조건부 입력 (텍스트, 시각적 참조, 객체 참조, 희소 모션, 배경) 을 주입하는 별도의 Condition Branch를 추가합니다.
입력 파이프라인: 텍스트, 시각적 참조 (전체 장면), 객체 참조 (목표 객체), 희소 모션 가이드, 배경 조건을 통합하여 생성 과정을 조절합니다.

3. 주요 기여 (Key Contributions)

새로운 프레임워크 (DISPLAY): 희소 모션 가이드를 기반으로 한 직관적이고 고충실도의 HOI 비디오 생성 프레임워크를 제안했습니다.
객체 강조 어텐션 메커니즘: 희소한 조건 하에서도 객체의 물리적 일관성과 장면 통합성을 보장하는 새로운 어텐션 메커니즘을 도입했습니다.
멀티 태스크 보조 학습: 고품질 HOI 데이터의 부족을 극복하기 위해 다양한 데이터 소스와 학습 전략을 결합하여 모델의 일반화 능력을 향상시켰습니다.

4. 실험 결과 (Results)

정량적 평가: FID (이미지 품질), FVD (시간적 일관성), Hand Fidelity (손의 정확도), Object Fidelity (객체 유사도) 등 4 가지 측면에서 SOTA 모델 (VACE, HunyuanCustom, HuMo, Re-HOLD, AnchorCraft 등) 보다 우수한 성능을 보였습니다. 특히 객체 외관 보존 능력 (O-CLIP, O-DINO 점수) 에서 큰 개선을 이루었습니다.
정성적 평가:
- 객체 교체 (Object Replacement): 기존 비디오의 객체를 새로운 객체로 자연스럽게 교체하며, 손의 그립감이 유지됩니다.
- 객체 삽입 (Object Insertion): 원본 비디오에 없던 객체를 사용자가 지정한 모션에 따라 자연스럽게 삽입하고 상호작용시킵니다.
- 환경 상호작용: 비디오 내의 객체를 사용자가 직접 상호작용하도록 유도할 수 있습니다.
- 장기 비디오 생성: 연속된 프레임을 조건으로 사용하여 1 분 이상의 긴 비디오에서도 오류 누적이 발생하지 않습니다.

5. 의의 및 중요성 (Significance)

사용자 친화적 제어: 복잡한 3D 데이터나 템플릿 없이, 손목 위치와 객체 크기만 지정하는 간단한 인터페이스로 복잡한 HOI 를 제어할 수 있어 접근성이 크게 향상되었습니다.
실용적 응용: 전자상거래 (라이브 커머스), 엔터테인먼트, 교육 등 디지털 인간 기술의 실용적 배포 범위를 확장합니다.
기술적 진보: 기존 HOI 생성의 핵심 병목 현상이었던 '데이터 부족'과 '제어 신호의 불균형' 문제를 효과적으로 해결하여, 새로운 객체와의 상호작용 생성에 있어 새로운 기준을 제시했습니다.

이 연구는 텍스트 프롬프트나 복잡한 제어 신호에 의존하지 않고, 간결한 사용자 입력 (희소 모션) 으로만 고품질의 인간 - 사물 상호작용 비디오를 생성할 수 있음을 입증한 획기적인 작업입니다.

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary