Each language version is independently generated for its own context, not a direct translation.

WHOLE: 시선으로 세상을 다시 그리는 마법 같은 기술

이 논문은 **"WHOLE"**이라는 새로운 기술을 소개합니다. 이 기술은 우리가 안경이나 카메라를 쓰고 주변을 돌아다니며 찍은 영상 (1 인칭 시점 영상) 을 보고, 손과 물체가 어떻게 움직이고 상호작용하는지 3 차원 세계 속에서 완벽하게 재구성해냅니다.

기존 기술들이 가진 문제점과 WHOLE 이 어떻게 해결했는지, 쉬운 비유로 설명해 드릴게요.

1. 왜 이 기술이 필요한가요? (기존의 문제점)

우리가 안경을 쓰고 물건을 집어 올리거나, 선반에서 캔을 꺼내는 영상을 찍으면 카메라는 우리 시선과 함께 움직입니다.

문제 1: 가려짐 (Occlusion) 손이 물체를 가리면 물체가 어디로 갔는지 알 수 없습니다.
문제 2: 시야 밖으로 나감 물체가 카메라에서 사라졌다가 다시 나타날 수 있습니다.
문제 3: 따로 놀기 기존 기술들은 '손'의 움직임을 분석하는 프로그램과 '물체'의 움직임을 분석하는 프로그램을 따로 돌립니다. 그래서 손이 물건을 잡았을 때, 손과 물체의 위치가 서로 안 맞거나 (예: 손이 공중에 떠 있거나, 물체가 손에 안 닿는 등) 어색한 결과가 나옵니다.

비유: 마치 두 명의 화가가 같은 장면을 그릴 때, 한 사람은 '손'만 그리고 다른 사람은 '물건'만 그린 뒤, 나중에 두 그림을 억지로 붙여놓는 것과 같습니다. 손이 물건을 잡는 순간이 어색하게 끊어지거나, 손이 물건을 관통하는 기이한 그림이 나올 수 있죠.

2. WHOLE 의 핵심 아이디어: "함께 생각하기"

WHOLE 은 손과 물체를 하나의 팀으로 생각합니다. "손이 물건을 잡으면 물체는 어떻게 움직여야 할까?", "물체가 떨어지면 손은 어떻게 반응해야 할까?"를 함께 추론합니다.

핵심 메커니즘 1: "생각하는 뇌" (생성적 사전 지식)

WHOLE 은 먼저 수많은 손과 물체의 상호작용 데이터를 학습합니다. 마치 유능한 무용수나 마술사처럼, "손이 물건을 잡을 때 보통 어떻게 움직이는지", "물건이 떨어질 때 어떤 궤적을 그리는지"에 대한 **본능적인 지식 (생성적 사전 지식)**을 가지고 있습니다.

핵심 메커니즘 2: "눈과 귀" (가이드)

하지만 이 '뇌'만으로는 실제 영상과 다를 수 있습니다. 그래서 WHOLE 은 실제 영상에서 얻은 정보를 '눈'과 '귀'로 받아들여 방향을 잡습니다.

눈 (비전 모델): 물체가 화면의 어디에 있는지, 손이 어디에 있는지 (마스크) 를 봅니다.
귀 (VLM - 시각 언어 모델): "지금 손이 물건을 잡고 있는가?"를 물어봅니다. 최신 AI(비전 언어 모델) 를 활용해 "손이 컵을 잡고 있다"는 사실을 자동으로 찾아냅니다.

비유: WHOLE 은 **유능한 무용수 (생성 모델)**가 무대 (실제 영상) 위에서 춤을 추는 상황입니다. 무용수는 기본적인 춤 동작을 잘 알고 있지만, 무대 위의 조명 (영상의 손과 물체 위치) 과 감독의 지시 (손이 잡았는지 여부) 에 맞춰 춤을 수정하며 완벽하게 맞춰 춥니다.

3. 어떻게 작동하나요? (과정)

입력: 안경으로 찍은 영상과 물체의 3D 모양 (템플릿) 을 줍니다.
초기 추정: 먼저 손이 대략 어디에 있는지, 물체가 어디에 있는지 어림잡아 봅니다.
교정 (가이드드 생성):
- 무용수 (생성 모델) 가 춤을 추기 시작합니다.
- 감독 (가이드) 이 "아니야, 그건 손이 물건을 잡은 순간이 아니야", "물체가 여기 있으면 안 돼"라고 지시합니다.
- 무용수는 지시를 받으며 춤을 다시 추고, 이 과정을 반복합니다.
결과: 손과 물체가 자연스럽게 상호작용하며, 카메라 밖으로 사라졌다가 다시 나타날 때도 일관된 3D 궤적을 그리며 재구성됩니다.

4. 왜 이 기술이 특별한가요?

자연스러운 상호작용: 손이 물건을 잡을 때 물체가 공중에 뜨지 않고, 손이 물건을 놓을 때 물체가 자연스럽게 떨어집니다.
눈에 보이지 않아도 추론 가능: 물체가 손에 가려져서 보이지 않아도, "손이 잡았으니 물체는 손과 함께 움직였을 거야"라고 추론해서 사라진 물체의 위치를 정확히 찾아냅니다.
로봇과 VR 에 유용: 이 기술을 통해 로봇은 사람의 행동을 더 잘 이해하고, VR/AR 에서는 현실감 있는 상호작용을 구현할 수 있습니다.

요약

WHOLE은 "손"과 "물체"를 따로 보지 않고, 서로 대화하듯 함께 움직이는 3D 세계를 만들어내는 기술입니다. 마치 현실감 있는 영화를 만드는 감독처럼, 카메라가 흔들리고 물체가 가려져도 손과 물체의 진짜 움직임을 완벽하게 복원해냅니다.

이 기술은 앞으로 우리가 로봇에게 일을 가르치거나, 가상현실에서 더 현실적인 경험을 하는 데 큰 도움을 줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

이 논문은 1 인칭 시점 (Egocentric) 비디오에서 손 (Hand) 과 조작 대상 물체 (Object) 의 운동을 세계 좌표계 (World Space) 내에서 통합적으로 재구성하는 문제를 다룹니다. 기존 연구들이 직면한 주요 난제는 다음과 같습니다:

심한 가림 (Severe Occlusions): 손과 물체 간의 상호작용 시 발생하는 빈번한 가림 현상.
시야 이탈 (Out-of-Sight): 사용자가 이동함에 따라 물체가 카메라 시야를 벗어났다 다시 들어오는 경우.
불일치 (Inconsistency): 기존 방법들은 손과 물체의 포즈를 각각 독립적으로 예측하는 경우가 많아, 상호작용 시 물리적으로 비현실적인 관계 (예: 손이 물체를 관통하거나 공중에 떠 있는 현상) 가 발생합니다.
전역적 맥락 부재: 대부분의 기존 HOI(Hand-Object Interaction) 연구는 짧은 클립이나 로컬 좌표계에만 집중하여, 지속적인 3D 세계에서의 운동 궤적을 재구성하지 못합니다.

2. 방법론 (Methodology)

저자들은 WHOLE이라는 새로운 프레임워크를 제안하며, 이는 **학습된 생성 운동 사전 (Generative Motion Prior)**과 **비디오 관측 기반의 유도 (Guidance)**를 결합합니다.

2.1. 생성 운동 사전 (Generative Hand-Object Motion Prior)

확산 모델 (Diffusion Model): 손과 물체의 상호작용에 대한 생성적 사전 지식을 학습합니다.
입력 조건:
- 대략적으로 추정된 손 궤적 ( $\bar{H}$ ): 상용 손 추정기 (Off-the-shelf estimator) 로부터 얻음.
- 물체 템플릿 (Object Template): 3D 메쉬 정보.
출력: 정제된 손 운동 ( $H$ ), 물체의 6D 궤적 ( $T$ ), 그리고 손 - 물체 접촉 여부 ( $C$ ).
표현 방식:
- 손: MANO 파라미터 (전역 방향, 이동, 관절 각도 등).
- 물체: SE(3) 변환 (9D 표현).
- 중요한 특징: 중력 방향을 고려한 로컬 좌표계 (Gravity-Aware Local Frame) 를 사용하여, 카메라의 임의적인 회전보다는 손과 물체의 상대적 운동에 집중하도록 설계되었습니다.
학습 전략: 실제 추정기의 노이즈를 모방하기 위해 훈련 중 손 궤적에 인위적인 노이즈와 가림을 주입하여 모델의 견고성을 높였습니다.

2.2. 유도된 생성 (Guided Generation)

학습된 사전 모델을 테스트 시 비디오 관측치에 맞춰 조정하여 재구성을 수행합니다.

클래식ifier 유도 (Classifier Guidance): 확산 모델의 점수 (Score) 를 수정하여 작업별 목적 함수를 반영합니다. 이는 수천 번의 최적화 단계를 필요로 하는 SDS(Score Distillation Sampling) 보다 빠르고 효율적입니다.
유도 신호 (Guidance Signals):
1. 2D 마스크: 손과 물체의 분할 마스크.
2. 접촉 정보 (Contact Cues): **비전 - 언어 모델 (VLM)**을 활용하여 손과 물체의 접촉 여부를 자동으로 라벨링합니다. VLM 에 공간적 프롬프팅 (Spatial Prompting) 을 적용하여 복잡한 장면에서도 정확한 접촉 위치를 식별합니다.
목적 함수:
- 재투영 손실 (Reprojection Loss): 생성된 3D 데이터를 2D 마스크 및 관절 위치와 정렬.
- 상호작용 손실 (Interaction Loss): 접촉 시 물체의 강체 운동 (Rigid Transport) 유지 및 비접촉 시 거리 최소화.
- 시간적 부드러움 (Temporal Smoothness): 가속도 급변 방지.

2.3. 긴 비디오 처리 (Blending Long Videos)

확산 모델은 고정된 시간 창 (120 프레임) 을 처리하므로, 긴 시퀀스를 위해 중첩되는 슬라이딩 윈도우 방식을 사용합니다. 각 윈도우를 병렬로 디노이즈하고, 겹치는 영역을 블렌딩하여 매끄러운 전역 궤적을 생성합니다.

3. 주요 기여 (Key Contributions)

통합적 재구성 프레임워크: 손과 물체의 운동을 분리하지 않고, 상호작용을 고려하여 세계 좌표계에서 통합적으로 재구성하는 최초의 방법 중 하나입니다.
생성적 사전 지식 활용: 손 - 물체 상호작용의 물리적 규칙을 학습된 확산 모델 사전 (Prior) 으로 인코딩하여, 가림이나 시야 이탈 상황에서도 물리적으로 타당한 추론이 가능하게 합니다.
VLM 기반 접촉 감지: VLM 과 공간 프롬프팅을 결합하여 정밀한 접촉 라벨을 자동으로 생성하고, 이를 재구성 과정에 효과적으로 통합했습니다.
SOTA 성능: 손 운동 추정, 6D 물체 포즈 추정, 그리고 상호작용 재구성 모든 분야에서 기존 최첨단 방법 (Baselines) 을 압도하는 성능을 달성했습니다.

4. 실험 결과 (Results)

데이터셋: HOT3D (Aria 안경으로 촬영된 1 인칭 손 - 물체 상호작용 데이터) 를 사용했습니다.
비교 대상:
- 손 운동: HaMeR, HaWoR.
- 물체 포즈: FoundationPose (FP).
- 결합 베이스라인: FP 와 HaWoR 을 결합한 후 최적화 수행 (FP+HaWoR-simple/contact).
성능 지표:
- 손 운동: 전역 정렬 (W-MPJPE), 시간적 부드러움 (ACC-NORM) 에서 WHOLE 이 가장 우수한 성능을 보였습니다. 특히 HaWoR 대비 국소 손 포즈 정확도가 크게 향상되었습니다.
- 물체 운동: 가림 (Truncated) 이나 시야 이탈 (Out-of-view) 상황에서도 WHOLE 은 FP 나 결합 베이스라인보다 훨씬 견고한 궤적을 생성했습니다. (ADD, ADD-S 점수에서 압도적 우위).
- 상호작용 질: 손과 물체의 상대적 정렬 오류가 가장 낮았으며, 물리적으로 일관된 (Floating 현상 없음) 재구성을 보여주었습니다.
제너럴라이제이션: 학습 데이터셋 (HOT3D) 과 다른 H2O 데이터셋에 대한 제로샷 (Zero-shot) 테스트에서도 기존 RGB 기반 방법들이 붕괴되는 것과 달리, WHOLE 은 어느 정도 성능을 유지하며 견고성을 입증했습니다.

5. 의의 및 결론 (Significance & Conclusion)

WHOLE 은 1 인칭 비디오에서 인간과 사물의 상호작용을 이해하는 데 있어 중요한 진전을 이룩했습니다.

로봇 학습 및 AR/VR: 인간 시연으로부터 로봇이 행동을 학습하거나, 몰입형 가상 환경을 구축하는 데 필수적인 정밀한 3D 공간 추론 능력을 제공합니다.
물리 일관성: 단순한 포즈 추정을 넘어, 손과 물체가 어떻게 상호작용하는지에 대한 물리적 제약을 학습 모델에 내재화함으로써, 가림이나 정보 부족 상황에서도 신뢰할 수 있는 재구성이 가능함을 증명했습니다.
확장성: 이 프레임워크는 향후 더 복잡한 다중 물체 장면이나 템플릿이 없는 상황으로 확장될 수 있는 잠재력을 가지고 있습니다.

요약하자면, WHOLE 은 생성적 모델의 강력한 사전 지식과 비전 - 언어 모델의 지능적 관측을 결합하여, 기존 방법론이 해결하지 못했던 1 인칭 시점의 복잡한 손 - 물체 상호작용 재구성 문제를 성공적으로 해결한 획기적인 연구입니다.

WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos