WHOLE: World-Grounded Hand-Object Lifted from Egocentric Videos

이 논문은 안경형 (egocentric) 비디오에서 심한 가려짐과 시야 이탈 문제를 해결하기 위해 손과 물체의 상호작용을 통합적으로 모델링하는 생성적 사전 지식을 학습하여, 손의 모션과 물체의 6D 포즈를 세계 좌표계에서 일관되게 재구성하는 WHOLE 방법을 제안합니다.

Yufei Ye, Jiaman Li, Ryan Rong, C. Karen Liu

게시일 2026-02-26
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

WHOLE: 시선으로 세상을 다시 그리는 마법 같은 기술

이 논문은 **"WHOLE"**이라는 새로운 기술을 소개합니다. 이 기술은 우리가 안경이나 카메라를 쓰고 주변을 돌아다니며 찍은 영상 (1 인칭 시점 영상) 을 보고, 손과 물체가 어떻게 움직이고 상호작용하는지 3 차원 세계 속에서 완벽하게 재구성해냅니다.

기존 기술들이 가진 문제점과 WHOLE 이 어떻게 해결했는지, 쉬운 비유로 설명해 드릴게요.


1. 왜 이 기술이 필요한가요? (기존의 문제점)

우리가 안경을 쓰고 물건을 집어 올리거나, 선반에서 캔을 꺼내는 영상을 찍으면 카메라는 우리 시선과 함께 움직입니다.

  • 문제 1: 가려짐 (Occlusion) 손이 물체를 가리면 물체가 어디로 갔는지 알 수 없습니다.
  • 문제 2: 시야 밖으로 나감 물체가 카메라에서 사라졌다가 다시 나타날 수 있습니다.
  • 문제 3: 따로 놀기 기존 기술들은 '손'의 움직임을 분석하는 프로그램과 '물체'의 움직임을 분석하는 프로그램을 따로 돌립니다. 그래서 손이 물건을 잡았을 때, 손과 물체의 위치가 서로 안 맞거나 (예: 손이 공중에 떠 있거나, 물체가 손에 안 닿는 등) 어색한 결과가 나옵니다.

비유: 마치 두 명의 화가가 같은 장면을 그릴 때, 한 사람은 '손'만 그리고 다른 사람은 '물건'만 그린 뒤, 나중에 두 그림을 억지로 붙여놓는 것과 같습니다. 손이 물건을 잡는 순간이 어색하게 끊어지거나, 손이 물건을 관통하는 기이한 그림이 나올 수 있죠.


2. WHOLE 의 핵심 아이디어: "함께 생각하기"

WHOLE 은 손과 물체를 하나의 팀으로 생각합니다. "손이 물건을 잡으면 물체는 어떻게 움직여야 할까?", "물체가 떨어지면 손은 어떻게 반응해야 할까?"를 함께 추론합니다.

핵심 메커니즘 1: "생각하는 뇌" (생성적 사전 지식)

WHOLE 은 먼저 수많은 손과 물체의 상호작용 데이터를 학습합니다. 마치 유능한 무용수나 마술사처럼, "손이 물건을 잡을 때 보통 어떻게 움직이는지", "물건이 떨어질 때 어떤 궤적을 그리는지"에 대한 **본능적인 지식 (생성적 사전 지식)**을 가지고 있습니다.

핵심 메커니즘 2: "눈과 귀" (가이드)

하지만 이 '뇌'만으로는 실제 영상과 다를 수 있습니다. 그래서 WHOLE 은 실제 영상에서 얻은 정보를 '눈'과 '귀'로 받아들여 방향을 잡습니다.

  • 눈 (비전 모델): 물체가 화면의 어디에 있는지, 손이 어디에 있는지 (마스크) 를 봅니다.
  • 귀 (VLM - 시각 언어 모델): "지금 손이 물건을 잡고 있는가?"를 물어봅니다. 최신 AI(비전 언어 모델) 를 활용해 "손이 컵을 잡고 있다"는 사실을 자동으로 찾아냅니다.

비유: WHOLE 은 **유능한 무용수 (생성 모델)**가 무대 (실제 영상) 위에서 춤을 추는 상황입니다. 무용수는 기본적인 춤 동작을 잘 알고 있지만, 무대 위의 조명 (영상의 손과 물체 위치) 과 감독의 지시 (손이 잡았는지 여부) 에 맞춰 춤을 수정하며 완벽하게 맞춰 춥니다.


3. 어떻게 작동하나요? (과정)

  1. 입력: 안경으로 찍은 영상과 물체의 3D 모양 (템플릿) 을 줍니다.
  2. 초기 추정: 먼저 손이 대략 어디에 있는지, 물체가 어디에 있는지 어림잡아 봅니다.
  3. 교정 (가이드드 생성):
    • 무용수 (생성 모델) 가 춤을 추기 시작합니다.
    • 감독 (가이드) 이 "아니야, 그건 손이 물건을 잡은 순간이 아니야", "물체가 여기 있으면 안 돼"라고 지시합니다.
    • 무용수는 지시를 받으며 춤을 다시 추고, 이 과정을 반복합니다.
  4. 결과: 손과 물체가 자연스럽게 상호작용하며, 카메라 밖으로 사라졌다가 다시 나타날 때도 일관된 3D 궤적을 그리며 재구성됩니다.

4. 왜 이 기술이 특별한가요?

  • 자연스러운 상호작용: 손이 물건을 잡을 때 물체가 공중에 뜨지 않고, 손이 물건을 놓을 때 물체가 자연스럽게 떨어집니다.
  • 눈에 보이지 않아도 추론 가능: 물체가 손에 가려져서 보이지 않아도, "손이 잡았으니 물체는 손과 함께 움직였을 거야"라고 추론해서 사라진 물체의 위치를 정확히 찾아냅니다.
  • 로봇과 VR 에 유용: 이 기술을 통해 로봇은 사람의 행동을 더 잘 이해하고, VR/AR 에서는 현실감 있는 상호작용을 구현할 수 있습니다.

요약

WHOLE은 "손"과 "물체"를 따로 보지 않고, 서로 대화하듯 함께 움직이는 3D 세계를 만들어내는 기술입니다. 마치 현실감 있는 영화를 만드는 감독처럼, 카메라가 흔들리고 물체가 가려져도 손과 물체의 진짜 움직임을 완벽하게 복원해냅니다.

이 기술은 앞으로 우리가 로봇에게 일을 가르치거나, 가상현실에서 더 현실적인 경험을 하는 데 큰 도움을 줄 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →