Human3R: Everyone Everywhere All at Once

본 논문은 단일 순방향 통과로 casually 촬영된 모노큘러 비디오에서 전 세계 좌표계 기반의 다중 인간 (SMPL-X), 밀집 3D 장면, 카메라 궤적을 동시에 복원하는 통합 피드포워드 프레임워크 'Human3R'을 제안하며, 기존 다단계 파이프라인과 무거운 의존성을 제거하고 실시간 (15 FPS) 성능을 달성합니다.

Yue Chen, Xingyu Chen, Yuxuan Xue, Anpei Chen, Yuliang Xiu, Gerard Pons-Moll

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

인간 3R (Human3R): "모든 사람, 모든 곳, 한 번에" 보는 AI

이 논문은 ICLR 2026에 발표된 획기적인 연구로, 우리가 스마트폰이나 카메라로 찍은 평범한 영상에서 사람, 배경, 카메라의 움직임까지 3 차원 공간에서 한 번에 재구성하는 새로운 인공지능을 소개합니다.

이 복잡한 기술을 쉽게 이해할 수 있도록 요리마법에 비유해서 설명해 드릴게요.


1. 기존 방식 vs. 새로운 방식: "조리 과정"의 차이

과거의 3D 재구성 기술들은 마치 여러 명의 요리사가 각자 다른 재료를 따로따로 다듬어서 나중에 합치는 방식과 같았습니다.

  • 기존 방식 (다단계): 먼저 사람을 찾아내고 (감지), 배경을 따로 분석하고 (SLAM), 카메라의 움직임을 계산하고, 그다음에야 사람과 배경을 합쳐서 3D 모델을 만들었습니다. 이 과정은 시간이 오래 걸리고, 각 단계마다 다른 도구가 필요해서 실시간으로 하기 매우 어려웠습니다.
  • Human3R (한 번에): 이 새로운 기술은 한 명의 천재 요리사가 모든 재료를 한 번에 보고, 동시에 요리하는 방식입니다.
    • 모든 사람 (Everyone): 영상 속 여러 사람을 한 번에 찾아냅니다.
    • 모든 곳 (Everywhere): 배경과 사물까지 3D 공간으로 재구성합니다.
    • 한 번에 (All-at-once): 이 모든 것을 단 한 번의 작업으로 실시간에 가깝게 (초당 15 프레임) 처리합니다.

2. 핵심 기술: "기억력"과 "마법 지팡이"

이 기술의 비결은 두 가지 핵심 아이디어에 있습니다.

A. CUT3R: "오래된 기억을 가진 마법사"

연구팀은 이미 3D 공간과 시간의 흐름을 잘 이해하는 거대 모델인 CUT3R을 베이스로 사용했습니다.

  • 비유: 이 모델은 마치 오래된 도서관의 사서와 같습니다. 수많은 3D 장면과 움직임을 기억하고 있어서, 새로운 영상을 볼 때 "아, 이건 저기서 이런 식으로 움직이는구나"라고 이미 알고 있는 지식 (사전 지식) 을 활용합니다.
  • 장점: 처음부터 모든 것을 배우지 않아도 되므로, 데이터도 적게 들고 학습도 매우 빠릅니다 (하드웨어 1 대에서 단 하루 만에 학습 완료!).

B. 인간 프롬프트 (Human Prompt): "사람을 찾는 마법 지팡이"

기존 사서는 '사람'에 대한 세부적인 지식이 부족했습니다. 그래서 연구팀은 Multi-HMR이라는 '사람 전문' 모델을 연결했습니다.

  • 비유: 사서에게 사람을 찾는 마법 지팡이를 쥐여준 셈입니다. 이 지팡이는 영상 속 사람의 '머리'를 먼저 찾아내고, 그 정보를 바탕으로 전신 (손, 발, 표정 포함) 을 상상해냅니다.
  • 효과: 이 지팡이를 통해 사서는 배경을 해치지 않으면서도 사람에 대한 정밀한 3D 모델을 즉시 그려낼 수 있게 되었습니다.

3. 왜 이것이 놀라운가요?

  1. 실시간성 (Real-time): 과거에는 몇 시간 걸리던 작업을 실시간으로 처리합니다. 마치 영상을 보며 동시에 3D 게임처럼 배경과 사람을 입체적으로 볼 수 있는 것입니다.
  2. 간소화 (One-stop): 별도의 복잡한 도구 (사람 찾기 프로그램, 깊이 측정기 등) 가 필요 없습니다. 하나의 프로그램으로 모든 것을 해결합니다.
  3. 혼잡한 상황도 OK: 사람이 많고 서로 가려져도 (Occlusion), 이 기술은 여러 사람을 동시에 추적하고 3D 공간에 배치할 수 있습니다. 마치 혼잡한 광장에서 각자의 위치를 정확히 파악하는 것처럼요.
  4. 작은 비용: 고가의 슈퍼컴퓨터가 아니라, 일반적인 고성능 그래픽카드 하나만 있으면 학습과 실행이 가능합니다.

4. 실제 활용 예시

이 기술이 완성되면 어떤 일이 가능해질까요?

  • AR/VR: 가상의 인물이 실제 방에 들어와서 의자에 앉는 것을 실시간으로 자연스럽게 보여줄 수 있습니다.
  • 로봇 공학: 로봇이 사람과 상호작용할 때, 사람의 위치와 움직임을 3D 로 정확히 이해하여 안전하게 움직일 수 있습니다.
  • 자율 주행: 차가 보행자를 인식할 때, 단순히 "사람이 있다"가 아니라 "그 사람이 앞으로 걸어갈지, 멈출지"를 3D 공간에서 예측할 수 있습니다.

요약

Human3R은 "사람, 배경, 카메라"라는 세 가지 요소를 따로따로 분석하던 구시대적 방식을 버리고, 하나의 통합된 AI가 마치 마법처럼 영상 속 모든 것을 3D 세계로 한 번에 불러와 재구성하는 기술입니다.

이는 더 이상 복잡한 설정이나 긴 시간이 필요하지 않은, 쉽고 강력한 3D vision 의 새로운 기준이 될 것입니다.

한 줄 평: "복잡한 요리 과정을 생략하고, 한 번에 맛있는 3D 요리를 만들어내는 AI 요리사!"