See4D: Pose-Free 4D Generation via Auto-Regressive Video Inpainting

이 논문은 손으로 주석된 카메라 포즈 없이도 가상 카메라 뱅크와 시공간 자동회귀 영상 인페인팅을 결합하여 4D 콘텐츠를 생성하는 'See4D' 프레임워크를 제안합니다.

Dongyue Lu, Ao Liang, Tianxin Huang, Xiao Fu, Yuyang Zhao, Baorui Ma, Liang Pan, Wei Yin, Lingdong Kong, Wei Tsang Ooi, Ziwei Liu

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'SEE4D'**라는 새로운 기술을 소개합니다. 쉽게 말해, 일반인이 스마트폰으로 찍은 짧은 영상 하나만으로도, 마치 3D 영화나 VR 게임처럼 구석구석 돌아다니며 볼 수 있는 '생생한 4D(공간 + 시간) 세계'를 만들어내는 기술입니다.

이 복잡한 기술을 일상적인 비유로 설명해 드릴게요.

1. 문제 상황: "한쪽 눈으로 본 세상"

지금까지 우리가 스마트폰으로 찍은 영상은 **'한쪽 눈'**으로 본 세계입니다. 카메라가 움직이는 방향만 따라갈 뿐, 옆이나 뒤를 보고 싶다면 그 장면은 아예 존재하지 않습니다.

기존의 기술들은 이 문제를 해결하기 위해 **'정교한 지도 (카메라 위치 데이터)'**가 필요했습니다. 마치 건축가가 건물을 짓기 위해 정확한 설계도가 있어야 하듯, 컴퓨터도 "카메라가 정확히 어디에 있었는지"를 모르면 새로운 각도의 영상을 만들 수 없었습니다. 하지만 우리가 찍은 일상 영상에는 이런 정밀한 지도가 없죠. 그래서 기존 기술은 자연스러운 영상을 만들기 힘들었습니다.

2. SEE4D 의 해결책: "마법 같은 그림자 놀이"

SEE4D 는 이 정밀한 지도 없이도 영상을 만들 수 있습니다. 그 비법은 **'그림자 (Warping)'**와 **'상상력 (Inpainting)'**을 결합한 것입니다.

  • 단계 1: 그림자를 드리우기 (Depth Warping)
    먼저, 컴퓨터는 영상 속 사물들이 얼마나 멀리 있는지 (깊이) 대략적으로 추정합니다. 그리고 "만약 내가 이쪽을 바라봤다면, 이 사물들이 어떻게 보일까?"라고 상상하며 영상을 살짝 비틀어 (Warp) 봅니다. 이때, 가려진 부분이나 보이지 않는 구멍은 **'검은색 그림자 (마스크)'**로 표시합니다.

    • 비유: 마치 종이 인형극을 할 때, 배경을 살짝 비틀어보면서 "여기 빈 공간이 생겼네?"라고 확인하는 것과 같습니다.
  • 단계 2: 상상력으로 빈칸 채우기 (Inpainting)
    이제 AI 는 그 검은색 그림자 (빈칸) 부분을 채워 넣습니다. 이때 중요한 건, AI 가 단순히 그림을 그리는 게 아니라, **"이 장면이 실제로 어떻게 움직였을지"**를 학습했다는 점입니다.

    • 비유: 퍼즐 조각이 하나 빠진 그림을 보고, 주변 조각들의 패턴을 보고 빠진 조각이 어떤 모양일지 완벽하게 맞춰 넣는 것과 같습니다.

3. 핵심 기술: "조금씩 나아가는 여정"

한 번에 멀리 있는 각도로 영상을 바꾸면 그림자가 너무 커서 AI 가 헷갈립니다. SEE4D 는 이를 해결하기 위해 '계단식 여행' 방식을 사용합니다.

  • 공간적 자동 회귀 (Spatial Auto-Regressive):
    목표 지점이 멀리 있어도, 한 번에 날아가는 게 아니라 작은 발걸음 (가상 카메라) 을 여러 번 떼어 조금씩 이동합니다. 한 발짝 뛸 때마다 빈칸을 채우고, 다시 다음 발걸음을 떼는 식입니다.

    • 비유: 멀리 있는 산 정상에 가기 위해, 한 번에 점프하는 게 아니라 계단을 하나씩 올라가며 경치를 확인하는 것과 같습니다. 이렇게 하면 실수 (왜곡) 가 쌓이지 않습니다.
  • 시간적 자동 회귀 (Temporal Auto-Regressive):
    긴 영상을 만들 때도, 처음부터 끝까지 한 번에 만들지 않고 **겹치는 부분 (Overlap)**을 남기며 이어 붙입니다.

    • 비유: 긴 영화를 만들 때, 마지막 장면을 다음 장면의 시작 부분과 겹치게 찍어서 이어 붙이면 끊김 없이 자연스러운 영화가 되는 것과 같습니다.

4. 왜 이 기술이 특별한가요? (기존 기술과의 차이)

기존 기술들은 "카메라가 A 에서 B 로 이동했다"는 **정확한 경로 (Trajectory)**를 예측해야 했습니다. 하지만 SEE4D 는 "A 에서 B 로 가는 길"을 예측하는 대신, "B 라는 고정된 장소에 서 있는 모습"을 직접 그려냅니다.

  • 기존: "카메라가 어떻게 움직였는지"를 계산하는 데 에너지를 쏟음. (지도가 없으면 실패)
  • SEE4D: "내가 그 자리에 서 있다면 무엇을 보게 될까?"를 상상하는 데 집중함. (지도가 없어도 성공)

이 덕분에 손으로 들고 찍은 흔들리는 일상 영상에서도 매우 안정적이고 자연스러운 3D 효과를 뽑아낼 수 있습니다.

5. 실생활에 어떤 영향을 줄까요?

이 기술이 상용화되면 다음과 같은 일이 가능해집니다.

  • 로봇: 로봇이 책상 위를 볼 때, 한쪽 눈만으로는 안 보이는 물체를 다른 각도에서 '상상'해서 안전하게 잡을 수 있습니다.
  • 자율주행: 앞차만 보는 카메라로 찍은 영상에서, 옆차선이나 뒤차선을 AI 가 만들어내어 운전자가 더 넓은 시야를 확보할 수 있습니다.
  • 게임/영화: 게임 캐릭터를 찍은 영상 하나로, 사용자가 원하는 각도에서 캐릭터가 움직이는 모습을 실시간으로 만들어낼 수 있습니다.

요약

SEE4D는 **"정밀한 지도 없이도, AI 가 그림자를 보고 빈칸을 상상력으로 채워가며, 작은 걸음으로 차근차근 나아가는 방식"**으로, 평범한 2D 영상을 우리가 마음대로 돌아다닐 수 있는 생생한 4D 세상으로 바꿔주는 기술입니다.