StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

이 논문은 미교정 비디오 스트림에서 실시간으로 동적 3D 장면을 재구성하는 풀 피드포워드 프레임워크인 StreamSplat 을 제안하며, 확률적 샘플링, 양방향 변형 필드, 적응형 가우시안 융합을 통해 최적화 기반 방법 대비 1200 배의 속도 향상과 최첨단 재구성 품질을 달성합니다.

Zike Wu, Qi Yan, Xuanyu Yi, Lele Wang, Renjie Liao

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

StreamSplat: 흐르는 비디오를 실시간으로 3D 세상으로 바꾸는 마법

이 논문은 **'StreamSplat'**이라는 새로운 기술을 소개합니다. 쉽게 말해, 우리가 스마트폰으로 찍은 정교한 카메라 보정 (캘리브레이션) 이 전혀 없는 일반 동영상을 입력하면, 거의 실시간으로 그 장면을 움직이는 3D 세상으로 만들어주는 기술입니다.

기존의 방식들은 동영상을 하나씩 분석하고 수 시간씩 계산해야 했지만, StreamSplat 은 동영상이 흐르는 대로 바로바로 3D 를 만들어냅니다. 마치 강물이 흐르듯 (Stream) 3D 세상이 실시간으로 생성된다고 해서 이 이름을 붙였습니다.

이 기술이 어떻게 작동하는지, 세 가지 핵심 비유로 설명해 드릴게요.


1. "확률로 찍는 3D 점들" (Probabilistic Sampling)

비유: 안개 낀 날에 물체를 그리는 화가

보통 3D 장면을 만들려면 카메라의 정확한 위치와 렌즈의 왜곡을 알아야 합니다. 하지만 StreamSplat 은 그런 정보가 없는 '불확실한' 비디오를 받습니다.
기존의 AI 는 "이곳에 점이 있을 거야"라고 딱 정해서 그렸는데, 정보가 부족하면 실수가 많았습니다.
StreamSplat 은 **"이곳에 점이 있을 확률이 높고, 저곳은 조금 낮을 수도 있어"**라고 **확률 (안개)**을 고려해서 점을 그립니다.

  • 효과: 마치 안개 낀 날에 물체의 윤곽을 여러 번 그려보며 가장 정확한 위치를 찾아내는 것처럼, 실수를 줄이고 더 정확한 3D 구조를 잡습니다.

2. "왕복하는 변형 필드" (Bidirectional Deformation Field)

비유: 과거와 미래를 오가는 시간 여행자의 손

동영상 속 사물은 움직입니다. 과거의 사물이 현재로 오고, 현재의 사물이 미래로 가죠.
기존 기술은 보통 '과거 → 현재'로만 움직이는 방향성을 따졌습니다. 하지만 사물이 갑자기 사라지거나 (vanishing), 새로 나타나거나 (emerging) 할 때 길을 잃기 쉽습니다.
StreamSplat 은 **과거에서 현재로 가는 길 (Forward)**과 **현재에서 과거로 돌아오는 길 (Backward)**을 동시에 봅니다.

  • 효과: 마치 두 손으로 공을 잡듯이, 과거와 현재를 양쪽에서 동시에 잡아서 사물이 어떻게 움직였는지, 어디로 사라졌는지 정확히 추적합니다. 이렇게 하면 시간이 오래 지나도 3D 모델이 뭉개지거나 엉키는 일이 없습니다.

3. "스마트한 점들 통합" (Adaptive Gaussian Fusion)

비유: 흐르는 강물과 새로운 물방울

동영상이 계속 흐르면, 새로운 사물이 화면에 들어오기도 하고, 기존 사물이 화면 밖으로 나가기도 합니다.
기존 방식은 새로운 사물이 들어오면 무조건 새로운 3D 점 (가우스) 을 만들고, 사라지면 지우는데, 이 과정에서 3D 공간이 너무 많아지거나 중복되어 엉망이 되곤 했습니다.
StreamSplat 은 점들의 '투명도 (Opacity)'를 조절합니다.

  • 오래된 점: 시간이 지나도 계속 살아남으면 (Persistent), 투명도를 유지하며 3D 세상의 기둥이 됩니다.
  • 새로운 점: 화면에 새로 나타나면 투명도를 높여 합쳐집니다.
  • 사라지는 점: 화면에서 사라지면 투명도를 낮춰 자연스럽게 사라집니다.
  • 효과: 3D 세상이 너무 무거워지지 않으면서도, 사물이 나타났다가 사라지는 자연스러운 흐름을 완벽하게 따라갑니다.

왜 이 기술이 중요한가요?

  1. 실시간성 (Real-time): 로봇이 길을 찾거나, VR/AR 안경을 쓸 때, 동영상을 찍는 즉시 3D 지도가 만들어져야 합니다. StreamSplat 은 기존 방법보다 1,200 배 더 빠릅니다. (수 시간 걸리던 것을 1 초도 안 걸리게 함)
  2. 준비 불필요 (Uncalibrated): 전문 카메라나 복잡한 설정이 필요 없습니다. 그냥 스마트폰으로 찍은 일반 영상을 넣으면 됩니다.
  3. 무한한 길이: 동영상이 1 분이든 1 시간이든, 끊김 없이 계속 3D 세상을 만들어냅니다.

요약하자면

StreamSplat 은 **"정교한 준비 없이, 흐르는 비디오를 보고 바로 움직이는 3D 세상을 실시간으로 재구성하는 AI"**입니다.
이 기술이 상용화되면, 자율주행차가 도로를 보며 3D 지도를 그리는 것, 혹은 AR 게임에서 우리가 찍은 거리를 실시간으로 3D 게임 공간으로 바꿔주는 것 등이 훨씬 더 쉽고 빠르게 가능해질 것입니다.