TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction

이 논문은 정렬된 토큰 기반의 가우스 예측 모듈과 비대칭 듀얼 플로우 디코더를 통해 포즈 정보 없이도 다중 뷰 이미지로부터 정밀한 3D 가우스 재구성과 카메라 포즈 추정을 동시에 수행하는 'TokenSplat' 프레임워크를 제안합니다.

Yihui Li, Chengxin Lv, Zichen Tang, Hongyu Yang, Di Huang

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

토크스플랫 (TokenSplat): 카메라 없이도 3D 세상을 완벽하게 재현하는 마법

이 논문은 **"카메라의 위치와 각도 (포즈) 를 모른 채, 그냥 찍은 여러 장의 사진들만으로 3D 장면을 재구성하고, 그 사진들이 찍힌 위치까지 알아내는 새로운 기술"**을 소개합니다.

기존의 3D 기술들은 사진을 찍을 때 카메라가 어디에 있었는지 정확히 알아야 했지만, 이 새로운 기술은 **"어디서 찍었는지 모른 사진 더미만 주어지면, AI 가 스스로 "아, 이 사진은 여기에서 찍었구나!"라고 추리하면서 3D 세상을 만들어낸다"**는 점이 혁신적입니다.

이 기술을 쉽게 이해할 수 있도록 비유를 들어 설명해 드리겠습니다.


1. 문제 상황: "지도도 나침반도 없는 여행"

기존의 3D 재구성 기술들은 마치 지도와 나침반을 들고 여행하는 것과 비슷했습니다. 각 사진이 찍힌 정확한 위치 (카메라 포즈) 를 미리 알고 있어야만 3D 모델을 만들 수 있었습니다. 하지만 실제로는 사진을 찍을 때 카메라 위치를 기록하기 어렵거나, 복잡한 환경에서는 위치를 계산하는 데 너무 많은 시간이 걸려 실패하기도 했습니다.

기존의 "위치 없는 (Pose-free)" 기술들은 시도해 보았지만, 사진을 너무 많이 찍으면 3D 모델이 뭉개지거나 (블러), 색상이 깨지거나, 구조가 엉망이 되는 문제가 있었습니다. 마치 여러 사람이 서로 다른 각도에서 그린 그림을 억지로 붙여놓으니, 벽이 두 개 생기고 문이 두 개 생기는 꼴이 된 것입니다.

2. 해결책: "토크스플랫 (TokenSplat)"의 등장

이 연구팀은 토크스플랫이라는 새로운 방법을 개발했습니다. 이 방법은 세 가지 핵심 아이디어로 작동합니다.

① "의미 있는 조각 (토큰) 으로 맞추기"

기존 기술은 사진의 픽셀 (화소) 하나하나를 3D 점으로 만들려고 했습니다. 사진이 많을수록 점들이 너무 많아져서 서로 겹치고 충돌했습니다.

  • 비유: 100 만 개의 퍼즐 조각을 하나하나 맞추려다 보니 엉망이 된 상황입니다.
  • 토크스플랫의 방식: 대신 사진의 의미 있는 부분 (예: '의자', '나무', '벽') 을 묶어서 '토큰'이라는 큰 덩어리로 만듭니다. 그리고 이 덩어리들이 서로 어떤 의미로 연결되는지 (예: A 사진의 '의자'와 B 사진의 '의자'는 같은 것임) 의미 공간에서 직접 맞춰줍니다.
  • 효과: 불필요한 중복을 줄이고, 멀리 떨어진 사진들끼리도 "아, 이 부분은 저 부분과 연결되는구나"라고 논리적으로 연결하여 3D 모델을 깔끔하게 만듭니다.

② "양방향 소통을 막은 'ADF-디코더'"

카메라의 위치를 추정하는 일과 3D 장면을 만드는 일은 서로 섞이면 혼란이 옵니다. (예: "이 의자가 왜 이렇게 비뚤게 보일까? 아, 내가 카메라 위치를 잘못 계산했나?" vs "아니, 의자가 원래 비뚤었나?")

  • 비유: 두 명의 팀원 (카메라 팀, 3D 팀) 이 한 방에서 소란스럽게 대화하면 서로의 업무가 방해받습니다.
  • ADF-디코더의 방식: 이 두 팀이 한 방향으로만 소통하도록 설계했습니다.
    • 카메라 팀은 3D 팀의 정보를 보고 "아, 이 모양을 보니까 내가 여기 있었구나!"라고 위치를 추리합니다.
    • 하지만 3D 팀은 카메라 팀의 추리 결과를 바로 받아들이지 않고, 오직 **안정적인 정보 (저주파 신호)**만 받아서 장면을 다듬습니다.
  • 효과: 카메라 위치 추정이 3D 모델을 망가뜨리지 않고, 3D 모델이 카메라 위치 추정을 방해하지도 않아서 두 가지 모두 정확도가 높아집니다.

③ "한 번에 끝내는 '푸드-포워드' 방식"

기존의 많은 방법들은 "추측 -> 수정 -> 다시 추측 -> 다시 수정"을 반복하며 (반복 최적화) 정답에 가까워졌습니다. 이는 시간이 매우 오래 걸립니다.

  • 비유: 길을 찾을 때 지도를 보며 "아, 틀렸네" 하고 뒤로 돌아서 다시 가는 과정을 반복하는 것.
  • 토크스플랫의 방식: 한 번에 정답을 내는 방식입니다. 사진을 입력하면, 위에서 설명한 토큰 정렬과 소통 방식을 거쳐 순식간에 3D 모델과 카메라 위치를 동시에 출력합니다.
  • 효과: 매우 빠르고, 실시간에 가깝게 작동합니다.

3. 실제 성과: "왜 이 기술이 특별한가?"

실험 결과, 토크스플랫은 다음과 같은 놀라운 성과를 보였습니다.

  • 더 많은 사진을 넣을수록 더 좋아짐: 기존 기술들은 사진을 28 장이나 넣으면 3D 모델이 뭉개지고 깨졌지만, 토크스플랫은 사진이 많아질수록 더 선명하고 디테일한 3D 세상을 만들어냈습니다.
  • 다른 곳에서도 잘 작동함: 학습할 때 사용한 데이터 (실내 사진) 와 전혀 다른 데이터 (실외 건물 사진) 를 주어도, 지도가 없어도 잘 재구성했습니다. (제너럴라이제이션 능력)
  • 정확한 위치 추정: 카메라가 어디에 있었는지 추정한 위치가 기존 방법들보다 훨씬 정확했습니다.

4. 결론: "카메라 위치를 몰라도 괜찮아, AI 가 알아서 해!"

토크스플랫은 "카메라의 위치를 모른 채 찍은 사진 더미"만으로도 선명하고 일관된 3D 세상을 만들어내고, 그 사진들이 찍힌 위치까지 정확히 찾아내는 획기적인 기술입니다.

마치 수백 장의 낯선 사진들을 한 번에 보고, "이건 거실이고, 이 사진은 거실 왼쪽에서 찍은 거구나"라고 순식간에 이해하고 3D 집을 지어내는 천재 건축가와 같습니다. 이 기술은 향후 가상 현실 (VR), 증강 현실 (AR), 자율 주행, 그리고 모바일 3D 스캐닝 등 다양한 분야에서 혁신을 가져올 것으로 기대됩니다.