OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

이 논문은 메모리와 연산 비용을 시퀀스 길이와 무관하게 고정된 예산으로 제한하면서도 3D 기하학적 정확도를 유지하기 위해 자기 선택적 캐싱과 동적 앵커 보호를 결합한 훈련 불필요 프레임워크 OVGGT 를 제안합니다.

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

OVGGT: 무한한 비디오를 한 번에 보는 '기억력 조절' 마법

이 논문은 **"오래된 비디오를 보면서 3D 공간을 재구성하는 AI"**가 겪는 치명적인 문제와, 이를 해결한 새로운 방법 OVGGT에 대해 설명합니다.

상상해 보세요. 당신이 아주 긴 여행 (수천 장의 사진) 을 찍고 있는데, 그걸 바탕으로 3D 지도를 만들고 싶다고 칩시다. 문제는 당신의 머릿속 (컴퓨터의 메모리) 이 정해져 있다는 거죠.


1. 기존 방법들의 문제: "기억력 과부하"

기존의 최신 AI 모델들 (StreamVGGT 등) 은 영상을 볼 때마다 모든 과거의 장면을 기억하려고 했습니다.

  • 비유: 친구가 100 년 동안 매일 한 번씩 해준 이야기를 모두 외워서, 101 번째 이야기를 들을 때 1 번째부터 100 번째까지의 모든 내용을 떠올리며 대답하는 상황입니다.
  • 결과:
    • 메모리 폭주: 이야기가 길어질수록 기억해야 할 양이 기하급수적으로 늘어나서, 결국 뇌 (GPU 메모리) 가 터져버립니다 (OOM, Out Of Memory).
    • 느려짐: 모든 과거 이야기를 다시 꺼내야 하니까, 새로운 이야기를 들을 때마다 시간이 점점 더 걸립니다.
    • 혼란: 기억해야 할 게 너무 많으면, 오히려 중요한 건 잊고 불필요한 잡음까지 기억해서 3D 지도가 뭉개지거나 왜곡됩니다.

2. OVGGT 의 해결책: "똑똑한 정리정돈"

OVGGT 는 "기억할 양을 일정하게 유지하면서도, 중요한 건 절대 잊지 않는" 새로운 방식을 제시합니다. 두 가지 핵심 비법이 있습니다.

비법 1: 자기 선택적 캐싱 (Self-Selective Caching) = "중요도 점수 매기기"

AI 는 매 순간 들어오는 정보 (토큰) 들 중에서 가장 중요한 것만 남기고 나머지는 과감히 버립니다.

  • 어떻게? AI 가 정보를 처리할 때, "이 정보가 얼마나 중요한가?"라는 점수를 자동으로 매깁니다. (예: 벽의 모서리나 물체의 경계는 중요하지만, 빈 하늘은 덜 중요함)
  • 창의적 비유: 책장 정리를 생각하세요. 책이 너무 많으면 다 둘 수 없죠? OVGGT 는 "이 책은 나중에 다시 봐야 할 명작이야 (점수 높음)"라고 표시된 책만 책장에 꽂아두고, 나머지는 서랍에 넣어둡니다.
  • 특이점: 이 점수 매기기는 AI 가 이미 계산하고 있는 과정을 활용하므로, 추가적인 계산 없이도 가능합니다.

비법 2: 동적 앵커 보호 (Dynamic Anchor Protection) = "지리적 기준점 지키기"

과거의 모든 것을 다 기억하지 않아도, **가장 중요한 기준점 (앵커)**만은 절대 지우지 않습니다.

  • 문제: 과거의 모든 것을 잊어버리면, "지금 내가 어디에 있는가?"를 잃어버려 3D 지도가 흐트러집니다 (기하학적 드리프트).
  • 해결:
    1. 시작점 보호: 여행의 첫 번째 장면을 영원히 기억합니다. (우리가 어디에서 출발했는지 알기 위해)
    2. 중요 지점 보호: 카메라가 멀리 이동해서 처음 장면과 겹치는 부분이 없으면, 그 사이사이의 중요한 기준점들을 새로 만들어서 보호합니다.
  • 비유: 나침반과 랜드마크입니다. 길을 잃지 않기 위해 '출발지'와 '중요한 교차로'만 기억하고, 그 사이의 사소한 길가 가게들은 잊어버려도 됩니다. 이렇게 하면 아무리 멀리 가도 방향을 잃지 않습니다.

3. OVGGT 의 놀라운 성과

이 방법을 적용한 결과, OVGGT 는 다음과 같은 기적을 이루었습니다.

  • 메모리 일정 (O(1)): 영상이 50 장이든 5,000 장이든, 사용하는 메모리 양은 똑같습니다. (비유: 가방 크기가 고정되어 있어, 여행이 길어지더라도 가방을 늘리지 않아도 됨)
  • 속도 일정: 영상이 길어질수록 처리 속도가 느려지지 않고, 일정한 속도로 실시간으로 처리합니다.
  • 정확도 최고: 불필요한 잡음을 버리고 중요한 것만 남겼기 때문에, 오히려 모든 것을 기억하려던 기존 모델들보다 3D 지도가 더 선명하고 정확합니다.

4. 한 줄 요약

"OVGGT 는 긴 여행을 하면서도 가방 (메모리) 크기를 늘리지 않고, 중요한 랜드마크 (기준점) 만 기억하며, 불필요한 잡음은 과감히 버리는 '현명한 여행 가이드'입니다."

이 기술 덕분에 이제 일반인용 그래픽카드 (32GB) 하나만으로도, 수천 장에 달하는 긴 영상을 실시간으로 3D 공간으로 변환할 수 있게 되었습니다.