Each language version is independently generated for its own context, not a direct translation.

OVGGT: 무한한 비디오를 한 번에 보는 '기억력 조절' 마법

이 논문은 **"오래된 비디오를 보면서 3D 공간을 재구성하는 AI"**가 겪는 치명적인 문제와, 이를 해결한 새로운 방법 OVGGT에 대해 설명합니다.

상상해 보세요. 당신이 아주 긴 여행 (수천 장의 사진) 을 찍고 있는데, 그걸 바탕으로 3D 지도를 만들고 싶다고 칩시다. 문제는 당신의 머릿속 (컴퓨터의 메모리) 이 정해져 있다는 거죠.

1. 기존 방법들의 문제: "기억력 과부하"

기존의 최신 AI 모델들 (StreamVGGT 등) 은 영상을 볼 때마다 모든 과거의 장면을 기억하려고 했습니다.

비유: 친구가 100 년 동안 매일 한 번씩 해준 이야기를 모두 외워서, 101 번째 이야기를 들을 때 1 번째부터 100 번째까지의 모든 내용을 떠올리며 대답하는 상황입니다.
결과:
- 메모리 폭주: 이야기가 길어질수록 기억해야 할 양이 기하급수적으로 늘어나서, 결국 뇌 (GPU 메모리) 가 터져버립니다 (OOM, Out Of Memory).
- 느려짐: 모든 과거 이야기를 다시 꺼내야 하니까, 새로운 이야기를 들을 때마다 시간이 점점 더 걸립니다.
- 혼란: 기억해야 할 게 너무 많으면, 오히려 중요한 건 잊고 불필요한 잡음까지 기억해서 3D 지도가 뭉개지거나 왜곡됩니다.

2. OVGGT 의 해결책: "똑똑한 정리정돈"

OVGGT 는 "기억할 양을 일정하게 유지하면서도, 중요한 건 절대 잊지 않는" 새로운 방식을 제시합니다. 두 가지 핵심 비법이 있습니다.

비법 1: 자기 선택적 캐싱 (Self-Selective Caching) = "중요도 점수 매기기"

AI 는 매 순간 들어오는 정보 (토큰) 들 중에서 가장 중요한 것만 남기고 나머지는 과감히 버립니다.

어떻게? AI 가 정보를 처리할 때, "이 정보가 얼마나 중요한가?"라는 점수를 자동으로 매깁니다. (예: 벽의 모서리나 물체의 경계는 중요하지만, 빈 하늘은 덜 중요함)
창의적 비유: 책장 정리를 생각하세요. 책이 너무 많으면 다 둘 수 없죠? OVGGT 는 "이 책은 나중에 다시 봐야 할 명작이야 (점수 높음)"라고 표시된 책만 책장에 꽂아두고, 나머지는 서랍에 넣어둡니다.
특이점: 이 점수 매기기는 AI 가 이미 계산하고 있는 과정을 활용하므로, 추가적인 계산 없이도 가능합니다.

비법 2: 동적 앵커 보호 (Dynamic Anchor Protection) = "지리적 기준점 지키기"

과거의 모든 것을 다 기억하지 않아도, **가장 중요한 기준점 (앵커)**만은 절대 지우지 않습니다.

문제: 과거의 모든 것을 잊어버리면, "지금 내가 어디에 있는가?"를 잃어버려 3D 지도가 흐트러집니다 (기하학적 드리프트).
해결:
1. 시작점 보호: 여행의 첫 번째 장면을 영원히 기억합니다. (우리가 어디에서 출발했는지 알기 위해)
2. 중요 지점 보호: 카메라가 멀리 이동해서 처음 장면과 겹치는 부분이 없으면, 그 사이사이의 중요한 기준점들을 새로 만들어서 보호합니다.
비유: 나침반과 랜드마크입니다. 길을 잃지 않기 위해 '출발지'와 '중요한 교차로'만 기억하고, 그 사이의 사소한 길가 가게들은 잊어버려도 됩니다. 이렇게 하면 아무리 멀리 가도 방향을 잃지 않습니다.

3. OVGGT 의 놀라운 성과

이 방법을 적용한 결과, OVGGT 는 다음과 같은 기적을 이루었습니다.

메모리 일정 (O(1)): 영상이 50 장이든 5,000 장이든, 사용하는 메모리 양은 똑같습니다. (비유: 가방 크기가 고정되어 있어, 여행이 길어지더라도 가방을 늘리지 않아도 됨)
속도 일정: 영상이 길어질수록 처리 속도가 느려지지 않고, 일정한 속도로 실시간으로 처리합니다.
정확도 최고: 불필요한 잡음을 버리고 중요한 것만 남겼기 때문에, 오히려 모든 것을 기억하려던 기존 모델들보다 3D 지도가 더 선명하고 정확합니다.

4. 한 줄 요약

"OVGGT 는 긴 여행을 하면서도 가방 (메모리) 크기를 늘리지 않고, 중요한 랜드마크 (기준점) 만 기억하며, 불필요한 잡음은 과감히 버리는 '현명한 여행 가이드'입니다."

이 기술 덕분에 이제 일반인용 그래픽카드 (32GB) 하나만으로도, 수천 장에 달하는 긴 영상을 실시간으로 3D 공간으로 변환할 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

배경: 스트리밍 비디오로부터 3D 기하학적 구조를 재구성하는 작업은 자율 주행, 증강 현실 (AR), 로봇 조작 등에 필수적입니다. 최근의 기하학적 기초 모델 (Geometric Foundation Models, 예: VGGT) 은 모든 뷰 간 주의 (All-to-All Attention) 를 통해 뛰어난 재구성 품질을 보이지만, 계산 비용이 $O(N^2)$ 으로 증가하여 긴 시퀀스 처리 시 GPU 메모리 (VRAM) 를 빠르게 소모합니다.
기존 방법의 한계:
- StreamVGGT: 인과적 주의 (Causal Attention) 와 KV 캐시를 도입하여 단일 패스 스트리밍을 가능하게 했으나, KV 캐시가 프레임 수에 비례하여 선형적으로 증가합니다.
- 메모리 병목: 수십~수백 프레임만 처리해도 KV 캐시가 GPU 메모리를 초과 (OOM) 하거나, 캐시 크기로 인해 추론 속도가 급격히 저하됩니다.
- 기하학적 드리프트: 긴 시퀀스 동안 캐시 관리가 부실하면 기하학적 일관성이 깨지고 재구성 품질이 떨어집니다.
목표: 시퀀스 길이에 관계없이 일정 (Constant) 한 메모리와 계산 비용으로 무한히 긴 비디오를 처리하면서도, 기하학적 정확도를 유지하는 스트리밍 프레임워크 개발.

2. 방법론 (Methodology)

OVGGT 는 기존 StreamVGGT 아키텍처를 기반으로 하되, 두 가지 핵심 모듈을 통해 고정된 예산 (Fixed Budget) 내에서 캐시를 관리합니다.

가. 자기 선택적 캐싱 (Self-Selective Caching, SSC)

KV 캐시를 고정된 크기로 압축하기 위해 어떤 토큰을 유지하고 어떤 토큰을 제거할지 결정하는 전략입니다.

활성화 값 평가 (Activation Value Rating):
- FlashAttention 을 사용하므로 주의 맵 (Attention Map) 에 직접 접근할 수 없습니다. 대신, Transformer 의 FFN(Feed-Forward Network) 잔차 (Residual) 의 크기를 토큰의 기하학적 중요도 (Saliency) 지표로 활용합니다.
- FFN 잔차는 이미 순전파 과정에서 계산되므로 추가 비용이 없으며, FlashAttention 과 완전히 호환됩니다.
- 층별 특성: 얕은 층은 질감 (Texture) 정보를, 중간 층은 기하학적 구조를, 깊은 층은 객체 경계를 강조합니다.
공간적 평활화 (Spatial Smoothing):
- 단순한 점수 기반 선택은 공간적으로 단편화된 토큰 유지를 초래하여 재구성 품질을 떨어뜨립니다.
- 2D 활성화 맵에 가우시안 평활화를 적용하여 공간적으로 일관된 토큰 그룹이 함께 유지되도록 하여 깊이 및 점군 예측의 국소적 연속성을 보장합니다.
하이브리드 스코링 (Hybrid Scoring):
- 현재 프레임 토큰은 활성화 점수를, 과거 프레임 토큰은 키 벡터의 다양성 (Diversity) 점수를 사용합니다.
- 두 점수를 가중치 ( $\beta$ ) 로 조절하여 현재 프레임의 중요도와 과거 정보의 다양성을 균형 있게 유지합니다.

나. 동적 앵커 보호 (Dynamic Anchor Protection, DAP)

단순한 캐시 압축만으로는 긴 시퀀스 동안 기하학적 일관성 (Coordinate Consistency) 을 유지하기 어렵습니다. 이를 위해 필수적인 토큰을 강제로 보호합니다.

글로벌 초기 앵커 (Global Initial Anchor):
- 첫 번째 프레임의 모든 토큰을 영구적으로 보호하여 전체 재구성의 좌표계 기준점을 유지합니다.
동적 역사적 앵커 (Historical Anchors):
- 카메라가 이동하여 초기 프레임과 시각적 중첩이 사라질 경우를 대비합니다.
- 현재 뷰와 과거 뷰의 중첩 비율을 계산하여, 중첩이 임계값 이하로 떨어지면 새로운 '앵커 프레임'을 등록합니다.
- 등록된 앵커 프레임 내에서도 점군 신뢰도가 높은 토큰들만 보호하여 장기적인 기하학적 참조를 제공합니다.
- 최대 앵커 개수를 제한하여 메모리 누수를 방지합니다.

3. 주요 기여 (Key Contributions)

OVGGT 프레임워크: 메모리와 계산 비용을 시퀀스 길이와 무관하게 고정 ( $O(1)$ ) 하는 최초의 훈련 불필요 (Training-free) 스트리밍 3D 재구성 프레임워크를 제안합니다.
SSC (Self-Selective Caching): FFN 잔차 기반의 토큰 중요도 평가와 공간 평활화를 결합하여, FlashAttention 호환성을 유지하면서 KV 캐시를 고정 예산으로 압축합니다.
DAP (Dynamic Anchor Protection): 전역 초기 앵커와 적응형 역사적 앵커를 통해 긴 시퀀스에서의 기하학적 드리프트 (Geometric Drift) 를 효과적으로 억제합니다.
성능 입증: 실내, 실외, 초장기 시퀀스 벤치마크에서 기존 방법 (StreamVGGT, Evict3R, InfiniteVGGT 등) 을 능가하는 정확도와 효율성을 달성했습니다.

4. 실험 결과 (Results)

데이터셋: 7-Scenes, NRGBD (실내), ETH3D, Long3D (실외 및 초장기), Bonn, KITTI (비디오 깊이 추정).
재구성 정확도:
- 실내 (7-Scenes, NRGBD): 500 프레임 시 StreamVGGT 는 메모리 부족 (OOM) 으로 실패했으나, OVGGT 는 고정 메모리 (약 10GB) 내에서 최고 수준의 정확도 (Acc, Comp, NC) 를 기록했습니다.
- 실외 및 초장기 (Long3D, 10,000 프레임): OVGGT 는 복잡한 실외 환경과 긴 시퀀스에서도 안정적인 재구성을 보여주었으며, 기존 방법들은 품질이 급격히 저하되거나 OOM 이 발생했습니다.
- 비디오 깊이 추정: KITTI 데이터셋에서 OVGGT 는 전체 캐시를 사용하는 StreamVGGT 보다 더 높은 정확도를 보였으며, 시퀀스가 길어질수록 오차 누적을 효과적으로 제어했습니다.
효율성:
- VRAM: 32GB GPU 에서 500~~1000 프레임 이상 처리 시 StreamVGGT 는 OOM 이 발생하지만, OVGGT 는 약 10~~12GB 의 일정한 메모리만 사용합니다.
- FPS: 시퀀스 길이가 증가해도 OVGGT 는 일정한 처리 속도 (FPS) 를 유지하는 반면, 기존 방법들은 캐시 증가로 인해 속도가 급격히 떨어집니다.

5. 의의 및 결론 (Significance)

실시간 3D 스트리밍의 실현: OVGGT 는 단일 소비자용 GPU (예: RTX 5090) 에서도 무한히 긴 비디오를 실시간으로 3D 재구성할 수 있게 하여, 자율 주행 및 로봇의 장기적 임무 수행에 필수적인 기술적 장벽을 해소했습니다.
효율성과 정확도의 균형: 단순히 캐시를 줄이는 것이 아니라, 기하학적 구조에 중요한 토큰을 지능적으로 선별하고 보호함으로써, 자원 제한 하에서도 오프라인 전처리 (All-to-All) 에 버금가는 정확도를 달성했습니다.
미래 전망: 단일 패스 인과적 파이프라인의 한계 (오차 누적) 를 극복하기 위해, 미니배치 결합 예측과 주기적 글로벌 정제를 결합한 차세대 스트리밍 인퍼런스 방향성을 제시했습니다.

이 논문은 제한된 하드웨어 자원으로도 고해상도, 초장기 3D 스트리밍 재구성을 가능하게 하는 획기적인 솔루션을 제시했다는 점에서 컴퓨터 비전 및 로보틱스 분야에서 중요한 의의를 가집니다.

OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer