Each language version is independently generated for its own context, not a direct translation.

MERG3R: 거대한 3D 세상을 작은 조각으로 나누어 완성하는 마법

이 논문은 **"수천 장의 사진을 한 번에 처리하려다 컴퓨터 메모리가 터지는 문제"**를 해결하는 새로운 방법, MERG3R을 소개합니다.

기존의 최신 AI 기술들은 사진을 한 번에 모두 보고 3D 모델을 만들려고 했지만, 사진이 너무 많으면 컴퓨터의 기억장소 (메모리) 가 부족해 작업을 포기하거나 (OOM, Out of Memory) 매우 느려졌습니다. MERG3R 은 이 문제를 "분할 정복 (Divide-and-Conquer)" 전략으로 해결했습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제 상황: 거대한 퍼즐을 한 번에 맞추려다 뇌가 터지는 상황

상상해 보세요. 1,000 장의 사진으로 거대한 성을 3D 로 재현해야 한다고 칩시다.
기존의 최신 AI 모델 (VGGT, Pi3 등) 은 이 1,000 장의 사진을 한 번에 모두 눈으로 보려고 합니다. 마치 1,000 개의 퍼즐 조각을 한 손에 쥐고 "어디에 끼워야 하지?"라고 고민하는 것과 같습니다.

결과: 컴퓨터의 기억장소 (GPU 메모리) 가 1,000 장의 정보를 동시에 담을 수 없어서 과부하가 걸려 멈춰버립니다. (메모리 부족)
대안: 사진을 100 장씩 잘라내서 처리하는 방법도 있지만, 이렇게 잘라내면 조각들 사이의 연결고리가 끊겨 성의 모양이 일그러지거나, 일부는 아예 사라져버립니다.

2. MERG3R 의 해결책: "작은 팀을 만들어 나누어 일하고, 다시 합치기"

MERG3R 은 이 문제를 해결하기 위해 세 가지 단계로 이루어진 똑똑한 전략을 사용합니다.

1 단계: 사진 정렬하기 (가상의 영화 만들기)

먼저, 순서가 뒤죽박죽인 1,000 장의 사진을 자연스러운 흐름을 가진 순서대로 나열합니다.

비유: 마치 낱낱의 사진들을 이어 붙여 한 편의 영화를 만드는 것과 같습니다. "이 사진 다음에는 저 사진이 와야 자연스럽다"는 AI 가 스스로 찾아냅니다.

2 단계: 작은 팀으로 나누기 (인터리빙 분할)

이제 이 긴 영화를 잘게 자릅니다. 하지만 단순히 1~~100 장, 101~~200 장으로 자르는 게 아닙니다.

비유: 1 번 팀은 1 번, 11 번, 21 번 사진을 보고, 2 번 팀은 2 번, 12 번, 22 번 사진을 보게 합니다.
이유: 이렇게 하면 각 팀이 다양한 각도에서 장면을 볼 수 있게 됩니다. 만약 1~100 장만 한 팀이 본다면, 그 팀은 건물의 앞면만 보고 뒤쪽은 전혀 모르게 되어 3D 모델을 엉망으로 만들 수 있습니다. MERG3R 은 모든 팀이 건물의 앞, 옆, 뒤를 골고루 보도록 배분합니다.
중요한 점: 각 팀이 보는 사진들 사이에는 **겹치는 부분 (Overlap)**이 있습니다. 마치 퍼즐 조각들이 서로 겹쳐져 있어 나중에 붙일 때 이어질 수 있게 하는 것입니다.

3 단계: 각자 작업하고 합치기 (분할 정복)

이제 각 팀 (작은 사진 묶음) 은 자신들이 처리할 수 있는 양만 가지고 3D 모델을 만듭니다.

장점: 컴퓨터는 1,000 장을 한 번에 보지 않아도 되므로 메모리 부족 문제가 사라집니다. 여러 개의 그래픽카드 (GPU) 에 작업을 나누어 동시에 할 수도 있어 속도도 빨라집니다.

4 단계: 완성된 조각들을 하나로 붙이기 (글로벌 정렬)

각 팀이 만든 작은 3D 모델들을 다시 하나로 합칩니다. 이때 중요한 것은 정확하게 맞추는 것입니다.

비유: 각 팀이 만든 작은 성 모형들을 가져와서, 겹치는 부분 (앞면과 옆면이 겹치는 곳) 을 기준으로 완벽하게 맞춰 붙입니다.
MERG3R 은 이 과정에서 AI 가 "이 부분은 신뢰도가 낮아"라고 판단한 부분은 제외하고, "이 부분은 확실해"라고 판단한 부분만 믿으며 정밀하게 조정합니다. 이를 통해 전체적인 3D 모델이 일그러지지 않고 매끄럽게 완성됩니다.

3. 왜 이것이 중요한가요? (기존 기술과의 비교)

기존 기술 (VGGT, Pi3 등): "나는 모든 사진을 한 번에 봐야 정확해!"라고 하지만, 사진이 1,000 장이 넘어가면 컴퓨터가 죽어버립니다.
MERG3R: "사진을 잘게 나누어 팀별로 만들고, 다시 잘 맞춰 붙이면 어떨까?"라고 생각합니다.
- 메모리: 1,000 장의 사진을 처리해도 메모리 사용량은 일정하게 유지됩니다. (약 20GB 수준)
- 속도: 기존 방법보다 훨씬 빠릅니다 (약 8 분 vs 20 분 이상).
- 정확도: 사진을 잘게 나누었음에도 불구하고, 오히려 더 정확한 3D 모델을 만듭니다.

4. 결론: 더 큰 세상을 더 쉽게 재현하다

MERG3R 은 **"거대한 일을 작은 조각으로 나누어 해결하는 지혜"**를 AI 에 적용한 사례입니다.

이 기술을 사용하면 이제 수천 장의 사진으로 도시 전체나 거대한 유적지를 3D 로 재현할 때, 비싼 고성능 컴퓨터가 없어도, 메모리 부족을 걱정하지 않고도 빠르고 정확하게 작업을 끝낼 수 있게 됩니다. 마치 거대한 퍼즐을 한 번에 맞추려다 지친 대신, 작은 팀을 만들어 각자 맡은 부분을 완성하고 마지막에 하나로 합치는 것처럼 말이죠.

이제 우리는 GPU 메모리라는 '벽'에 막히지 않고, 상상하는 그 어떤 거대한 3D 세상도 자유롭게 재현할 수 있게 된 것입니다.

Each language version is independently generated for its own context, not a direct translation.

MERG3R: 대규모 신경 시각 기하학을 위한 분할 - 정복 (Divide-and-Conquer) 접근법

1. 문제 정의 (Problem Statement)

최근 트랜스포머 기반의 신경 시각 기하학 모델 (예: VGGT, Pi3, Mast3R 등) 은 3D 재구성 작업에서 뛰어난 정확도를 보여주었습니다. 그러나 이러한 모델들은 전체 주의 (Full Attention) 메커니즘에 의존하기 때문에 다음과 같은 근본적인 한계가 존재합니다.

메모리 병목 현상: 입력 이미지 수가 증가함에 따라 시각 토큰 (visual tokens) 의 수가 선형적으로 증가하고, 자기 주의 (self-attention) 의 계산 복잡도와 메모리 사용량은 이차 함수 (quadratic) 형태로 급증합니다.
확장성 부족: 이로 인해 수천 장의 무작위 (unordered) 이미지로 구성된 대규모 데이터셋을 처리할 때 GPU 메모리 용량을 초과하여 (OOM, Out of Memory) 실행이 불가능합니다.
기존 대안의 한계: 메모리 효율을 위해 입력을 청킹하거나 토큰을 병합하는 기존 방법들은 장기적인 기하학적 추론 능력을 약화시키거나, 여전히 전체 이미지를 동시에 인코딩해야 하는 제약으로 인해 확장성 문제를 완전히 해결하지 못했습니다.

2. 방법론 (Methodology)

MERG3R 는 훈련이 필요 없는 (training-free) 분할 - 정복 (Divide-and-Conquer) 프레임워크를 제안하여, 기존 기하학적 기반 모델 (Geometric Foundation Models) 이 메모리 한계를 극복하고 대규모 무작위 이미지 컬렉션을 처리할 수 있도록 합니다. 프로세스는 크게 네 단계로 구성됩니다.

이미지 정렬 및 분할 (Image Ordering and Partitioning):
- 가상 비디오 생성: 무작위 이미지 집합에 대해 DINO 기반의 시각적 유사성 행렬을 계산하고, 이를 통해 시각적 연속성을 최대화하는 해밀턴 경로 (Hamiltonian path) 를 찾아 '가상 비디오 (pseudo-video)' 시퀀스를 생성합니다.
- 교차 샘플링 (Interleaved Sampling): 생성된 시퀀스를 단순히 슬라이딩 윈도우로 나누는 대신, 교차 샘플링 기법을 적용하여 각 클러스터가 전체 시퀀스 전반에 걸쳐 다양한 시점을 포함하도록 합니다. 이는 국소 재구성의 다양성을 보장하고 인접 클러스터 간의 중첩 (overlap) 을 유지하여 글로벌 정렬을 가능하게 합니다.
국소 재구성 (Local Reconstruction):
- 분할된 각 하위 집합 (Subset) 을 독립적으로 기하학적 기반 모델 (예: VGGT, Pi3 등) 에 입력하여 카메라 파라미터, 깊이 맵, 그리고 점지도 (pointmaps) 를 생성합니다.
- 이 과정에서 전체 이미지 $N$ 개를 한 번에 처리할 때의 $O(N^2)$ 복잡도를 $K$ 개의 서브셋으로 나누어 $O(K \cdot T^2)$ (여기서 $T$ 는 서브셋 크기) 로 줄여 메모리 사용량을 획기적으로 감소시킵니다.
클러스터 정렬 및 추적 (Cluster Alignment & Tracking):
- 전역 추적 (Global Tracking): LightGlue 와 같은 경량 특징 매칭 모델을 사용하여 클러스터 간의 3D 포인트 트랙을 구축합니다. 3D 기하학적 일관성 검사를 통해 잘못된 매칭을 필터링합니다.
- 정렬: 중첩된 클러스터 간의 3D 포인트 대응 관계를 기반으로 가중치 Iterative Similarity Transform Estimator 를 사용하여 국소 재구성을 공통 좌표계로 정렬합니다.
전역 번들 조정 (Global Bundle Adjustment):
- 정렬된 모든 클러스터와 생성된 신뢰도 가중치 (confidence-weighted) 다중 뷰 트랙을 기반으로 전역 번들 조정 (Global BA) 을 수행합니다.
- 이 단계는 카메라 내부/외부 파라미터 및 3D 점 위치를 동시에 최적화하여 전역 일관성을 확보하고 재구성 정확도를 향상시킵니다.

3. 주요 기여 (Key Contributions)

메모리 한계 극복: 훈련 없이도 현대적인 기하학적 기반 모델이 메모리 한계를 훨씬 초과하는 대규모 무작위 이미지 컬렉션을 처리할 수 있게 합니다.
모델 독립성 (Model-Agnostic): 제안된 파이프라인은 특정 모델에 종속되지 않으며, VGGT, Pi3 등 다양한 사전 학습된 모델과 결합하여 사용 가능합니다.
효율적인 병렬 처리: 이미지를 클러스터로 분할함으로써 여러 GPU 에 계산을 분산시킬 수 있으며, 실행 시간을 단축합니다.
정렬 전략의 중요성 증명: 이미지가 어떻게 클러스터링되는지 (단순 슬라이딩 vs 교차 샘플링) 가 국소 재구성의 품질과 하류의 전역 정렬 성공에 결정적인 역할을 함을 실험적으로 입증했습니다.

4. 실험 결과 (Results)

MERG3R 는 7-Scenes, NRGBD, Tanks & Temples, Cambridge Landmarks 등 다양한 대규모 데이터셋에서 평가되었습니다.

정확도 (Accuracy): 1,000 장 이상의 이미지 시퀀스에서 기존 SOTA 모델 (VGGT, Pi3 등) 이 메모리 부족으로 실패하거나 정확도가 급격히 떨어지는 반면, MERG3R 은 최고의 정확도를 유지했습니다. 특히 카메라 포즈 추정 (RRA, RTA, ATE 등) 과 포인트 클라우드 재구성 (Accuracy, Completion, Normal Consistency) 모두에서 우수한 성능을 보였습니다.
메모리 및 계산 효율성:
- 메모리: 입력 이미지 수가 증가해도 메모리 사용량이 일정하게 유지되며, 1,000 장 이미지 처리 시 기존 모델 대비 ~20GB (MERG3R) 대 >64GB (Baseline) 의 메모리 절감 효과를 보였습니다.
- 실행 시간: 1,000 장 이미지 처리 시 20 분 이상 소요되던 기존 방식 대비 약 8.5 분으로 단축되었습니다.
비교 우위: 기존 전통적인 SfM (COLMAP 기반) 및 다른 신경망 기반 방법들 (CUT3R, TTT3R 등) 보다 확장성과 정확도 면에서 우위를 점했습니다.

5. 의의 및 결론 (Significance)

MERG3R 은 전통적인 기하학적 최적화 (분할 - 정복, 번들 조정) 와 최신 신경 기하학 모델의 강점을 융합한 혁신적인 접근법입니다.

실용성: 도시 규모의 모델링이나 수천 장의 이미지로 구성된 복잡한 환경 재구성과 같은 실제 응용 분야에서 GPU 메모리 제약 없이 고품질 3D 재구성을 가능하게 합니다.
접근성: 고사양 하드웨어에 대한 의존도를 낮추어 3D 재구성 기술을 더 널리 배포하고 접근 가능하게 만듭니다.
미래 지향성: 이 프레임워크는 메모리 제약 없이 더 복잡하고 정교한 신경 기하학 모델 개발의 길을 열어주며, 대규모 시각 데이터 처리의 새로운 표준을 제시합니다.

요약하자면, MERG3R 은 신경망 기반 3D 재구성의 가장 큰 병목 현상이었던 '메모리 확장성' 문제를 해결하여, 대규모 무작위 이미지 집합에서도 고품질의 전역 일관된 3D 모델을 생성할 수 있는 강력한 솔루션을 제공합니다.

MERG3R: A Divide-and-Conquer Approach to Large-Scale Neural Visual Geometry