MERG3R: A Divide-and-Conquer Approach to Large-Scale Neural Visual Geometry

MERG3R 는 GPU 메모리 제한으로 인해 대규모 이미지 컬렉션에 적용하기 어려웠던 신경 시각 기하학 모델들을 위해, 이미지를 분할·재구성한 후 효율적으로 병합하는 훈련 없는 분할 정복 프레임워크를 제안하여 확장성과 정확도를 동시에 향상시킵니다.

Leo Kaixuan Cheng, Abdus Shaikh, Ruofan Liang, Zhijie Wu, Yushi Guan, Nandita Vijaykumar

게시일 2026-03-04
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

MERG3R: 거대한 3D 세상을 작은 조각으로 나누어 완성하는 마법

이 논문은 **"수천 장의 사진을 한 번에 처리하려다 컴퓨터 메모리가 터지는 문제"**를 해결하는 새로운 방법, MERG3R을 소개합니다.

기존의 최신 AI 기술들은 사진을 한 번에 모두 보고 3D 모델을 만들려고 했지만, 사진이 너무 많으면 컴퓨터의 기억장소 (메모리) 가 부족해 작업을 포기하거나 (OOM, Out of Memory) 매우 느려졌습니다. MERG3R 은 이 문제를 "분할 정복 (Divide-and-Conquer)" 전략으로 해결했습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제 상황: 거대한 퍼즐을 한 번에 맞추려다 뇌가 터지는 상황

상상해 보세요. 1,000 장의 사진으로 거대한 성을 3D 로 재현해야 한다고 칩시다.
기존의 최신 AI 모델 (VGGT, Pi3 등) 은 이 1,000 장의 사진을 한 번에 모두 눈으로 보려고 합니다. 마치 1,000 개의 퍼즐 조각을 한 손에 쥐고 "어디에 끼워야 하지?"라고 고민하는 것과 같습니다.

  • 결과: 컴퓨터의 기억장소 (GPU 메모리) 가 1,000 장의 정보를 동시에 담을 수 없어서 과부하가 걸려 멈춰버립니다. (메모리 부족)
  • 대안: 사진을 100 장씩 잘라내서 처리하는 방법도 있지만, 이렇게 잘라내면 조각들 사이의 연결고리가 끊겨 성의 모양이 일그러지거나, 일부는 아예 사라져버립니다.

2. MERG3R 의 해결책: "작은 팀을 만들어 나누어 일하고, 다시 합치기"

MERG3R 은 이 문제를 해결하기 위해 세 가지 단계로 이루어진 똑똑한 전략을 사용합니다.

1 단계: 사진 정렬하기 (가상의 영화 만들기)

먼저, 순서가 뒤죽박죽인 1,000 장의 사진을 자연스러운 흐름을 가진 순서대로 나열합니다.

  • 비유: 마치 낱낱의 사진들을 이어 붙여 한 편의 영화를 만드는 것과 같습니다. "이 사진 다음에는 저 사진이 와야 자연스럽다"는 AI 가 스스로 찾아냅니다.

2 단계: 작은 팀으로 나누기 (인터리빙 분할)

이제 이 긴 영화를 잘게 자릅니다. 하지만 단순히 1100 장, 101200 장으로 자르는 게 아닙니다.

  • 비유: 1 번 팀은 1 번, 11 번, 21 번 사진을 보고, 2 번 팀은 2 번, 12 번, 22 번 사진을 보게 합니다.
  • 이유: 이렇게 하면 각 팀이 다양한 각도에서 장면을 볼 수 있게 됩니다. 만약 1~100 장만 한 팀이 본다면, 그 팀은 건물의 앞면만 보고 뒤쪽은 전혀 모르게 되어 3D 모델을 엉망으로 만들 수 있습니다. MERG3R 은 모든 팀이 건물의 앞, 옆, 뒤를 골고루 보도록 배분합니다.
  • 중요한 점: 각 팀이 보는 사진들 사이에는 **겹치는 부분 (Overlap)**이 있습니다. 마치 퍼즐 조각들이 서로 겹쳐져 있어 나중에 붙일 때 이어질 수 있게 하는 것입니다.

3 단계: 각자 작업하고 합치기 (분할 정복)

이제 각 팀 (작은 사진 묶음) 은 자신들이 처리할 수 있는 양만 가지고 3D 모델을 만듭니다.

  • 장점: 컴퓨터는 1,000 장을 한 번에 보지 않아도 되므로 메모리 부족 문제가 사라집니다. 여러 개의 그래픽카드 (GPU) 에 작업을 나누어 동시에 할 수도 있어 속도도 빨라집니다.

4 단계: 완성된 조각들을 하나로 붙이기 (글로벌 정렬)

각 팀이 만든 작은 3D 모델들을 다시 하나로 합칩니다. 이때 중요한 것은 정확하게 맞추는 것입니다.

  • 비유: 각 팀이 만든 작은 성 모형들을 가져와서, 겹치는 부분 (앞면과 옆면이 겹치는 곳) 을 기준으로 완벽하게 맞춰 붙입니다.
  • MERG3R 은 이 과정에서 AI 가 "이 부분은 신뢰도가 낮아"라고 판단한 부분은 제외하고, "이 부분은 확실해"라고 판단한 부분만 믿으며 정밀하게 조정합니다. 이를 통해 전체적인 3D 모델이 일그러지지 않고 매끄럽게 완성됩니다.

3. 왜 이것이 중요한가요? (기존 기술과의 비교)

  • 기존 기술 (VGGT, Pi3 등): "나는 모든 사진을 한 번에 봐야 정확해!"라고 하지만, 사진이 1,000 장이 넘어가면 컴퓨터가 죽어버립니다.
  • MERG3R: "사진을 잘게 나누어 팀별로 만들고, 다시 잘 맞춰 붙이면 어떨까?"라고 생각합니다.
    • 메모리: 1,000 장의 사진을 처리해도 메모리 사용량은 일정하게 유지됩니다. (약 20GB 수준)
    • 속도: 기존 방법보다 훨씬 빠릅니다 (약 8 분 vs 20 분 이상).
    • 정확도: 사진을 잘게 나누었음에도 불구하고, 오히려 더 정확한 3D 모델을 만듭니다.

4. 결론: 더 큰 세상을 더 쉽게 재현하다

MERG3R 은 **"거대한 일을 작은 조각으로 나누어 해결하는 지혜"**를 AI 에 적용한 사례입니다.

이 기술을 사용하면 이제 수천 장의 사진으로 도시 전체나 거대한 유적지를 3D 로 재현할 때, 비싼 고성능 컴퓨터가 없어도, 메모리 부족을 걱정하지 않고도 빠르고 정확하게 작업을 끝낼 수 있게 됩니다. 마치 거대한 퍼즐을 한 번에 맞추려다 지친 대신, 작은 팀을 만들어 각자 맡은 부분을 완성하고 마지막에 하나로 합치는 것처럼 말이죠.

이제 우리는 GPU 메모리라는 '벽'에 막히지 않고, 상상하는 그 어떤 거대한 3D 세상도 자유롭게 재현할 수 있게 된 것입니다.