DROID-SLAM in the Wild

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "정지된 세상"을 믿는 카메라

기존의 SLAM(동시 위치 추정 및 지도 작성) 기술들은 마치 **"정지된 박물관"**을 상상하며 작동합니다.

비유: 카메라가 박물관을 돌아다니며 벽에 걸린 그림을 찍는다고 가정해 보세요. 그림은 절대 움직이지 않죠. 그래서 카메라는 "아, 이 그림이 여기 있었으니, 내가 이쪽으로 이동했구나!"라고 쉽게 추측합니다.
현실의 문제: 하지만 우리가 실제로 카메라를 들고 거리를 걷거나 차를 타고 이동할 때, 주변은 사람들이 오가고, 차가 지나가고, 개가 뛰어다니는 '살아있는 도시'입니다.
기존 기술의 좌절: 기존 기술은 움직이는 사람이나 차를 '고정된 벽'으로 착각합니다. "저 사람이 움직였는데 왜 벽이 내 뒤로 사라지지?"라고 혼란을 겪다가, 결국 카메라의 위치를 잘못 계산하거나 3D 지도가 뭉개져 버립니다.

2. 기존 해결책의 한계: "가상 가위"와 "미세한 눈"

최근에는 움직이는 물체를 찾아내서 잘라내거나 (가상 가위), "저건 움직이는 거니까 무시하자"라고 미리 정해진 규칙을 적용하는 방법들이 시도되었습니다.

한계: 하지만 현실은 너무 복잡합니다. "저건 사람이니까 움직이는 거야"라고 미리 정해두면, 갑자기 튀어나온 예기치 않은 물체 (예: 날아다니는 새, 갑자기 튀어오르는 공) 를 처리하지 못합니다. 마치 미세한 눈으로만 세상을 보는 것처럼, 예상치 못한 상황에는 무너집니다.

3. DROID-W 의 해결책: "불확실성이라는 나침반"

이 논문이 제안한 DROID-W는 아주 똑똑한 방식을 사용합니다. 바로 **"불확실성 (Uncertainty)"**을 수치로 재는 것입니다.

🌟 핵심 비유: "혼란스러운 파티에서의 친구 찾기"

당신이 시끄러운 파티 (복잡한 현실 세계) 에서 친구를 찾으려 한다고 상상해 보세요.

기존 기술: "친구는 절대 움직이지 않아!"라고 믿고, 움직이는 사람들도 친구로 착각하며 쫓아다니다가 길을 잃습니다.
DROID-W 의 방식:
1. 눈을 감고 귀를 기울이다 (다중 뷰 불일치 확인): 카메라는 여러 각도에서 같은 장면을 봅니다. 만약 어떤 사물이 카메라가 움직이는 방향과 다르게 움직인다면 (예: 카메라가 오른쪽으로 가는데 사물이 왼쪽으로 갔다면), 그 사물은 **'움직이는 사물'**일 가능성이 높습니다.
2. 신뢰도 점수 매기기: DROID-W 는 각 픽셀 (화면의 작은 점) 마다 **"이게 진짜 고정된 배경일까, 아니면 움직이는 방해물일까?"에 대한 점수 (불확실성)**를 매깁니다.
  - 높은 점수 (불확실성 높음): "아, 저건 움직이는 사람이네? 내 계산에 넣지 말자!"라고 무시합니다.
  - 낮은 점수 (불확실성 낮음): "저건 벽이네? 확실하니까 이걸로 내 위치를 계산하자!"라고 신뢰합니다.
3. AI 의 직관: 이 기술은 미리 "사람은 움직인다"라고 정해두지 않습니다. 대신, 화면 속의 특징들 (색깔, 모양) 이 여러 각도에서 어떻게 변하는지를 AI 가 스스로 분석해서 "이건 움직이는 것 같아"라고 판단합니다.

4. 왜 이것이 특별한가요?

실시간 작동: 이 모든 복잡한 계산을 초당 10 프레임 (FPS) 정도로 빠르게 처리합니다. 마치 실시간으로 길을 찾으며 걷는 것처럼 빠릅니다.
야생 (In-the-Wild) 강점: 실험실이나 깨끗한 실내가 아니라, YouTube 동영상처럼 흔들리고, 빛이 반사되고, 사람이 붐비는 진짜 세상에서도 잘 작동합니다.
- 예시: 거울에 비친 반사광이나, 빠르게 지나가는 차의 흐릿한 모습에서도 DROID-W 는 "아, 이건 반사된 거니까 믿지 말자"라고 판단해 정확한 지도를 만듭니다.

5. 결론: "현실 세계를 이해하는 카메라"

DROID-W 는 **"움직이는 세상에서도 흔들리지 않는 나침반"**과 같습니다.

기존 기술들이 "세상은 정지해 있다"는 이상적인 가정에 의존했다면, DROID-W 는 **"세상은 혼란스럽지만, 나는 그 혼란을 수치로 측정해서 무시할 수 있다"**는 현실적인 접근법을 취합니다.

이 기술이 발전하면, 자율주행차가 복잡한 도시에서 사람을 피하고 길을 찾거나, 로봇이 혼잡한 쇼핑몰에서 물건을 나르는 등 우리 일상 속의 복잡한 환경에서도 훨씬 더 똑똑하고 안전하게 작동할 수 있게 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 제목: DROID-SLAM in the Wild (DROID-W)

부제: 동적 환경에서의 강건한 실시간 RGB SLAM 시스템 및 불확실성 인식 번들 조정 (Uncertainty-aware Bundle Adjustment)

1. 문제 정의 (Problem)

기존의 시각적 SLAM (Simultaneous Localization and Mapping) 시스템은 대부분 정적인 환경을 가정합니다. 그러나 실제 세계 (In-the-wild) 에서는 사람, 차량, 동물 등 다양한 **동적 객체 (Dynamic Objects)**와 비강체 운동이 빈번하게 발생합니다.

기존 방법의 한계:
- 정적 가정: DROID-SLAM, ORB-SLAM2 등 전통적인 방법은 움직이는 객체를 정적 배경으로 오인하여 카메라 궤적 추정과 3D 재구성에 심각한 오류를 발생시킵니다.
- 마스크 기반 접근법: 동적 객체를 탐지하여 마스킹하는 방법 (DynaSLAM 등) 은 사전 정의된 객체 클래스나 분할 네트워크에 의존하므로, 알려지지 않은 객체나 복잡한 장면에서는 실패합니다.
- 불확실성 기반 접근법의 한계: 최근 NeRF 나 Gaussian Splatting 기반의 동적 SLAM 은 불확실성을 추정하지만, 이는 종종 고품질의 정적 3D 지도 구축에 의존합니다. 복잡한 동적 환경에서는 지도 구축 자체가 불안정해져 불확실성 추정 또한 신뢰할 수 없게 됩니다.
핵심 과제: 사전 정의된 운동 사전 지식 (Motion Priors) 이나 완벽한 정적 지도 구축 없이, 복잡하고 제약 없는 야외 환경에서 강건한 카메라 궤적 추정과 3D 재구성을 수행하는 것입니다.

2. 제안 방법 (Methodology)

저자들은 기존 딥러닝 기반 SLAM 인 DROID-SLAM을 동적 환경에 적응시킨 DROID-W를 제안합니다. 핵심은 **미분 가능한 불확실성 인식 번들 조정 (Differentiable Uncertainty-aware Bundle Adjustment, UBA)**입니다.

핵심 구성 요소:

불확실성 인식 번들 조정 (Uncertainty-aware BA):
- 기존 DROID-SLAM 의 번들 조정 (BA) 레이어에 픽셀 단위 동적 불확실성 (Per-pixel Dynamic Uncertainty, $u_t$ ) 변수를 도입합니다.
- 이 불확실성 값은 동적 객체로 인한 불일치 대응점 (Correspondence) 의 가중치를 낮추는 역할을 하여, 최적화 과정에서 동적 노이즈의 영향을 억제합니다.
- 교차 최적화 전략: pose(자세), depth(깊이), uncertainty(불확실성) 를 동시에 최적화하는 것은 계산 비용이 너무 높으므로, 자세/깊이 정제와 불확실성 최적화를 번갈아 수행하는 인터레이드 (Interleaved) 전략을 사용합니다.
다중 뷰 특징 유사성을 통한 불확실성 최적화:
- 기존 방법들이 재투사 오차 (Reprojection Error) 에 의존하는 것과 달리, DROID-W 는 DINOv2 특징을 활용합니다.
- 원리: 정적인 장면에서는 다중 뷰 간의 시각적 특징 (Visual Features) 이 일관되어야 하지만, 동적 객체 영역에서는 특징 불일치가 발생합니다.
- 손실 함수: 프레임 간의 DINOv2 특징 코사인 유사도를 기반으로 불일치를 측정하고, 이를 통해 불확실성 맵을 업데이트합니다.
- 정규화: 불확실성이 무한대로 발산하는 것을 방지하기 위해 로그 사전 (Log Prior) 을 적용하고, DINOv2 특징에서 불확실성으로 매핑하는 **국소 아핀 변환 (Local Affine Mapping)**을 학습하여 공간적 일관성을 보장합니다.
시스템 파이프라인:
- 초기화: Metric3D 를 통해 단안 깊이 (Monocular Depth) 를 예측하여 초기 불일치를 줄이고, DROID-SLAM 과 유사하게 12 개의 키프레임으로 시스템을 초기화합니다.
- 추적 및 최적화: 슬라이딩 윈도우 내에서 국소 BA 를 수행하며, 불확실성 파라미터는 윈도우 내에서만 정규화되도록 설계되어 전역 BA 시에는 고정됩니다.
- 실시간성: 약 10 FPS 로 실시간 추정이 가능합니다.

3. 주요 기여 (Key Contributions)

새로운 동적 SLAM 시스템 (DROID-W): 사전 정의된 운동 모델 없이, 다중 뷰 시각적 특징 불일치만으로 동적 불확실성을 추정하여 복잡한 야외 환경에서도 강건한 SLAM 을 구현했습니다.
새로운 데이터셋 (DROID-W Dataset): 기존 SLAM 벤치마크가 실내에 치중되어 있던 한계를 극복하기 위해, Livox LiDAR 와 RGB 카메라로 촬영한 **7 개의 야외 동적 시퀀스 (Downtown 1-7)**와 YouTube 의 다양한 동적 비디오를 포함하는 새로운 데이터셋을 공개했습니다.
SOTA 성능 달성: 복잡한 동적 환경에서 기존 SLAM 기반 방법론 및 최근 Feed-forward 3D 재구성 방법 (MonST3R, TTT3R 등) 보다 우수한 카메라 궤적 정확도와 3D 재구성 품질을 달성했습니다.

4. 실험 결과 (Results)

정량적 평가 (Quantitative Results):
- Bonn, TUM, DyCheck, DROID-W 데이터셋에서 Absolute Trajectory Error (ATE) 를 측정했습니다.
- DROID-W 는 모든 벤치마크에서 최고 또는 2 위의 성능을 기록했습니다. 특히 동적 객체가 많은 고난이도 시퀀스 (예: DyCheck 의 'haru', DROID-W 의 'Downtown' 시퀀스) 에서 WildGS-SLAM 이나 MonST3R 등의 방법보다 월등히 우수한 정확도를 보였습니다.
- DROID-W 데이터셋에서 ATE RMSE 는 0.230m 로, 기존 DROID-SLAM (1.460m) 보다 약 6 배 정확도가 향상되었습니다.
정성적 평가 (Qualitative Results):
- 불확실성 맵: 동적 객체 영역을 정확하게 식별하여 높은 불확실성을 부여하고, 정적 영역에서는 낮은 불확실성을 유지하여 공간적으로 일관된 맵을 생성했습니다.
- 3D 재구성: DROID-SLAM 은 동적 객체로 인해 스케일 드리프트 (Scale Drift) 나 노이즈가 발생했으나, DROID-W 는 정확한 기하학적 구조를 복원했습니다.
성능: 약 10 FPS 로 실시간 구동이 가능하며, WildGS-SLAM 대비 약 40 배 빠른 속도를 보입니다.

5. 의의 및 결론 (Significance)

이 논문은 **실제 세계 (In-the-wild)**의 복잡하고 동적인 환경에서 SLAM 이 직면한 근본적인 문제를 해결하는 중요한 진전을 이루었습니다.

사전 지식 불필요: 특정 객체 클래스를 학습하거나 사전 정의된 운동 모델을 필요로 하지 않으므로, 예측 불가능한 다양한 동적 상황에 적용 가능합니다.
강건한 불확실성 추정: 재투사 오차 대신 시각적 특징의 일관성을 활용함으로써, 복잡한 조명, 모션 블러, 반사 등 어려운 조건에서도 안정적인 불확실성 추정이 가능합니다.
실용성: 실시간 성능을 유지하면서도 정밀한 3D 재구성과 궤적 추정을 제공하여, 자율 주행, 로봇 공학, 증강 현실 (AR) 등 실제 응용 분야에 바로 적용 가능한 솔루션을 제시했습니다.

결론적으로, DROID-W 는 동적 환경에서의 SLAM 기술이 "실내 실험실"을 넘어 "실제 야외"로 확장될 수 있음을 입증한 획기적인 연구입니다.