Extending Foundational Monocular Depth Estimators to Fisheye Cameras with Calibration Tokens

Each language version is independently generated for its own context, not a direct translation.

🎬 줄거리: "왜곡된 안경을 쓴 AI 를 고치다"

1. 문제 상황: AI 의 혼란

우리가 흔히 쓰는 카메라 (스마트폰, DSLR) 는 직선적인 사물을 직선으로 찍습니다. 하지만 자율주행차나 로봇이 쓰는 **'피시아이 (Fisheye) 카메라'**는 마치 물고기의 눈처럼 사방을 넓게 찍어주지만, 그 대신 사진이 심하게 휘어지고 왜곡됩니다.

기존에 수억 장의 '평범한 사진'으로 훈련된 **AI (깊이 추정 모델)**는 이 휘어진 사진을 보면 완전히 당황합니다.

비유: 마치 평범한 안경을 쓴 사람이 갑자기 심하게 휘어진 만화경 안경을 끼고 세상을 보려고 하는 상황입니다. 거리가 왜곡되어 보이고, 벽이 휘어 보이면 AI 는 "이게 벽인지, 구부러진 천인지, 얼마나 멀리 있는지"를 전혀 알 수 없게 됩니다.

2. 기존 해결책의 한계

이 문제를 해결하려는 기존 방법들은 두 가지 큰 단점이 있었습니다.

사진을 다듬는 방법 (왜곡 제거): 휘어진 사진을 다시 펴서 평범하게 만드는 작업을 먼저 합니다. 하지만 이 과정에서 화질이 깨지거나 (블러, 아티팩트), 시간이 걸립니다. 마치 사진이 찌그러진 구름을 펴려다 구름이 찢어지는 것과 같습니다.
AI 를 처음부터 다시 가르치는 방법: 피시아이 사진만 보고 AI 를 다시 훈련시킵니다. 하지만 피시아이 사진 데이터는 평범한 사진에 비해 수십 배, 수백 배 적습니다. 부족한 재료로 훌륭한 요리를 만드는 것은 불가능에 가깝고, 그렇게 만든 AI 는 평범한 사진을 보면 다시 망가집니다.

3. 이 논문의 해결책: "보정 토큰 (Calibration Tokens)"

저자들은 **"AI 전체를 다시 가르칠 필요 없이, AI 에게 '보정 토큰'이라는 작은 메모지를 붙여주면 된다"**는 아이디어를 냈습니다.

핵심 아이디어:
AI 는 이미 평범한 사진을 보는 능력은 천재 수준입니다. 문제는 피시아이 사진이 AI 의 뇌 (잠재 공간) 에 들어갈 때 왜곡된 정보로 처리된다는 점입니다.
그래서 AI 가 사진을 분석하기 직전, 휘어진 사진 정보를 **"평범한 사진처럼 해석할 수 있도록 도와주는 작은 메모 (토큰)"**를 AI 에게 주입합니다.
비유:
- AI: 평범한 안경을 쓴 천재 사진가.
- 피시아이 사진: 심하게 휘어진 만화경 사진.
- 보정 토큰: 사진가에게 건네주는 **"이 사진은 휘어져 있으니, 왼쪽은 오른쪽으로, 위는 아래로 생각하면 돼"**라고 적힌 작은 메모.
- 결과: 사진가는 메모를 보고 휘어진 사진을 보더라도, 마치 평범한 사진을 보는 것처럼 정확한 거리감을 파악합니다.

4. 어떻게 훈련할까? (스스로 배우기)

피시아이 사진 데이터가 부족해서 어떻게 훈련할까요?

방법: 평범한 사진 (데이터가 풍부함) 을 가져와서 인위적으로 휘어지게 (왜곡하게) 만듭니다.
학습 과정:
1. 평범한 사진으로 AI 가 "이건 3 미터 거리야"라고 답을 내립니다. (정답)
2. 그 사진을 인위적으로 휘어지게 만든 뒤, 보정 토큰을 붙여서 AI 에게 다시 보여줍니다.
3. AI 가 휘어진 사진을 보고 "이건 3 미터 거리야"라고 다시 답해야 합니다.
4. 두 답이 같아야 하므로, AI 는 보정 토큰을 통해 휘어진 정보를 어떻게 보정해야 하는지 스스로 배웁니다.

이 과정은 레이블 (정답) 이 필요 없는 '자기 지도 학습' 방식이라, 엄청난 양의 평범한 사진 데이터만 있으면 됩니다.

5. 왜 이 방법이 특별한가?

가볍고 빠름: AI 전체를 다시 훈련하는 게 아니라, 매우 작은 메모 (토큰) 만 추가합니다. 컴퓨터 성능을 거의 쓰지 않습니다.
호환성: 이 메모를 붙이면 피시아이 사진을 보고, 떼면 평범한 사진을 봅니다. 하나의 AI 로 두 가지 카메라를 모두 다룰 수 있습니다.
화질 보존: 사진을 휘어졌다 펴는 (왜곡 제거) 과정을 거치지 않으므로, 원본 이미지의 화질이 그대로 유지됩니다.

🏁 결론

이 논문은 **"기존의 천재 AI 를 버리지 않고, 작은 '보정 메모' 하나만 붙여주면, 왜곡된 피시아이 카메라 사진도 완벽하게 이해하게 만들 수 있다"**는 것을 증명했습니다.

이는 자율주행차나 로봇이 다양한 카메라를 사용하더라도, 별도의 복잡한 설정 없이도 정확한 3D 환경을 인식할 수 있게 해주는 획기적인 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 자율주행, XR, 로봇 조작 등 3D 공간 인식 애플리케이션은 넓은 시야각 (FOV) 을 확보하기 위해 피쉬아이 (fisheye) 카메라나 광각 카메라를 자주 사용합니다.
현황: 대규모 데이터셋 (수천만 장의 이미지) 으로 학습된 기초 단안 깊이 추정 모델 (Foundational Monocular Depth Estimators, FMDEs) 은 평면 (perspective) 카메라 이미지에서 뛰어난 성능을 보입니다.
핵심 문제: 이러한 FMDEs 를 피쉬아이 이미지로 직접 적용할 경우, 공변량 이동 (covariate shift) 이 발생합니다. 피쉬아이 렌즈의 왜곡 (distortion) 과 내부 파라미터 (intrinsic) 의 차이로 인해 모델이 학습한 분포와 입력 데이터 분포가 달라져, 깊이 추정 결과가 오류를 범하거나 흐릿해집니다.
기존 해결책의 한계:
1. 왜곡 보정 (Undistortion): 이미지를 평면처럼 재투영하는 방식은 캘리브레이션 오차에 민감하며, 재투영 과정에서 발생하는 아티팩트 (stretching, aliasing 등) 가 여전히 성능 저하를 유발합니다.
2. 전용 모델 학습: 피쉬아이 데이터셋은 평면 데이터셋에 비해 규모가 훨씬 작아 대규모 FMDE 를 처음부터 학습시키기 어렵습니다.
3. 파인튜닝 (Finetuning): 기존 FMDE 를 피쉬아이 데이터로 파인튜닝하면 모델의 일반화 능력 (generalizability) 이 떨어지고, 다양한 카메라 유형에 대응하기 위해 여러 모델을 유지해야 하는 운영 비용이 발생합니다.

2. 제안 방법론 (Methodology)

저자들은 "Calibration Tokens(캘리브레이션 토큰)" 이라는 경량화 적응 메커니즘을 제안하여, 재학습 없이 기존 FMDE 를 피쉬아이 카메라에 적용할 수 있도록 합니다.

A. 핵심 아이디어: 잠재 공간 정렬 (Latent Space Alignment)

FMDE 는 이미 평면 이미지에 대해 높은 성능을 내므로, 모델 전체를 수정하는 대신 피쉬아이 이미지의 잠재 임베딩 (latent embeddings) 을 평면 이미지의 분포에 맞춰 조정 (recalibrate) 하는 것이 핵심입니다.
Transformer 기반 아키텍처의 어텐션 (attention) 메커니즘을 활용하여, 입력 시퀀스에 학습 가능한 Calibration Tokens 을 추가합니다. 이 토큰들은 피쉬아이 왜곡 정보를 인코딩하여 이미지 패치 임베딩을 변조 (modulate) 합니다.

B. 아키텍처 및 동작 원리

멀티레이어 토큰 삽입: 단일 토큰을 입력에만 추가하는 것이 아니라, 인코더의 각 레이어마다 고유한 Calibration Tokens 을 삽입합니다 (Layer-wise Tokens). 이를 통해 모델의 깊은 층에서도 왜곡 보정이 효과적으로 이루어지도록 합니다.
비손실 처리: 이미지 공간에서의 기하학적 변환 (재투영) 을 수행하지 않으므로, 원본 픽셀 정보가 손실되지 않습니다.
하위 호환성: 평면 이미지에 대해서는 토큰을 제거하고 기존 모델을 그대로 사용하므로, 기존 성능을 유지하면서 피쉬아이 이미지에만 토큰을 추가하여 적용할 수 있습니다.

C. 자기지도 학습 (Self-Supervised Training)

데이터: 실제 피쉬아이 데이터셋이 부족하므로, 대규모 평면 이미지 데이터셋 을 사용합니다.
학습 과정:
1. 평면 이미지에 인공적인 피쉬아이 왜곡 (Kannala & Brandt 모델 등) 을 적용하여 합성 피쉬아이 이미지를 생성합니다.
2. 생성된 피쉬아이 이미지를 FMDE 에 입력하여 깊이 맵을 예측합니다.
3. 역왜곡 (Undistortion): 예측된 피쉬아이 깊이 맵을 다시 원래 평면 좌표계로 투영합니다.
4. 손실 함수: 역왜곡된 피쉬아이 예측값과 원본 평면 이미지에서 예측된 고품질 깊이 맵 (Ground Truth 대용) 간의 차이를 최소화합니다.
5. Loss: 로그 L1 손실 (LogL1 loss) 을 사용하여 경계 영역의 아티팩트를 줄이고 학습 안정성을 높입니다.

3. 주요 기여 (Key Contributions)

새로운 접근법: 평면 이미지로 학습된 FMDE 를 피쉬아이 이미지에 확장하는 새로운 방법론을 제안했습니다.
Calibration Tokens: 피쉬아이 왜곡을 보상하고 잠재 임베딩을 평면 분포에 정렬시키는 경량화 가능한 토큰 세트를 도입했습니다.
자기지도 학습 전략: 대규모 평면 데이터셋을 활용하여 피쉬아이 데이터 없이도 토큰을 학습할 수 있는 자기지도 학습 목표를 설계했습니다. (입력에서는 왜곡, 출력에서는 역왜곡을 통해 고품질 감독 신호 유지)
범용성 및 효율성: 실내/실외 환경 모두에서 단일 세트의 토큰으로 SOTA 성능을 달성하며, 모델 재학습 없이도 다양한 FMDE(MiDaS, DepthAnything, UniDepth 등) 에 적용 가능합니다.

4. 실험 결과 (Results)

데이터셋: 실내 (ScanNet++), 실외 (KITTI-360) 데이터셋에서 평가.
비교 대상: 기존 SOTA 방법인 DepthAnyCamera, FoVA-Depth 및 파인튜닝 (Finetuning) 방식과 비교.
성능:
- 정량적 결과: MiDaS, DepthAnything, UniDepth 등 다양한 FMDE 에 Calibration Tokens 을 적용했을 때, RMSE(평균 제곱근 오차) 가 크게 감소하고 $\delta_1$ $δ_{1}$ (정확도) 가 향상되었습니다.
  - 예: ScanNet++ 에서 UniDepth 의 RMSE 는 0.279 에서 0.244 로 개선되었으며, 기존 SOTA 모델들보다 우수한 성능을 보였습니다.
- 파인튜닝 대비 우위: 전체 모델을 파인튜닝하는 방식보다 Calibration Tokens 방식이 성능이 훨씬 우수하며, 모델의 일반화 능력을 유지했습니다.
- 계산 비용: 토큰 추가로 인한 메모리 증가량은 0.05% 미만, 추론 시간 증가는 1ms 미만으로 매우 경량화되었습니다.
시각적 결과: 왜곡이 심한 영역에서도 선명하고 정확한 깊이 맵을 생성하며, 3D 재구성 결과에서도 우수한 일관성을 보였습니다.

5. 의의 및 결론 (Significance)

운영 효율성: 멀티 카메라 시스템 (예: 자율주행 차량) 에서 다양한 카메라 유형에 대해 별도의 모델을 학습하거나 유지할 필요가 없어졌습니다. 하나의 FMDE 에 토큰만 추가하면 다양한 카메라 입력을 처리할 수 있습니다.
데이터 효율성: 피쉬아이 전용 대규모 데이터셋이 없어도, 기존 평면 데이터셋을 재활용하여 고품질 적응이 가능함을 입증했습니다.
미래 지향성: Transformer 기반의 기초 모델들이 계속 발전함에 따라, 이 '캘리브레이션 토큰' 프레임워크는 새로운 모델에도 쉽게 적용되어 다양한 센서 환경에 대한 적응력을 제공할 수 있습니다.

이 논문은 기초 모델 (Foundation Models) 의 재사용성을 극대화하면서, 센서 특이적 문제 (피쉬아이 왜곡) 를 해결하는 효율적이고 강력한 솔루션을 제시했다는 점에서 의의가 큽니다.