PoI: A Filter to Extract Pixel of Interest from Novel Views for Scene Coordinate Regression

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 문제 상황: "완벽하지 않은 그림을 믿으면 안 돼요"

상상해 보세요. 여러분이 어떤 방을 3D 로 재현하는 AI(예: NeRF 나 3DGS) 를 훈련시키고 있다고 칩시다. AI 는 기존에 찍은 사진들을 바탕으로 새로운 각도에서 본 방의 모습을 그려냅니다.

하지만 이 AI 는 마법사가 아닙니다.

기존에 안 보였던 구석진 곳은 어떻게 그릴지 몰라 흐릿하게 그리거나,
아예 없는 물체를 엉뚱하게 만들어내기도 합니다.

여기서 중요한 차이점이 생깁니다.

일반적인 위치 파악 (CPR): "이 사진이 어느 방인지 대략적으로 알면 돼."라고 생각한다면, 그림이 조금 흐릿해도 상관없습니다. 전체적인 분위기만 보면 되니까요.
정밀한 위치 파악 (SCR): "이 사진 속 **각 픽셀 (점)**이 3D 공간에서 정확히 어디에 있는지"를 계산해야 한다면 이야기가 다릅니다. 그림에 **잘못 그려진 점 (노이즈)**이 하나라도 섞이면, 전체 위치 계산이 엉망이 되어버립니다. 마치 지도에 잘못된 좌표가 하나 섞여 있으면 길 찾기가 완전히 틀어지는 것과 같습니다.

기존 연구들은 이 '잘못 그려진 부분'을 구별하지 않고 모두 학습에 썼기 때문에, 오히려 성능이 떨어지는 문제가 있었습니다.

🔍 2. 해결책: "PoI(관심 픽셀) 필터"와 "디퓨전 마법"

저자들은 이 문제를 해결하기 위해 두 가지 전략을 섞었습니다.

① 디퓨전 모델로 '그림'을 다듬기 (Refinement)

먼저, AI 가 그린 초벌 그림이 너무 엉망이라면, **디퓨전 모델 (이미지 생성 AI)**을 이용해 그림을 다듬습니다.

비유: 화가가 스케치를 그렸는데, 구름 모양이 이상합니다. 이때 **보정 전문가 (디퓨전)**가 와서 구름을 자연스럽게 다듬어 줍니다. 이제 그림이 훨씬 그럴듯해졌죠.

② PoI 필터로 '신뢰할 수 있는 점'만 골라내기 (Filtering)

하지만 전문가가 다듬어도, 여전히 완벽하지 않은 부분이 있을 수 있습니다. (예: 구름은 잘 그렸는데, 벽의 모서리는 여전히 흐릿함)
그래서 저자들은 **'PoI (Pixel of Interest, 관심 픽셀)'**라는 필터를 만들었습니다.

비유: 여러분이 수천 개의 스티커를 붙인 지도를 보고 길을 찾고 있다고 칩시다.
- 스티커 중에는 정확한 위치를 알려주는 '진짜 스티커'도 있고,
- AI 가 잘못 그려서 틀린 위치를 알려주는 '가짜 스티커'도 있습니다.
- PoI 필터는 "이 스티커는 3D 공간에 다시 붙여봤을 때 제자리에 잘 맞으니 진짜야!"라고 확인하고, **"이건 제자리에 안 맞으니 가짜야!"라고 가짜 스티커를 바로 떼어냅니다.
- 그리고 **진짜 스티커 (신뢰할 수 있는 픽셀)**만 남아서 위치를 계산하게 합니다.

이 과정은 학습이 진행될수록 점점 더 정교해집니다. 처음에는 조금이라도 도움이 되는 것을 쓰다가, 점점 더 확실한 것만 남기는 식입니다.

🚀 3. 결과: 더 빠르고 정확한 길 찾기

이 방법을 실험해 보니 놀라운 결과가 나왔습니다.

성능 향상: 기존에 '그림이 조금 이상해서' 사용하지 못했던 새로운 각도의 사진들을, PoI 필터를 통해 신뢰할 수 있는 부분만 골라내어 학습에 넣자, 위치 파악 정확도가 **최고 수준 (State-of-the-Art)**으로 올라갔습니다.
효율성: 모든 그림을 다 쓰느라 시간을 낭비하거나, 잘못된 정보 때문에 다시 학습할 필요가 없어졌습니다.
적은 데이터로도 가능: 원래 사진이 아주 적게 있어도 (희박한 데이터), AI 가 그려낸 '신뢰할 수 있는 부분'만 보충해주면, 적은 데이터로도 정밀한 지도를 만들 수 있었습니다.

💡 요약: 한 줄로 정리하면?

"AI 가 그려낸 새로운 장면 그림은 완벽하지 않으므로, 그중에서 '틀린 부분'을 필터로 걸러내고 '잘 그린 부분 (관심 픽셀)'만 골라내어 위치를 찾으면, 훨씬 더 정확하고 빠르게 길을 찾을 수 있다."

이 연구는 **생성형 AI(그림을 그리는 AI)**와 정밀한 위치 파악 기술을 결합할 때, 단순히 "그림을 더 잘 그리게 하는 것"만으로는 부족하고, **"어떤 부분을 믿을지 선택하는 필터"**가 필수적임을 증명했습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 뉴럴 뷰 합성 (NVS, Neural View Synthesis) 기술인 NeRF 와 3D Gaussian Splatting (3DGS) 은 새로운 시점에서 사실적인 렌더링을 가능하게 하여 비주얼 로컬라이제이션 (Visual Localization) 의 훈련 데이터 증강에 활용되고 있습니다.
문제점:
- 기하학적 한계: 기존 NVS 방법들은 관측된 기하학과 방사량에 의존하여 정보를 보간 (interpolate) 할 뿐, 보이지 않는 3D 구조를 생성하거나 희소/극단적인 시점에서의 누락된 내용을 복원할 수 없습니다. 이로 인해 렌더링된 뷰는 흐림, 구조적 왜곡, 불완전한 기하학을 보입니다.
- CPR 과 SCR 의 차이:
  - CPR (Camera Pose Regression): 전체 이미지 특징에서 카메라 포즈를 직접 회귀하므로, 이미지의 전반적인 사실성 (realism) 이 중요하며 일부 렌더링 오류는 허용됩니다.
  - SCR (Scene Coordinate Regression): 각 픽셀에 대해 정확한 3D 좌표를 예측해야 하므로 (N-to-N 예측), 국소적인 렌더링 오류가 2D-3D 대응 관계 (correspondence) 를 왜곡시켜 포즈 추정을 크게 저하시킵니다.
- 현실: 기존 NVS 기법을 SCR 에 직접 적용하면, 노이즈가 많은 기하학적 감독 신호로 인해 오히려 정확도가 떨어지고 훈련 시간이 증가하는 역효과가 발생합니다.

2. 제안 방법 (Methodology)

저자들은 **PoI (Pixel-of-Interest)**라는 프레임워크를 제안하여 NVS 를 SCR 기반 로컬라이제이션에 효과적으로 통합합니다. 주요 파이프라인은 다음과 같습니다.

A. 데이터 증강 및 뷰 합성 (Data Augmentation & Synthesis)

포즈 샘플링: Fisher Information 기반의 샘플링 (FisherRF) 을 사용하여 훈련 데이터에 없는 새로운 카메라 포즈 ( $P_{novel}$ ) 를 선택합니다.
초기 렌더링 (3DGS): 3D Gaussian Splatting 을 사용하여 새로운 뷰를 렌더링합니다. 야외 환경의 조명 변화를 처리하기 위해 DFNet 에서 영감을 받은 노출 히스토그램 기반의 어파인 변환을 적용합니다.
디퓨전 정제 (Diffusion Refinement): 3DGS 로 생성된 초기 렌더링의 흐림과 기하학적 오류를 보정하기 위해 **단일 단계 디퓨전 모델 (DIFIX3D+)**을 적용합니다. 이는 반복적인 샘플링 없이 한 번의 순전달 (forward pass) 로 구조적으로 타당한 디테일을 복원합니다.

B. PoI 모듈: 픽셀 수준 필터링 (Pixel-level Filtering)

디퓨전으로 정제된 이미지라도 여전히 신뢰할 수 없는 픽셀이 존재할 수 있으므로, 훈련 과정에서 점진적인 픽셀 필터링 전략을 도입합니다.

필터링 메커니즘:
- 재투사 오차 (Reprojection Error) 기반: 예측된 3D 좌표를 다시 2D 로 투사했을 때의 오차 ( $L_{reproj}$ ) 를 계산합니다.
- 이중 기준 게이트: 오차가 임계값 ( $\tau_r$ ) 이하인 픽셀만 '관심 픽셀 (Pixel-of-Interest, PoI)'로 선택하고, 이상치 (outlier) 픽셀은 제거합니다.
- 점진적 학습: 훈련 초기에는 모든 렌더링 픽셀을 포함하다가, 훈련이 진행됨에 따라 신뢰도가 낮은 픽셀을 점차 제외합니다.
손실 함수 (Loss Function):
- 원본 쿼리 이미지 픽셀: 가중치 1 (전체 훈련 기간).
- PoI (선별된 합성 픽셀): 가중치 $\tilde{\omega}$ 를 동적으로 조정 (1 에서 0.01 로 감소). 이를 통해 모델이 초기에 빠르게 수렴하도록 유도하면서도, 후기에는 신뢰할 수 있는 합성 데이터만 학습하게 합니다.

C. 아키텍처

공유 백본 (Backbone) 을 통해 쿼리 이미지와 합성 이미지의 특징을 추출합니다.
필터링된 합성 특징 (FoI) 과 쿼리 특징을 결합 (Concatenation) 하고 셔플 (Shuffle) 한 후, 장면 특화 헤드 (Head) 를 통해 장면 좌표를 예측합니다.

3. 주요 기여 (Key Contributions)

PoI 프레임워크: 저품질 렌더링 픽셀을 제거하고 고신뢰도 픽셀만 선별하여 NVS 를 SCR 기반 로컬라이제이션에 효과적으로 통합하는 픽셀 단위 필터링 프레임워크를 제안했습니다.
디퓨전 기반 정제: 기하학적 보간에 국한되지 않고, 디퓨전 모델을 활용하여 구조적으로 타당한 세부 사항을 복원하는 NVS 파이프라인을 구축했습니다.
성능 입증: 실내 (7Scenes) 및 실외 (Cambridge Landmarks) 데이터셋에서 광범위한 실험을 통해, 제안된 방법이 기존 SCR 베이스라인 (DSAC*, ACE 등) 보다 뛰어난 로컬라이제이션 정확도를 달성하면서도 경쟁력 있는 훈련 효율성을 보임을 입증했습니다.

4. 실험 결과 (Results)

7Scenes 데이터셋:
- 제안된 방법 (PoI, GLPoI) 은 기존 SCR 방법인 DSAC* 및 ACE 보다 평균 번역 오차 (Translation Error) 와 회전 오차 (Rotation Error) 에서 모두 우수한 성능을 보였습니다.
- 특히 GLPoI 는 0.7cm/0.24°의 평균 오차를 기록하여 SOTA(State-of-the-Art) 성능을 달성했습니다.
- Ablation Study: 필터링 없이 모든 합성 픽셀을 사용하는 경우 ('dif+poa') 는 오히려 베이스라인보다 성능이 저하되었으며, 필터링이 필수적임을 증명했습니다. 또한, 디퓨전 정제가 없는 3DGS 만 사용하는 경우보다 디퓨전을 결합한 경우가 성능이 더 좋았습니다.
Cambridge Landmarks 데이터셋:
- SCR 기반 방법들 간의 비교에서 제안된 PoI 방법이 가장 낮은 평균 오차 (11.4cm/0.3°) 를 기록하며 SOTA 를 달성했습니다.
- 훈련 시간 (약 25 분) 은 ACE 와 유사한 수준으로 효율적이었습니다.
희소 입력 (Sparse Input) 시나리오:
- 훈련 데이터가 매우 적은 경우 (장면당 10 장) 에도, Fisher 샘플링과 디퓨전-NVS 를 결합한 PoI 파이프라인이 기존 희소 입력 방법보다 정확도를 크게 향상시켰습니다.

5. 의의 및 결론 (Significance)

이 논문은 NVS 기반 데이터 증강이 SCR 에 성공적으로 적용되기 위해서는 '생성적 사실성 (Generative Realism)'뿐만 아니라 '픽셀 수준의 신뢰성 제어 (Explicit Control of Pixel-level Reliability)'가 필수적임을 규명했습니다.

기존의 NVS 기법이 가진 기하학적 불완전성으로 인해 SCR 에 직접 적용되지 못했던 한계를, 디퓨전 모델에 의한 정제와 재투사 오차 기반의 동적 픽셀 필터링을 통해 해결함으로써, 데이터 수집 비용 절감과 동시에 고정밀 비주얼 로컬라이제이션을 가능하게 하는 새로운 패러다임을 제시했습니다.