3DGS-HPC: Distractor-free 3D Gaussian Splatting with Hybrid Patch-wise Classification

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 문제 상황: "사진 속의 방해꾼들"

상상해 보세요. 여러분이 아름다운 산과 바다를 배경으로 멋진 3D 모델을 만들려고 합니다. 하지만 찍은 사진들에는 걸어 다니는 사람, 지나가는 차, 혹은 구름 그림자 같은 것들이 섞여 있습니다.

기존의 3DGS 기술은 이 모든 것을 '진짜 배경'이라고 믿고 학습합니다. 그 결과, 3D 모델을 만들어 보면 산 위에 사람이 떠다니거나, 바닥에 그림자가 영구적으로 박히는 기괴한 오류가 생깁니다.

기존 방법의 한계: 이전 연구자들은 "AI 가 사람이나 차를 알아보는 기능 (시각 모델)"을 이용해 방해꾼을 찾아냈습니다. 하지만 이 방법은 너무 엄격하거나 너무 느슨했습니다.
- 예시: "그림자는 사람과 같은 색이니까 사람으로 분류해 버린다"거나, "산과 바위가 비슷하게 생겼으니 바위도 방해꾼으로 오해한다"는 식입니다. 마치 모든 검은색 물체를 '검은 고양이'로만 인식하는 AI처럼, 상황에 따라 엉뚱한 것을 지워버리거나 진짜 방해꾼을 놓치는 문제가 있었습니다.

💡 2. 해결책: "조각난 퍼즐과 두 가지 눈"

저자들은 이 문제를 해결하기 위해 **HPC(Hybrid Patch-wise Classification)**라는 새로운 방식을 제안했습니다. 두 가지 핵심 아이디어로 이루어져 있습니다.

🧩 아이디어 1: "픽셀 하나하나가 아니라 '조각'으로 보기" (Patch-wise Classification)

기존 방식은 사진의 픽셀 하나하나를 따로따로 판단했습니다. 이는 마치 미세한 모래알 하나하나를 손으로 하나씩 세어 분류하는 것과 같아서, 작은 실수 하나가 전체를 망칠 수 있었습니다.

새로운 방식: 사진을 **작은 정사각형 조각 (Patch)**으로 나눕니다. 그리고 그 조각 전체를 하나의 덩어리로 봅니다.
비유: 모래알을 하나하나 세는 대신, 레고 블록 단위로 분류하는 것입니다. "이 블록 안에는 사람 발이 있네? 그럼 이 블록 전체를 '방해꾼' 구역으로 치자!"라고 판단합니다. 이렇게 하면 주변 환경 (배경) 과의 관계를 더 잘 이해하게 되어, 실수할 확률이 훨씬 줄어듭니다.

👁️ 아이디어 2: "색깔 눈과 의미 눈의 합작" (Hybrid Classification Metric)

방해꾼을 찾을 때 두 가지 눈을 동시에 사용합니다.

색깔 눈 (Photometric): "이곳의 색이 원래 사진과 다른가?" (예: 사람 옷이 배경과 확실히 다름)
의미 눈 (Perceptual): "이곳의 형태나 질감이 원래 사진과 다른가?" (예: 사람의 윤곽이 보임)

기존의 문제: '의미 눈'만 쓰면, 매끄러운 벽이나 흰색 천처럼 질감이 없는 곳에서 AI 가 혼란을 겪어 "여기에 뭔가 이상한 게 있나?"라고 오해하는 경우가 많았습니다.
새로운 방식: 두 눈을 서로 보완하게 합니다.
- 비유: 색깔 눈이 "전체적으로 방해꾼이 차지한 비율은 대략 20% 정도야"라고 대략적인 지도를 그려주면, 의미 눈이 그 지도를 바탕으로 "자, 이 20% 구역 중에서 진짜 방해꾼을 찾아내자"라고 정밀하게 작업을 합니다.
- 이렇게 하면 흰색 벽을 실수로 지워버리는 실수를 막을 수 있습니다.

🏆 3. 결과: "깨끗하고 완벽한 3D 세계"

이 새로운 방법 (HPC) 을 적용하면 다음과 같은 변화가 일어납니다.

정확한 제거: 사람, 차, 그림자 같은 방해꾼은 깔끔하게 지워집니다.
배경 보호: 산, 건물, 바닥 같은 진짜 배경은 손상되지 않고 그대로 남습니다.
빠른 속도: 픽셀 단위가 아니라 조각 단위로 계산하므로, 기존 방법보다 더 빠르고 효율적입니다.

📝 요약

이 논문은 **"3D 장면을 만들 때 방해꾼을 지우는 작업"**을 다음과 같이 바꿨습니다:

"하나하나의 모래알 (픽셀) 을 세느라 지치고, AI 의 오해 (시각 모델의 한계) 로 인해 진짜 배경까지 지워지는 실수를 범하는 대신, 작은 블록 (조각) 단위로 판단하고, 색깔과 의미 두 가지 정보를 서로 도와가며 방해꾼만 정확히 골라내자."

이 덕분에 우리는 사람이나 그림자가 떠다니지 않는, 더 깨끗하고 현실적인 3D 가상 세계를 훨씬 쉽고 빠르게 만들 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경: 3D 가우스 스플래팅 (3D Gaussian Splatting, 3DGS) 은 실시간 렌더링 속도와 높은 화질로 인해 신경 방사장 (NeRF) 을 대체하는 강력한 3D 장면 재구성 및 새로운 뷰 합성 기술로 부상했습니다.
핵심 문제: 실제 세계 (Real-world) 환경에서는 학습 이미지에 일시적인 방해 요소 (Transient Distractors) 가 자주 포함됩니다. 이는 보행자, 차량, 그림자 등 동적이거나 시간적으로 일관성이 없는 요소들입니다.
기존 방법의 한계:
- 기존 방법들은 대부분 사전 훈련된 비전 모델 (Vision Foundation Models) 에서 추출한 시맨틱 (Semantic) 사전 지식을 활용하여 방해 요소를 식별하고 필터링합니다.
- 시맨틱 불일치 (Semantic Mismatch): 일반적인 비전 모델의 시맨틱 (예: '사람', '나무') 은 3DGS 가 필요한 '정적 (Static)'과 '일시적 (Transient)'의 이진 분류와 정확히 일치하지 않습니다. 예를 들어, 그림자는 '사람'의 일부로 인식될 수 있지만, 실제 배경과 구분해야 하는 일시적 요소입니다.
- 시맨틱 취약성 (Semantic Fragility): 3DGS 최적화 과정에서 발생하는 외관 변화 (Appearance Perturbations, 예: 블러링, 색상 왜곡) 에 대해 시맨틱 특징이 불안정하게 반응하여, 정적인 배경을 일시적 요소로 잘못 분류하거나 그 반대의 오류를 발생시킵니다.

2. 제안 방법: Hybrid Patch-wise Classification (HPC)

저자들은 시맨틱 의존성을 피하고, 국소 공간 일관성 (Local Spatial Consistency) 과 하이브리드 분류 지표를 결합한 새로운 프레임워크인 HPC를 제안합니다.

A. 패치 단위 분류 접근법 (Patch-wise Classification Approach)

개념: 픽셀 단위 분류나 외부 시맨틱 모델 (Superpixel, SAM2 등) 에 의존하지 않고, 이미지를 규칙적인 패치 (Patch) 단위로 분할합니다.
원리: 인접한 픽셀들은 동일한 속성 (정적 또는 일시적) 을 공유한다는 국소 공간 일관성 가정을 활용합니다.
장점:
- 픽셀 단위 분류보다 풍부한 국소 문맥 (Context) 을 제공합니다.
- 외부 시맨틱 모델의 불일치 문제를 완전히 해결합니다.
- 분류 단위를 줄여 계산 효율성을 높입니다.
구현: 각 패치의 평균 오차를 계산한 후, 백분위수 (Percentile) 기반 또는 가우시안 혼합 모델 (GMM) 기반 분류를 통해 해당 패치가 정적인지 일시적인지 결정합니다.

B. 하이브리드 분류 지표 (Hybrid Classification Metric)

문제 인식: 기존에 사용되던 지각적 오차 지표 (Perceptual Metrics, 예: DINOv2) 는 의미론적 차이는 잘 포착하지만, 질감이 없는 영역 (벽, 하늘 등) 에서 작은 외관 변화에 민감하여 오분류가 자주 발생합니다. 반면, 광학적 오차 지표 (Photometric Metrics, 예: L1 Loss) 는 노이즈가 많지만 전체적인 픽셀 비율 추정은 안정적입니다.
해결책: 두 가지 지표를 결합한 하이브리드 지표를 도입합니다.
1. 광학적 오차 (Photometric Error) 를 사용하여 GMM 분류를 수행하고, 이를 통해 장면 내 정적 픽셀의 추정 비율 ( $T^{(c)}$ ) 을 구합니다.
2. 이 추정 비율을 지각적 오차 (Perceptual Error) 기반 분류의 임계값으로 사용하여, 지각적 지표가 과도하게 정적 영역을 제거하는 것을 방지합니다.
3. 최종 정적 맵은 광학적 맵과 지각적 맵의 교집합 ( $M^{(f)} = M^{(c)} \cap M^{(p)}$ ) 으로 정의됩니다.

3. 주요 기여 (Key Contributions)

HPC 프레임워크 제안: 외부 시맨틱 모델에 의존하지 않고, 국소 공간 일관성과 하이브리드 오차 지표를 활용하여 방해 요소가 없는 3DGS 를 가능하게 하는 새로운 프레임워크를 제시했습니다.
이중 설계 전략:
- 패치 단위 분류: 효율적이고 문맥 인식적인 분류를 위해 시맨틱 그룹링 대신 패치 단위를 사용합니다.
- 하이브리드 지표: 광학적 정합성과 지각적 유사성을 적응적으로 융합하여 정적/일시적 영역 분리를 강화합니다.
성능 입증: 다양한 데이터셋에서 기존 최첨단 (SOTA) 방법들보다 재구성 품질과 방해 요소 제거 능력에서 일관된 개선을 보여주었습니다.

4. 실험 결과 (Results)

데이터셋: RobustNeRF (실내 제어 환경), On-the-go (실외 및 다양한 방해 요소 비율), Phototourism (다양한 외관 변화) 데이터셋을 사용했습니다.
정량적 평가:
- RobustNeRF: 기존 3DGS 대비 PSNR 을 1.39~5.54 dB 향상시켰으며, SLS-mlp, WildGaussians 등 주요 SOTA 방법들보다 PSNR, SSIM, LPIPS 모든 지표에서 우수한 성능을 기록했습니다.
- On-the-go: 방해 요소 비율이 높은 장면에서도 정적 디테일 (예: 바닥 질감, 자전거 프레임) 을 보존하면서 방해 요소를 효과적으로 제거하여 시각적 품질이 뛰어났습니다.
정성적 평가:
- 기존 방법들은 그림자나 보행자를 배경과 구분하지 못하거나, 반대로 벽면 같은 정적 영역을 잘못 제거하는 아티팩트가 발생했습니다.
- HPC 는 이러한 아티팩트를 제거하고 더 선명한 정적 배경을 재구성했습니다.
효율성: GMM 기반 분류와 패치 단위 처리로 인해 기존 방법들 (특히 WildGaussians 등) 에 비해 GPU 메모리 사용량이 적고 학습 시간이 빠릅니다.

5. 의의 및 결론 (Significance & Conclusion)

시맨틱 의존성 탈피: 3DGS 의 방해 요소 제거 분야에서 "외부 시맨틱 모델이 정답이다"라는 기존 패러다임을 전환하고, 데이터 자체의 통계적 특성 (오차 분포) 과 공간적 일관성을 활용하는 새로운 방향을 제시했습니다.
실용성: 복잡한 사전 지식 없이도 다양한 실제 환경 (실내/실외, 다양한 조명 조건) 에서 강건하게 작동하여, 실제 3D 스캐닝 및 AR/VR 응용 분야에 적용 가능한 실용적인 솔루션을 제공합니다.
한계 및 향후 작업: 매우 드물게 관찰되는 정적 객체 (예: 특정 각도에서만 보이는 반사체) 를 일시적 요소로 오인할 수 있는 근본적인 문제는 여전히 존재하지만, 이는 향후 생성 모델 등을 결합하여 해결할 수 있는 과제로 남았습니다.

이 논문은 3DGS 의 실용성을 높이는 데 있어 시맨틱 불일치 문제를 해결한 중요한 이정표로 평가됩니다.