Semantic-Guided 3D Gaussian Splatting for Transient Object Removal

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 문제 상황: "3D 사진 찍기에서의 유령"

상상해 보세요. 여러분이 아름다운 성당이나 공원을 360 도 회전하며 사진을 찍어서 3D 모델을 만들려고 합니다. 그런데 사진 찍는 동안 사람들이 지나가거나, 풍선이 날아다니거나, 개가 뛰어다니는 경우가 생깁니다.

기존의 3D 기술 (Vanilla 3DGS) 은 이 모든 사진을 합쳐서 3D 모델을 만듭니다. 문제는 움직이는 사람이나 물체가 여러 각도에서 찍혔을 때, 3D 모델에 '유령'처럼 흐릿하게 남는다는 점입니다. 마치 사진이 겹쳐서 흐릿해진 것처럼요.

기존 해결책의 한계:
- 움직임을 감지하는 방법: "저게 움직였으니 지워라!"라고 하는데, 카메라가 움직일 때 정지한 벽도 움직이는 것처럼 보일 수 있어 (시차 문제), 중요한 벽까지 실수로 지워버리거나 유령을 놓치는 경우가 많았습니다.
- 무거운 방법: 모든 것을 분석하기 위해 컴퓨터 메모리를 너무 많이 써서, 실시간으로 3D 를 보여주는 게 힘들어졌습니다.

🧠 2. 새로운 해결책: "AI 의 눈으로 '무엇'인지 구분하기"

이 논문은 "움직임"이 아니라 "무엇 (사물)"인지를 AI 가 판단하게 했습니다.

비유: "사진 속의 방해꾼 찾기"
마치 여러분이 가족 사진을 정리할 때, "우리 가족은 남기고, 지나가던 낯선 사람이나 쓰레기는 지우자"라고 생각하는 것과 같습니다.

이 연구에서는 **CLIP(클립)**이라는 AI 모델을 사용했습니다. CLIP 은 "이 사진에 '사람'이 있니?", "'풍선'이 있니?"라고 물어보면 대답을 해주는 똑똑한 AI 입니다.

🛠️ 작동 원리 (3 단계)

스캔하기 (CLIP 점수 매기기):
3D 모델을 만들면서 컴퓨터가 가상의 카메라로 장면을 여러 번 봅니다. 이때 CLIP AI 가 "아, 이 화면에 '사람'이 있네!"라고 점수를 매깁니다.
- 예: "사람"이라는 단어를 입력하면, 화면에 사람이 보일수록 점수가 높아집니다.
누적하기 (누가 유령인지 기억하기):
3D 모델은 수많은 작은 구슬 (가우시안) 로 이루어져 있습니다.
- 고정된 벽: CLIP 이 "벽"이라고 인식하면 점수를 안 줍니다.
- 지나가는 사람: CLIP 이 "사람"이라고 인식하면, 그 구슬에 "유령嫌疑 (의심)" 점수를 줍니다.
- 이 점수는 여러 번의 스캔을 거치며 쌓입니다. "자꾸 사람으로 인식되네? 이건 유령이야!"라고 결론 내립니다.
정리하기 (유령 제거):
점수가 너무 높은 구슬들 (유령들) 은 투명하게 만들거나 (점점 사라지게 하거나), 아예 삭제해 버립니다. 반면, 벽이나 기둥 같은 고정된 물체는 안전하게 지켜줍니다.

🌟 3. 왜 이 방법이 더 좋은가요?

시차 (Parallax) 문제 해결:
- 기존: "저 벽은 몇 번 안 보였으니 지워야겠다" -> 실수: 벽이 잘 안 보였을 뿐인데 유령으로 오인해 지워버림.
- 이 방법: "저건 '벽'이라고 인식되는데? 유령이 아니야!" -> 성공: 움직임과 상관없이 '무엇'인지 알고 있으니, 벽은 살리고 사람만 지킵니다.
가볍고 빠름:
- 무거운 3D 모델을 다시 만드는 게 아니라, 기존 3D 모델에 아주 작은 메모리만 추가해서 (구슬 하나당 점수만 저장) 실시간으로 3D 를 보여줄 수 있습니다.

📊 4. 실험 결과: "유령이 사라진 깨끗한 3D"

연구팀은 'RobustNeRF'라는 유명한 데이터셋 (사람들이 지나가는 장면들) 으로 실험했습니다.

결과: 기존 기술보다 화질이 훨씬 좋아졌고 (유령이 사라짐), 메모리 사용량은 거의 늘지 않았습니다.
한계: 아주 작은 먼 곳의 물체 (예: 멀리 있는 작은 사람) 는 AI 가 잘 못 알아볼 수 있어 완벽하게 지우지는 못했습니다. 하지만 큰 사물이나 사람에 대해서는 매우 효과적이었습니다.

💡 요약

이 논문은 **"3D 장면을 만들 때, AI 가 '사람'이나 '쓰레기' 같은 방해물을 알아보고, 그 부분만 골라내어 깨끗하게 지워주는 기술"**을 개발했습니다.

마치 사진 편집 프로그램에서 '유령 제거' 기능을 자동으로 실행하듯, 3D 공간에서도 불필요한 움직임을 지워주어 더 선명하고 깨끗한 3D 세상을 만들어주는 혁신적인 방법입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 3D 가우스 스플래팅 (3DGS) 은 신경 방사장 (NeRF) 대비 효율적인 새로운 뷰 합성 및 실시간 렌더링을 가능하게 하는 혁신적인 기술입니다.
핵심 문제: 캐주얼한 다중 뷰 촬영 (예: 야외 촬영, 일상적인 장면) 에는 보행자, 이동하는 물체 등 임시 객체 (Transient Objects) 가 포함되기 쉽습니다. 이러한 객체는 여러 뷰에서 일관되지 않은 관측을 유발하여, 3D 재구성 시 해당 위치에 유령 아티팩트 (Ghosting Artifacts) 가 발생하는 원인이 됩니다.
기존 방법의 한계:
- 운동 기반 (Motion-based) 필터링: 시차 (Parallax) 로 인해 정적인 기하 구조가 일시적으로 보이지 않거나, 임시 객체가 정지해 있는 경우를 구분하기 어려워 모호성이 발생합니다.
- 기존 NeRF 기반 접근법: RobustNeRF 등 일부 방법은 손실 함수를 수정하거나 불확실성 추정을 사용하지만, 암시적 (Implicit) 볼륨 표현을 사용하여 학습 비용이 높고 메모리 오버헤드가 큽니다.
- 메모리 비용: 장면 분해 (Scene Decomposition) 를 통한 해결책은 메모리 사용량이 과도하게 증가합니다.

2. 방법론 (Methodology)

저자들은 CLIP(Vision-Language Model) 을 활용하여 3D 가우스의 각 입자 (Gaussian) 에 대해 의미론적 필터링 (Semantic Filtering) 을 수행하는 프레임워크를 제안합니다.

2.1. CLIP 기반 의미 점수 산출 (Semantic Scoring)

프로세스: 각 학습 반복 (Iteration) 에서 현재 3D 가우스로 렌더링된 뷰 이미지를 생성합니다.
프롬프트 정의:
- 방해 요소 프롬프트 (Distractor Prompts, $D$ ): "사람", "보행자", "손", "풍선" 등 제거해야 할 임시 객체 클래스.
- 정적 프롬프트 (Static Prompts, $S$ ): "건물", "벽", "가구" 등 유지해야 할 영구 객체 클래스.
점수 계산: 렌더링된 이미지와 CLIP 텍스트 인코더의 프롬프트 간의 코사인 유사도를 계산합니다. 모든 방해 요소 프롬프트 중 최대 유사도를 해당 뷰의 방해 요소 점수 ( $s_d$ ) 로 정의하고, 이를 0~1 범위로 정규화합니다.

2.2. 가우스 단위 점수 누적 (Per-Gaussian Score Accumulation)

누적 메커니즘: 이미지 수준의 점수가 아닌, 각 3D 가우스 ( $G_j$ ) 단위로 의미 정보를 누적합니다.
- 특정 가우스가 렌더링에 기여했는지 (가시성, $v_j$ ) 확인합니다.
- 해당 뷰의 방해 요소 점수가 임계값 (0.5) 을 초과할 때만, 해당 가우스의 누적 점수 ( $\tilde{s}_j$ ) 를 업데이트합니다.
- 최종적으로 가시성 횟수 ( $n_j$ ) 로 나누어 정규화된 의미 점수 ( $s_j$ ) 를 산출합니다. 이는 빈번하게 보이는 영역이 과도하게 점수를 받지 않도록 보정합니다.

2.3. 카테고리 인식 가지치기 (Category-Aware Pruning)

임시 객체를 제거하기 위해 두 가지 메커니즘을 결합합니다:

불투명도 정규화 (Opacity Regularization): 의미 점수가 높은 가우스의 불투명도 ( $\alpha$ ) 를 감소시키는 손실 항 ( $L_{CLIP}$ ) 을 추가하여 점진적으로 억제합니다.
주기적 가지치기 (Periodic Pruning): 학습 중 특정 간격으로 의미 점수 ( $s_j > \tau$ ) 가 임계값을 초과하거나, 가시성이 낮고 불투명도가 낮은 불안정한 가우스를 물리적으로 제거합니다.

3. 주요 기여 (Key Contributions)

시차 모호성 해결: 운동 패턴에 의존하지 않고, 객체의 카테고리 (의미) 를 기반으로 임시 객체와 정적 객체를 명확히 구분하여 시차로 인한 오분류 문제를 해결했습니다.
효율적인 프레임워크: 무거운 장면 분해나 불확실성 추정을 사용하지 않고, CLIP 을 학습 단계에서만 사용하여 3DGS 의 실시간 렌더링 성능과 경량 메모리 사용량을 유지했습니다.
적응형 가지치기: 가시성 빈도뿐만 아니라 의미적 일관성을 고려한 누적 점수 기반의 가지치기 전략을 도입하여, 드물게 보이는 정적 벽면 (예: Statue 데이터셋의 15% 뷰) 과 임시 객체를 정확히 구별했습니다.

4. 실험 결과 (Results)

데이터셋: RobustNeRF 벤치마크 (Statue, Android, Yoda, Crab(2) 시퀀스) 사용.
정량적 성능:
- PSNR: Vanilla 3DGS 대비 최대 +1.94 dB (Statue), Mip-NeRF 360 대비 최대 +0.92 dB (Android) 향상.
- SSIM 및 LPIPS: 구조적 유사성 및 지각적 품질에서도 일관된 개선을 보임.
- 메모리: Vanilla 3DGS 대비 메모리 오버헤드가 미미함 (가우스당 스칼라 배열 2 개만 추가).
정성적 결과:
- Vanilla 3DGS 와 Mip-NeRF 360 은 유령 아티팩트가 명확히 관찰됨.
- 제안된 CLIP-GS는 임시 객체 (사람, 풍선 등) 를 효과적으로 제거하면서도 정적인 배경 (벽, 건물) 을 선명하게 보존함.
임계값 분석: 정규화된 의미 점수 분포는 [0.01, 0.03] 범위에 집중되므로, 임계값 $\tau$ 를 0.015~0.02로 설정하는 것이 최적임.

5. 의의 및 결론 (Significance & Conclusion)

실용성: 메모리 제약이 있거나 실시간 렌더링이 필요한 환경 (예: 모바일 AR/VR, 실시간 스트리밍) 에서 임시 객체 제거를 위한 실용적인 솔루션을 제공합니다.
한계 및 향후 과제:
- 현재는 사용자가 제거할 객체 카테고리 (프롬프트) 를 사전에 지정해야 함.
- 매우 작거나 먼 거리의 객체 (50 픽셀 미만) 에서는 CLIP 의 신뢰도가 낮아 제거가 불완전할 수 있음.
- 향후 작업: 패치 단위 (Patch-level) 의미 점수화를 통한 소형 객체 처리 개선, 학습 가능한 프롬프트 생성을 통한 수동 지정 제거, 다양한 촬영 조건에 대한 적응형 임계값 전략 연구가 필요함.

요약: 이 논문은 3D 가우스 스플래팅의 유령 아티팩트 문제를 해결하기 위해, 운동 분석 대신 시각 - 언어 모델 (CLIP) 의 의미론적 능력을 활용하여 정적 배경과 임시 객체를 효율적으로 분리하는 새로운 패러다임을 제시했습니다. 이는 높은 재구성 품질을 유지하면서도 3DGS 의 핵심 장점인 실시간성과 경량성을 해치지 않는 획기적인 접근법입니다.