Semantic-Guided 3D Gaussian Splatting for Transient Object Removal

이 논문은 시맨틱 필터링 프레임워크를 활용하여 모션 기반 방법의 한계를 극복하고, 메모리 오버헤드를 최소화하면서 3D 가우스 스플래팅의 일관성 있는 재구성 품질을 보장하는 영구적 객체 제거 기법을 제안합니다.

Aditi Prabakaran, Priyesh Shukla

게시일 2026-02-18
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 문제 상황: "3D 사진 찍기에서의 유령"

상상해 보세요. 여러분이 아름다운 성당이나 공원을 360 도 회전하며 사진을 찍어서 3D 모델을 만들려고 합니다. 그런데 사진 찍는 동안 사람들이 지나가거나, 풍선이 날아다니거나, 개가 뛰어다니는 경우가 생깁니다.

기존의 3D 기술 (Vanilla 3DGS) 은 이 모든 사진을 합쳐서 3D 모델을 만듭니다. 문제는 움직이는 사람이나 물체가 여러 각도에서 찍혔을 때, 3D 모델에 '유령'처럼 흐릿하게 남는다는 점입니다. 마치 사진이 겹쳐서 흐릿해진 것처럼요.

  • 기존 해결책의 한계:
    • 움직임을 감지하는 방법: "저게 움직였으니 지워라!"라고 하는데, 카메라가 움직일 때 정지한 벽도 움직이는 것처럼 보일 수 있어 (시차 문제), 중요한 벽까지 실수로 지워버리거나 유령을 놓치는 경우가 많았습니다.
    • 무거운 방법: 모든 것을 분석하기 위해 컴퓨터 메모리를 너무 많이 써서, 실시간으로 3D 를 보여주는 게 힘들어졌습니다.

🧠 2. 새로운 해결책: "AI 의 눈으로 '무엇'인지 구분하기"

이 논문은 "움직임"이 아니라 "무엇 (사물)"인지를 AI 가 판단하게 했습니다.

비유: "사진 속의 방해꾼 찾기"
마치 여러분이 가족 사진을 정리할 때, "우리 가족은 남기고, 지나가던 낯선 사람이나 쓰레기는 지우자"라고 생각하는 것과 같습니다.

이 연구에서는 **CLIP(클립)**이라는 AI 모델을 사용했습니다. CLIP 은 "이 사진에 '사람'이 있니?", "'풍선'이 있니?"라고 물어보면 대답을 해주는 똑똑한 AI 입니다.

🛠️ 작동 원리 (3 단계)

  1. 스캔하기 (CLIP 점수 매기기):
    3D 모델을 만들면서 컴퓨터가 가상의 카메라로 장면을 여러 번 봅니다. 이때 CLIP AI 가 "아, 이 화면에 '사람'이 있네!"라고 점수를 매깁니다.

    • 예: "사람"이라는 단어를 입력하면, 화면에 사람이 보일수록 점수가 높아집니다.
  2. 누적하기 (누가 유령인지 기억하기):
    3D 모델은 수많은 작은 구슬 (가우시안) 로 이루어져 있습니다.

    • 고정된 벽: CLIP 이 "벽"이라고 인식하면 점수를 안 줍니다.
    • 지나가는 사람: CLIP 이 "사람"이라고 인식하면, 그 구슬에 "유령嫌疑 (의심)" 점수를 줍니다.
    • 이 점수는 여러 번의 스캔을 거치며 쌓입니다. "자꾸 사람으로 인식되네? 이건 유령이야!"라고 결론 내립니다.
  3. 정리하기 (유령 제거):
    점수가 너무 높은 구슬들 (유령들) 은 투명하게 만들거나 (점점 사라지게 하거나), 아예 삭제해 버립니다. 반면, 벽이나 기둥 같은 고정된 물체는 안전하게 지켜줍니다.


🌟 3. 왜 이 방법이 더 좋은가요?

  • 시차 (Parallax) 문제 해결:

    • 기존: "저 벽은 몇 번 안 보였으니 지워야겠다" -> 실수: 벽이 잘 안 보였을 뿐인데 유령으로 오인해 지워버림.
    • 이 방법: "저건 '벽'이라고 인식되는데? 유령이 아니야!" -> 성공: 움직임과 상관없이 '무엇'인지 알고 있으니, 벽은 살리고 사람만 지킵니다.
  • 가볍고 빠름:

    • 무거운 3D 모델을 다시 만드는 게 아니라, 기존 3D 모델에 아주 작은 메모리만 추가해서 (구슬 하나당 점수만 저장) 실시간으로 3D 를 보여줄 수 있습니다.

📊 4. 실험 결과: "유령이 사라진 깨끗한 3D"

연구팀은 'RobustNeRF'라는 유명한 데이터셋 (사람들이 지나가는 장면들) 으로 실험했습니다.

  • 결과: 기존 기술보다 화질이 훨씬 좋아졌고 (유령이 사라짐), 메모리 사용량은 거의 늘지 않았습니다.
  • 한계: 아주 작은 먼 곳의 물체 (예: 멀리 있는 작은 사람) 는 AI 가 잘 못 알아볼 수 있어 완벽하게 지우지는 못했습니다. 하지만 큰 사물이나 사람에 대해서는 매우 효과적이었습니다.

💡 요약

이 논문은 **"3D 장면을 만들 때, AI 가 '사람'이나 '쓰레기' 같은 방해물을 알아보고, 그 부분만 골라내어 깨끗하게 지워주는 기술"**을 개발했습니다.

마치 사진 편집 프로그램에서 '유령 제거' 기능을 자동으로 실행하듯, 3D 공간에서도 불필요한 움직임을 지워주어 더 선명하고 깨끗한 3D 세상을 만들어주는 혁신적인 방법입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →