Diff2DGS: Reliable Reconstruction of Occluded Surgical Scenes via 2D Gaussian Splatting

Each language version is independently generated for its own context, not a direct translation.

🏥 문제 상황: "수술실의 가려진 창문"

수술 중에는 로봇 팔이나 수술 도구가 장기를 가리곤 합니다. 마치 창문에 커튼이 쳐서 밖이 안 보이는 상황과 비슷합니다.
기존의 3D 재구성 기술들은 이 가려진 부분 (커튼 뒤) 을 그냥 비워두거나, AI 가 임의로 그림을 그려 넣는 방식 (할루시네이션) 을 썼습니다. 하지만 이렇게 하면 3D 지도를 만들 때 깊이감이 엉망이 되거나, 카메라 각도가 조금만 바뀌어도 장기가 뭉개지거나 사라지는 문제가 생겼습니다.

💡 해결책: Diff2DGS (두 단계로 완성하는 '수술실 3D 맵')

이 논문은 Diff2DGS라는 새로운 시스템을 제안합니다. 이는 크게 두 단계로 나뉩니다.

1 단계: "마법 같은 커튼 제거와 복원" (Diffusion Inpainting)

비유: 수술 도구가 가린 장기를 AI 가 마치 마법처럼 원래 모습으로 채워 넣는 것입니다.
작동 원리:
- 기존에는 가려진 부분을 그냥 지우고 3D 를 만들려 했지만, 이 방법은 먼저 **확산 모델 (Diffusion Model)**을 이용해 가려진 부분을 '복원'합니다.
- 이때 단순히 그림만 그리는 게 아니라, **이전 프레임과 다음 프레임의 움직임 (시간적 흐름)**을 함께 고려합니다. 마치 동영상을 볼 때, 커튼이 움직이는 방향을 예측해서 그 뒤에 있는 장기가 어떻게 움직일지 미리 상상하는 것과 같습니다.
- 결과: 가려진 장기 부분이 자연스럽게 복원되어, 3D 를 만들 때 '빈 공간'이 사라집니다.

2 단계: "살아 움직이는 3D 점들" (2D Gaussian Splatting + LDM)

비유: 복원된 장기를 **수백만 개의 '살아있는 반짝이는 스티커'**로 만들어 3D 공간을 채우는 것입니다.
작동 원리:
- 2D 가우시안 스플래팅: 기존의 3D 점 구름 방식보다 더 얇고 평평한 '2D 스티커'를 사용해서, 장기의 표면을 더 정교하고 빠르게 그립니다.
- 학습 가능한 변형 모델 (LDM): 장기는 수술 중 늘어나고 구부러집니다. 이 시스템은 장기가 어떻게 변형될지 스스로 학습합니다. 마치 점토를 빚을 때, 손이 닿는 대로 점토가 어떻게 변하는지 기억하는 것과 같습니다.
- 적응형 깊이 손실 (Adaptive Depth Loss): 단순히 "예쁘게 그리는 것"만 중요하지 않습니다. "얼마나 깊이가 정확한가?"도 중요합니다. 이 시스템은 훈련 과정에서 예쁘게 그리는 점수와 깊이를 정확히 그리는 점수의 비율을 자동으로 조절합니다. (처음엔 예쁘게 그리게 하고, 나중엔 깊이를 더 중요하게 여겨서 3D 구조를 튼튼하게 만듭니다.)

🏆 왜 이 기술이 특별한가요?

가려진 곳도 완벽하게: 수술 도구가 가린 부분도 자연스럽게 복원해서, 3D 지도에 '구멍'이 없습니다.
깊이감이 정확: 단순히 사진이 예쁜 게 아니라, **실제 거리가 얼마나 떨어져 있는지 (깊이)**도 매우 정확합니다. 카메라를 돌려도 장기가 뭉개지지 않고 자연스럽게 보입니다.
실시간 속도: 수술 중에는 시간이 생명입니다. 이 기술은 매우 빠른 속도로 3D 를 만들어내어 로봇 수술이나 수술 보조에 바로 쓸 수 있습니다.

📊 요약: 이전 기술 vs Diff2DGS

이전 기술: "가려진 부분은 그냥 비워두거나, 대충 그려서 3D 를 만들었어. 카메라를 돌리면 장기가 찌그러져."
Diff2DGS: "가려진 부분을 AI 가 시간 흐름을 따라 자연스럽게 복원하고, 장기의 움직임을 학습해서 정확한 3D 지도를 만들어냈어. 카메라를 돌려도 장기가 살아있는 것처럼 자연스럽게 보여!"

🎯 결론

이 연구는 **로봇 수술의 정밀도를 높이고, 외과 의사의 눈을 도와주는 '가상의 3D 내비게이션'**을 만드는 데 큰 도움이 될 것입니다. 마치 수술실 안에 가려진 부분까지 모두 볼 수 있는 투명하고 정확한 3D 안경을 끼워주는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

수술 장면의 실시간 3D 재구성 필요성: 로봇 보조 수술의 정밀도 향상, 수술자 가이드, 자동화를 위해 수술 중 실시간 3D 재구성이 필수적입니다.
기존 방법의 한계:
- 가려짐 (Occlusion) 문제: 수술 중 기구 (Instrument) 에 의해 가려진 조직 영역의 재구성 품질이 낮습니다. 기존 방법들은 주로 카메라 시점에서의 이미지 품질에 집중하여, 가려진 영역의 3D 구조를 정확히 복원하지 못합니다.
- 깊이 (Depth) 정확도 부족: EndoNeRF, StereoMIS 와 같은 기존 벤치마크는 3D 지상 진실 (Ground Truth) 이 부족하여, 이미지 품질 지표 (PSNR, SSIM) 만으로 3D 재구성 정확도를 평가하는 데 한계가 있습니다. 이미지 품질이 좋더라도 실제 3D 기하학적 구조는 부정확할 수 있습니다.
- 실시간성 vs 정밀도: NeRF 기반 방법은 계산량이 많아 실시간 적용이 어렵고, 기존 3D Gaussian Splatting (3DGS) 기반 방법들은 기구 가려짐과 조직 변형을 동시에 처리하는 데 어려움을 겪습니다.

2. 제안 방법론 (Methodology: Diff2DGS)

Diff2DGS 는 가려진 수술 장면을 신뢰성 있게 재구성하기 위한 2 단계 프레임워크입니다.

A. 1 단계: 확산 기반 수술 기구 제거 및 인페인팅 (Diffusion-based Inpainting)

목적: 수술 기구에 의해 가려진 조직 영역을 고해상도로 복원 (Inpainting) 하여 3D 재구성을 위한 입력 데이터를 정제합니다.
기술적 특징:
- Temporal Priors: 시간적 일관성을 유지하기 위해 확산 모델 (Diffusion Model) 에 시간적 주의 메커니즘 (Temporal Attention) 을 통합했습니다. 이를 통해 긴 비디오 시퀀스에서도 조직의 구조적 무결성을 유지하며 가려진 부분을 채웁니다.
- 학습 방식: 잠재 공간 (Latent Space) 에서 마스크 가중 L2 손실 함수를 사용하여, 가려진 영역의 정확한 복원과 전역적 구조의 일관성을 동시에 최적화합니다.
- 추론: DDIM 샘플링 전략을 사용하여 효율적으로 인페인팅된 비디오를 생성합니다.

B. 2 단계: 2D 가우시안 스플래팅 및 학습 가능한 변형 모델 (2DGS + LDM)

2D Gaussian Splatting (2DGS) 적용: 3D 가우시안 대신 2D 가우시안 (평면 가우시안) 을 사용하여 조직 표면의 텍스처와 에지 표현을 최적화하고, 렌더링 효율성을 높입니다.
학습 가능한 변형 모델 (LDM, Learnable Deformation Model):
- 수술 중 조직의 탄성 변형을 모델링하기 위해 도입되었습니다.
- Deform3DGS 와 유사한 전략을 따르지만, 2D 가우시안 표현을 기반으로 하여 더 효율적인 조직 표면 재구성을 가능하게 합니다.
- 가우시안의 위치, 회전, 스케일 파라미터를 시간 ( $t$ ) 에 따라 학습 가능한 함수로 정의하여 부드러운 시간적 변형을 구현합니다.
적응형 깊이 손실 (Adaptive Depth Loss):
- 이미지 품질 (RGB) 과 3D 기하학적 정확도 (Depth) 간의 균형을 맞추기 위해 적응형 깊이 손실 가중치 전략을 도입했습니다.
- 훈련 초기에는 RGB 손실이, 후기에는 깊이 손실이 중요해질 수 있으므로, 두 손실의 비율에 따라 가중치 ( $\lambda_{depth}$ ) 를 동적으로 조정합니다. 이는 이미지 품질만 높은 것이 아닌, 정확한 3D 구조를 보장합니다.

3. 주요 기여 (Key Contributions)

Diff2DGS 프레임워크: 3D 재구성 전에 2D 이미지에서 수술 기구를 제거하고 조직을 인페인팅하는 새로운 2 단계 방식을 제안하여 가려진 영역의 아티팩트를 효과적으로 제거합니다.
2DGS 기반 변형 모델 (LDM): 파라미터가 많은 기존 방법 (Deform3DGS 등) 대비 효율성을 높이면서도 조직 변형과 해부학적 기하학을 정밀하게 재구성하는 LDM 을 도입했습니다.
적응형 깊이 손실: 훈련 과정에서 깊이 정확도를 동적으로 최적화하여, 이미지 품질과 3D 기하학적 정확도를 동시에 향상시켰습니다.
종합적 평가: 기존 이미지 품질 지표뿐만 아니라 SCARED 데이터셋의 3D 지상 truth 를 활용하여 깊이 정확도를 정량적으로 분석했습니다.

4. 실험 결과 (Results)

데이터셋: EndoNeRF, StereoMIS, SCARED (da Vinci 로봇 시스템 사용).
성능 지표:
- EndoNeRF: PSNR 38.02 dB (SOTA 대비 우수).
- StereoMIS: PSNR 34.40 dB (SOTA 대비 우수).
- SCARED (가려진 영역): 가려진 영역에서 PSNR 30.53 dB, RMSE 8.21 mm를 기록하여 Deform3DGS, EndoGaussian, SurgicalGS 등을 크게 상회했습니다.
비교 분석:
- 기존 NeRF 기반 방법보다 렌더링 속도가 수백 배 빠르며, 다른 가우시안 스플래팅 방법들보다 가려진 영역의 재구성이 뛰어납니다.
- 카메라 시점이 변경될 때에도 깊이 정보의 정확도가 유지되어, Deform3DGS 에서 발생하는 깊이 왜곡 문제를 해결했습니다.
- Ablation Study: 인페인팅 모듈과 LDM 을 제거했을 때 성능이 크게 저하됨을 확인하여 각 모듈의 필수성을 입증했습니다.

5. 의의 및 결론 (Significance)

임상적 가치: 로봇 보조 수술의 실시간 내비게이션, 자동화, 수술자 훈련 시뮬레이션 등 고도화된 임상 응용을 위한 고품질 3D 재구성 기술을 제공합니다.
기술적 혁신: "이미지 품질 = 3D 정확도"라는 기존 편견을 깨고, 깊이 정확도를 명시적으로 최적화하는 접근법의 중요성을 강조했습니다.
미래 전망: 현재는 상대적으로 정적인 카메라 시점을 가정하지만, 향후 카메라 운동 모델링을 통합하여 더 역동적인 수술 환경에서의 재구성 강건성을 높일 계획입니다.

이 논문은 Diff2DGS를 통해 가려진 수술 장면의 3D 재구성에서 발생하는 아티팩트와 깊이 오류 문제를 해결하고, 실시간성과 정밀도를 동시에 확보한 새로운 표준을 제시했다는 점에서 의의가 큽니다.