Cholec80-port: A Geometrically Consistent Trocar Port Segmentation Dataset for Robust Surgical Scene Understanding

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"수술 중 카메라 렌즈를 가리는 '방해물'을 정확히 찾아내는 새로운 지도"**를 만들었다는 이야기입니다.

수술 로봇이나 내시경 수술을 할 때, 컴퓨터가 수술 장면을 이해하려면 '어디가 살이고, 어디가 도구인가'를 정확히 알아야 합니다. 하지만 이 논문은 우리가 그동안 간과했던 아주 중요한 **'방해물'**에 주목했습니다. 바로 **트로카 (Trocar)**라고 부르는, 복벽에 구멍을 뚫고 내시경 카메라를 넣는 금속/플라스틱 관입니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 왜 이 연구가 필요할까요? (카메라 렌즈에 붙은 반짝이는 스티커)

상상해 보세요. 여러분이 **비행기 창문 (카메라)**을 통해 아래 풍경을 보고 있다고 칩시다. 그런데 창문 가장자리에 **반짝이는 스티커 (트로카)**가 붙어 있습니다.

문제점: 이 스티커는 바람에 흔들리지 않고 (카메라에 고정됨), 빛을 반사해서 눈이 부시게 빛납니다.
컴퓨터의 혼란: 컴퓨터는 이 스티커를 보고 "아! 저게 움직이는 구름이구나!"라고 착각하거나, "저기 풍경이 보이는데 왜 저게 가려져 있지?"라고 헤매게 됩니다.
결과: 컴퓨터가 3D 지도를 만들거나 (3D 재구성), 영상을 이어붙일 때 (영상 스티칭) 이 스티커 때문에 지도가 찌그러지거나 방향을 잃게 됩니다.

기존의 데이터들은 이 '스티커'를 아예 무시하거나, '벽'이라고만 대충 표시했습니다. 그래서 컴퓨터는 이 방해물을 제거하는 법을 배우지 못했던 것입니다.

2. 이 논문이 해결한 핵심 문제 (구멍을 뚫지 않은 스티커)

이 연구팀은 **"방해물 (트로카) 을 어떻게 표시할까?"**에 대해 아주 똑똑한 규칙을 만들었습니다.

기존의 잘못된 방식: 트로카의 **중앙 구멍 (내시경이 지나가는 곳)**까지 모두 검은색으로 칠해버렸습니다.
- 비유: 스티커를 붙이면서, 스티커 안쪽의 구멍까지도 검은색으로 막아버린 것입니다. 그런데 구멍 안으로는 아픈 환자의 장기 (풍경) 가 보일 수 있는데, 그걸까지 가려버리면 컴퓨터는 "아, 여기는 아무것도 없어"라고 착각하게 됩니다.
이 논문의 새로운 방식 (기하학적 일관성): 트로카의 **금속/플라스틱 관 부분 (소매)**만 정확히 표시하고, 중앙 구멍은 비워두었습니다.
- 비유: 스티커는 관 모양으로만 딱 붙이고, 안쪽 구멍은 투명하게 남겨둔 것입니다. 이렇게 하면 컴퓨터는 "관 자체는 방해물이지만, 구멍 안으로 보이는 장기까지는 정상적으로 인식하라"고 정확히 배울 수 있습니다.

3. 무엇을 만들었나요? (정교한 지도와 청소된 데이터)

연구팀은 다음과 같은 세 가지 큰 업적을 남겼습니다.

새로운 규칙 (SOP): "중앙 구멍은 제외하고 관만 표시하라"는 명확한 지침을 정했습니다.
새로운 데이터셋 (Cholec80-port): 일본 Cholec80 이라는 수술 영상 20 개를 가져와서, 위 규칙에 맞춰 3 만 8 천 장 이상의 프레임을 일일이 손으로 표시했습니다. 기존 데이터보다 훨씬 더 많은 '방해물' 예시를 담고 있습니다.
기존 데이터 청소: 이미 있던 다른 데이터들 (m2caiSeg, GynSurg) 도 이 새로운 규칙에 맞춰 오류 (구멍을 막은 부분 등) 를 수정하고 정리했습니다.

4. 결과는 어땠나요? (더 똑똑해진 AI)

이 새로운 데이터로 AI 를 훈련시켰더니 놀라운 결과가 나왔습니다.

자기 집에서는 물론, 남의 집에서도 잘함: 이 데이터로 훈련된 AI 는 자신이 본 데이터뿐만 아니라, 다른 수술 데이터에서도 방해물을 잘 찾아냈습니다.
청소의 힘: 기존에 엉망으로 표시된 데이터를 '청소'해서 규칙에 맞게 고치니, AI 의 성능이 훨씬 좋아졌습니다. 마치 더러운 거울을 닦아내니 사물이 선명하게 보이는 것과 같습니다.

5. 결론: 왜 중요한가요?

이 연구는 **"수술 중 카메라를 가리는 금속 관을 정확히 식별하는 법"**을 가르쳐 줍니다.

앞으로 이 기술을 쓰면, 수술 로봇이 3D 공간감을 더 잘 갖게 되고, 영상 처리가 더 매끄러워지며, 수술 중 실수를 줄일 수 있게 됩니다. 마치 비행기 조종사가 창문의 반짝이는 스티커를 정확히 인식하고, 그 너머의 풍경을 선명하게 보게 되는 것과 같습니다.

한 줄 요약:

"수술 카메라를 가리는 금속 관을 '구멍은 비우고 관만' 정확히 표시하는 새로운 지도를 만들어, 수술 로봇이 세상을 더 똑똑하게 보게 만들었습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

수술 장면 이해의 핵심: 정밀한 수술 도구 및 해부학적 구조 분할은 고급 수술 장면 이해에 필수적입니다. 특히 이미지 스티칭, 3D 재구성, 시각적 SLAM(vSLAM) 과 같은 기하학적 기반 작업에서는 동적 객체 (국부 운동) 와 해부학적 배경 (전역 운동) 을 명확히 분리하는 것이 중요합니다.
트로카 포트 (Trocar Port) 의 문제점: 복강경 수술에서 트로카 포트는 복벽을 통과하는 물리적 관문으로, 카메라 삽입/회수 시뿐만 아니라 수술 중에도 시야를 가릴 수 있습니다.
- 포트 표면은 반사적 (specular) 이고 질감이 있어 과도한 특징점 (feature points) 을 생성합니다.
- 수술 도구와 달리 포트는 카메라에 고정되어 장시간 존재하므로, 기하학적 매칭을 왜곡하고 정렬 오류를 유발하여 기하학적 파이프라인에 치명적인 영향을 미칩니다.
데이터의 부재: 기존 대규모 데이터셋 (m2caiSeg, GynSurg 등) 은 개인정보 보호 (de-identification) 문제나 해부학적 구조의 가시성 문제로 인해 포트의 '중앙 개구부 (lumen)'를 포함하거나, 단순히 '복벽'으로 통합하여 라벨링하는 경향이 있습니다. 이는 기하학적 일관성을 해치며, 기존 데이터셋은 노이즈가 많거나 표기 방식 (hole-filling) 이 기하학적 작업에 부적합합니다.

2. 방법론 (Methodology)

2.1 데이터셋 구축 및 샘플링

Cholec80 데이터 활용: Cholec80 데이터셋의 첫 20 개 비디오를 활용했습니다.
샘플링 전략: 비디오당 30 프레임 간격으로 샘플링하여 총 38,434 개의 주석 프레임을 생성했습니다.
데이터 분할: 비디오 단위로 분할하여 데이터 누출 (leakage) 을 방지했습니다 (Train: 01-08, Val: 09-10, Test: 11-20).
포트 가시성: 샘플링된 프레임 중 1,398 개에 포트가 포함되어 있어, 기존 데이터셋 (m2caiSeg: 255 개, GynSurg: 130 개) 보다 훨씬 큰 양의 긍정적 샘플을 확보했습니다.

2.2 주석 표준 운영 절차 (SOP): 포트 슬리브 (Port-Sleeve) 정의

핵심 정의: 포트의 '슬리브' (내부 밸브 너머로 보이는 경질 금속/플라스틱 원통부) 만을 타겟으로 정의합니다.
기하학적 일관성: 포트의 중앙 개구부 (lumen) 는 제외합니다. 개구부를 마스킹하면 장기가 보이는 경우 해부학적으로 유효한 픽셀이 손실되고, 이미지 평면 집계 및 특징 추출 시 기하학적 불일치가 발생하기 때문입니다.
애매모호한 경우 처리: 방향이나 반사광으로 경계가 불분명한 경우, 인접 프레임의 시간적 맥락 (temporal context) 을 참조하여 슬리브의 물리적 범위를 확인했습니다.

2.3 기존 데이터셋 정제 및 통합

m2caiSeg: 보간 노이즈와 불필요한 마스킹을 제거하기 위해 재주석 (re-annotation) 을 수행했습니다.
GynSurg: 기존 COCO 폴리곤의 '구멍 채우기 (hole-filling)' 정책을 수정하여 중앙 개구부 영역을 분리하고 원래 폴리곤에서 차감함으로써 '슬리브 전용' 마스크를 유도했습니다.

2.4 모델 및 학습 프로토콜

아키텍처: ConvNeXt-Base 인코더와 U-Net 디코더를 사용한 이진 의미 분할 모델.
손실 함수: Dice Loss 와 Binary Cross-Entropy (BCE) 의 결합.
학습 설정: AdamW 옵티마이저, 학습률 $5 \times 10^{-5}$ , 배치 크기 16, 입력 해상도 $384 \times 384$ .

3. 주요 기여 (Key Contributions)

기하학적 일관성을 우선시하는 주석 SOP: 포트 슬리브 마스크를 정의하고 중앙 개구부를 제외하는 엄격하고 실용적인 주석 표준을 제시했습니다.
대규모 정제 데이터셋: Cholec80 기반의 대규모 데이터셋과 기존 데이터셋 (m2caiSeg, GynSurg) 을 정제하여 통합했습니다.
사전 학습된 베이스라인 모델: 하류 수술 컴퓨터 비전 연구를 지원하기 위해 사전 학습된 포트 분할 모델과 관련 도구를 공개했습니다.

4. 실험 결과 (Results)

성능 평가 지표:
- Dice Score: 포트가 존재하는 프레임 (GT > 0) 에 한해 계산된 분할 충실도.
- Detect F1: 프레임 단위에서의 포트 존재 여부 판별 정확도.
주요 결과:
- Cholec80-port 학습 모델은 자체 테스트 세트에서 Dice 0.862, Detect F1 0.856의 우수한 성능을 보였습니다.
- 교차 데이터셋 일반화: m2caiSeg 테스트 세트에서도 m2caiSeg 로 학습된 모델보다 Cholec80-port 로 학습된 모델이 더 높은 성능을 보였습니다. 이는 기하학적 일관성 있는 라벨링이 데이터셋 특이적 피팅을 넘어선 강건성을 제공함을 시사합니다.
- 정제의 효과: 정제되지 않은 원본 데이터로 학습한 경우보다 정제된 데이터 (Combined cleaned) 로 학습했을 때 전이 성능이 크게 향상되었습니다. 이는 SOP 수준의 기하학적 일관성이 교차 데이터셋 강건성의 결정적 요소임을 입증했습니다.
한계점: 포트 재질, 조명, 수술 워크플로우의 도메인 시프트 (domain shift) 로 인해 GynSurg 로의 일반화는 여전히 어렵습니다. 투명한 포트나 강한 반사광이 있는 경우 실패 사례가 발생했습니다.

5. 의의 및 결론 (Significance & Conclusion)

기하학적 파이프라인 개선: 트로카 포트의 기하학적 일관성 있는 마스킹은 SLAM, 3D 재구성 등 기하학적 기반 수술 비전 시스템의 오차를 줄이고 안정성을 높이는 데 필수적입니다.
데이터 품질의 중요성: 단순한 데이터 양의 증가보다는, 기하학적 일관성을 갖춘 고품질 주석 SOP 와 데이터 정제 (Cleansing) 가 모델의 전이 학습 성능과 강건성에 더 큰 영향을 미친다는 점을 증명했습니다.
미래 작업: 다양한 포트 외관과 수술 환경을 포함한 데이터셋 확장 및, 포트 마스킹을 vSLAM 및 3D 재구성 파이프라인에 통합하는 연구가 진행될 예정입니다.

이 논문은 수술 비전 분야에서 그동안 간과되었던 '트로카 포트'의 기하학적 특성을 체계적으로 다루고, 이를 통해 더 정확한 수술 장면 이해를 가능하게 하는 중요한 기반을 마련했다는 점에서 의의가 큽니다.