SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

Each language version is independently generated for its own context, not a direct translation.

🏥 1. 왜 이 기술이 필요한가요? (문제 상황)

수술 훈련이나 수술 계획을 세울 때, 의사는 "칼로 조직을 자르면 주변이 어떻게 늘어날까?"를 미리 알고 싶어 합니다.

기존 방식 (정교한 시뮬레이션): 컴퓨터가 복잡한 물리 법칙을 하나하나 계산합니다. 마치 거대한 퍼즐을 하나하나 맞추는 것처럼 정확하지만, 시간이 너무 오래 걸려서 "실시간"으로 반응하기 어렵습니다.
새로운 방식 (SurgFormer): 이 AI 는 수많은 시뮬레이션 데이터를 공부해서, **"직관"**을 배웠습니다. 마치 수천 번의 수술을 지켜본 베테랑 간호사처럼, 상황을 보면 "아, 이 정도 힘을 주면 조직은 이렇게 늘어날 거야!"라고 순간적으로 추측해냅니다.

🧠 2. SurgFormer 는 어떻게 작동할까요? (핵심 아이디어)

이 모델은 조직을 거대한 **레고 블록 (메쉬)**으로 이루어진 구조라고 생각합니다. 그리고 이 구조를 예측할 때 두 가지 능력을 동시에 사용합니다.

① "이웃과 대화하기" (국소적 메시지 전달)

비유: 조직의 한 점을 누르면 바로 옆 점들이 먼저 반응합니다.
작동: AI 는 각 레고 블록이 바로 옆 블록들과만 대화하게 하여, 국소적인 변형을 빠르게 계산합니다.

② "전체 지도 보기" (글로벌 주의 집중)

비유: 하지만 조직은 한쪽을 당기면 반대편도 함께 움직일 수 있습니다. 옆 사람만 보면 전체 그림을 놓칠 수 있죠.
작동: AI 는 가끔 전체 조직을 한눈에 훑어보는 (Attention) 능력을 발휘합니다. 다만, 이 전체 훑어보기는 계산 비용이 비싸기 때문에, 작은 블록들은 건너뛰고 큰 블록들만 훑어보아 효율성을 높였습니다.

③ "스마트한 문지기" (게이트 메커니즘)

비유: 이 모델은 매 순간 "지금 이 정보는 옆 사람한테서 들은 게 중요한가, 아니면 전체 지도를 보는 게 중요한가?"를 스스로 판단합니다.
작동: 각 레고 블록마다 **스마트한 문지기 (게이트)**가 있어, 상황에 따라 필요한 정보만 골라서 섞어줍니다. 덕분에 정확하면서도 빠릅니다.

🔪 3. '자르기 (절제)'도 가능할까요? (가장 혁신적인 점)

기존 AI 들은 조직이 늘어나는 것만 예측할 수 있었습니다. 하지만 실제 수술에서는 조직을 잘라내는 (절제) 경우가 많습니다. 조직이 잘리면 모양이 완전히 바뀌고, 끊어진 부분은 더 이상 연결되지 않습니다.

SurgFormer 의 혁신: 이 모델은 "잘린 부분"을 학습할 수 있는 특별한 태그를 도입했습니다.
비유: 마치 레고 성을 조립하다가 일부 블록을 떼어내는 상황을 시뮬레이션하는 것과 같습니다. AI 는 "여기가 잘렸으니, 이쪽은 더 이상 당기지 않아도 돼"라고 스스로 이해합니다.
결과: 이 덕분에 **조직을 자르는 수술 (담낭 제거, 맹장 제거 등)**에서도 실시간으로 정확한 변형을 예측할 수 있게 되었습니다.

📊 4. 실제 성능은 어떤가요?

정확도: 기존 방법들보다 훨씬 정확합니다. (오차가 매우 적음)
속도: 0.6 밀리초라는 놀라운 속도로 예측합니다. 이는 사람이 눈을 깜빡이는 시간보다 훨씬 빠르며, 수술 중 로봇이 실시간으로 반응하기에 충분한 속도입니다.
데이터: 담낭 제거 (Cholecystectomy) 와 맹장 제거 (Appendectomy) 수술 데이터를 이용해 훈련했습니다.

💡 5. 요약: 이 기술이 가져올 변화

이 연구는 **"수술 시뮬레이터"**를 한 단계 업그레이드했습니다.

과거: "수술 중 조직이 어떻게 변할지 계산하려면 컴퓨터가 10 분을 기다려야 해."
현재 (SurgFormer): "수술 중 조직이 어떻게 변할지 AI 가 눈 깜짝할 사이에 알려줘. 심지어 조직을 잘라도 정확해!"

이 기술은 앞으로 외과 의사의 훈련, 수술 전 계획 수립, 그리고 로봇 수술 시스템이 더 안전하고 정교하게 작동하는 데 핵심적인 역할을 할 것으로 기대됩니다. 마치 수술실의 '예지력'을 가진 디지털 조력자가 생긴 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 외과 수술 훈련, 계획, 그리고 변형 인식 안내 시스템의 핵심은 연조직 (soft tissue) 의 변형을 정확하게 모델링하는 것입니다.
현황 및 한계:
- 고충실도 유한 요소법 (FEM) 은 생체 역학 시뮬레이션의 표준이지만, 접촉 및 경계 조건 변화 하에서 대규모 희소 시스템을 반복적으로 풀어야 하므로 상호작용 (Interactive) 속도에 적합하지 않습니다.
- 기존 학습 기반 대리 모델 (Surrogate models) 은 주로 연속적인 변형에 초점을 맞추고 있으며, 절제 (Resection) 나 절단 (Cutting) 으로 인한 위상 변화 (Topology change) 와 불연속성을 통합된 파이프라인 내에서 처리하는 데 한계가 있습니다.
- 외과 기하학은 불규칙한 볼륨 메쉬 (Volumetric Mesh) 로 표현되며, 노드 수가 많고 요소 품질이 이질적입니다. 또한 절단 작업은 국소적 상호작용이지만 전역적으로 조직에 영향을 미치며 불연속성을 발생시킵니다.

2. 제안 방법론: SurgFormer (Methodology)

저자들은 SurgFormer를 제안했습니다. 이는 볼륨 메쉬 기반의 데이터 주도 연조직 시뮬레이션을 위한 다중 해상도 게이트형 트랜스포머 (Multiresolution Gated Transformer) 입니다.

2.1 핵심 아키텍처

고정된 메쉬 계층 구조 (Fixed Mesh Hierarchy):
- 가장 정밀한 메쉬 (Fine level) 에서 시작하여 최장점 샘플링 (Farthest Point Sampling, FPS) 을 통해 코어 (Coarse) 레벨로 다운샘플링하는 고정된 계층 구조를 구축합니다.
- 업샘플링은 브로드캐스트 (Broadcast) 방식을 사용합니다.
멀티브랜치 블록 (Multibranch Blocks):
- 각 계층 레벨에서 세 가지 브랜치를 병렬로 처리하고 학습된 게이트로 융합합니다:
  1. 로컬 메시지 패싱 (Local Message Passing): GAT(Graph Attention) 스타일의 인접 노드 간 상호작용.
  2. 전역 자기 주의 (Global Self-Attention): 코어 레벨 (Coarse levels) 에서만 적용하여 전역 컨텍스트를 포착하고 계산 비용을 절감합니다.
  3. 포인트별 피드포워드 업데이트 (Pointwise Feedforward): 각 노드의 특징을 개별적으로 업데이트.
학습 가능한 게이트 퓨전 (Learned Gating Mechanism):
- 각 노드와 채널별로 학습된 게이트 ( $\Gamma$ ) 를 사용하여 위 세 가지 브랜치의 출력을 적응적으로 융합합니다. 이는 국소 정보와 장거리 정보를 효율적으로 통합하면서도 대규모 메쉬에서의 확장성을 보장합니다.
인코더 - 디코더 구조:
- 인코더는 계층을 따라 특징을 추출하고, 디코더는 스킵 연결 (Skip Connection) 을 통해 정밀한 레벨로 복원하며 최종 변형량을 예측합니다.

2.2 절제 (Resection) 조건 처리

학습된 컷 임베딩 (Learned Cut Embedding):
- 절단 또는 절제된 상태의 토폴로지 변화를 처리하기 위해, 각 노드의 입력 특징 벡터에 이진 컷 인디케이터 (Binary Cut Indicator) 를 추가합니다.
- 이 인디케이터는 학습된 임베딩으로 변환되어 노드 특징에 병합되며, 네트워크가 절단된 영역과 intact(완전) 영역을 구분하고 위상 변화에 따른 변형을 예측하도록 합니다.
데이터 생성:
- XFEM(확장 유한 요소법) 기반 시뮬레이션을 사용하여 절단 인터페이스에서의 불연속 변위 (Displacement jumps) 를 명시적으로 모델링한 데이터를 생성했습니다.

3. 주요 기여 (Key Contributions)

SurgFormer 아키텍처: 로컬 메시지 패싱, 코어 레벨 전역 주의, 포인트별 업데이트를 통합한 확장 가능한 다중 해상도 게이트형 트랜스포머를 제안했습니다.
통합 절제 조건 예측: 표준 변형 예측과 절제 (위상 변화) 가 포함된 변형 예측을 동일한 FEM/XFEM 감독 파이프라인 내에서 처리할 수 있는 최초의 학습 기반 볼륨 대리 모델을 제시했습니다.
새로운 수술 시뮬레이션 데이터셋:
- 담낭 절제술 (Cholecystectomy) 데이터셋: 절제 조건을 포함한 데이터.
- 충수 절제술 (Appendectomy) 데이터셋: 절단 및 비절단 (Uncut) 케이스를 모두 포함하는 조작 및 절제 데이터셋.
- 두 데이터셋 모두 XFEM 기반의 감독 신호로 생성되었으며, 통일된 프로토콜을 따릅니다.
성능 및 견고성 평가: 다양한 베이스라인 대비 높은 정확도와 실시간 추론 속도를 입증했으며, 적대적 도구 신호 (Adversarial tool perturbations) 에 대한 견고성 테스트를 수행했습니다.

4. 실험 결과 (Results)

소프트 조직 변형 모델링 (Soft-tissue Deformation):
- 기존 방법론 (GAOT, NIN, MGN-T 등) 대비 가장 낮은 RMSE (0.018) 와 가장 높은 DCM (Deformation Capture Metric, 97.21%) 을 기록했습니다.
- 추론 속도는 0.64ms로 거의 실시간 (Near real-time) 을 달성했습니다.
절제 조건 변형 (Cut-conditioned Deformation):
- 절제 조건 (Cut conditioning) 을 적용했을 때 SurgFormer 의 성능이 가장 크게 향상되었습니다 (DCM: 66.85% $\rightarrow$ 83.61%).
- 이는 명시적인 절제 상태 정보가 절단 후 변형 예측에 필수적임을 보여줍니다.
충수 절제술 (Appendectomy) 작업:
- 절단 및 비절단 케이스가 혼합된 테스트셋에서 PVCNN 과 유사한 정확도 (DCM 약 87.6%) 를 유지하면서, 약 3 배 빠른 추론 속도를 보여주었습니다.
적대적 견고성 (Adversarial Robustness):
- 적대적 도구 신호에 대한 스트레스 테스트에서, 적대적 미세 조정 (Adversarial Fine-tuning) 을 적용한 모델은 출력의 매끄러움 (Smoothness) 을 유지하며 성능을 부분적으로 회복했습니다.
Ablation Study:
- 로컬 브랜치 제거 시 성능이 가장 크게 저하되어 국소 기하학적 집계 (Local geometric aggregation) 의 중요성을 확인했습니다.
- 학습된 게이트 (Learned Gating) 가 균일한 혼합 (Uniform mixing) 보다 성능이 우수하여, 적응적 브랜치 가중치의 중요성을 입증했습니다.

5. 의의 및 결론 (Significance & Conclusion)

실시간 수술 시뮬레이션의 실현: SurgFormer 는 대규모 볼륨 메쉬에서 실시간 추론이 가능한 첫 번째 학습 기반 대리 모델 중 하나로, 상호작용이 필요한 수술 훈련 및 계획 시스템에 실용적인 백본 (Backbone) 을 제공합니다.
위상 변화 처리의 통합: 기존에는 분리되어 있던 '연속 변형'과 '절단/절제에 의한 위상 변화'를 단일 아키텍처로 통합하여 처리함으로써, 실제 수술 환경 (절개, 조직 제거 등) 을 더 정확하게 모사할 수 있게 되었습니다.
확장성: 다중 해상도 구조와 게이트 메커니즘을 통해 계산 비용을 줄이면서도 전역적 상호작용을 포착하여, 복잡한 장기 메쉬에서도 확장 가능하게 설계되었습니다.

이 연구는 물리 기반 시뮬레이션의 계산 비용 문제를 해결하면서도, 절단과 같은 복잡한 수술적 개입을 포함한 고충실도 연조직 시뮬레이션을 가능하게 하는 중요한 진전을 이루었습니다.