Prompting with the human-touch: evaluating model-sensitivity of foundation models for musculoskeletal CT segmentation

본 논문은 팔, 어깨, 고관절, 하퇴부 등 네 가지 해부학적 부위의 골격 및 임플란트 분할을 위해 11 개의 프롬프트 기반 기초 모델을 평가한 결과, 모델 간 성능 차이가 크고 인간이 입력한 프롬프트에서는 이상적인 지시보다 성능이 저하되며 모델이 프롬프트 변화에 민감하다는 점을 밝혔습니다.

Caroline Magg, Maaike A. ter Wee, Johannes G. G. Dobbe, Geert J. Streekstra, Leendert Blankevoort, Clara I. Sánchez, Hoel Kervadec

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 비유: "완벽한 레시피 vs. 실제 요리사"

이 연구는 **AI(요리사)**와 **의사(손님)**의 관계를 다룹니다.

  1. 기존의 문제 (완벽한 레시피):
    그동안 AI 를 평가할 때는 컴퓨터가 자동으로 "정확한 위치"를 알려주는 **완벽한 레시피 (Reference Prompts)**를 사용했습니다. 마치 "소금 3g, 설탕 5g"처럼 숫자가 딱 정해진 상태죠. 이 상태에서는 AI 가 아주 훌륭하게 요리를 해냈습니다.

  2. 실제 상황 (요리사의 손맛):
    하지만 실제 병원에서는 AI 가 스스로 정답을 알 수 없습니다. 의사가 CT 스캔을 보며 **"여기 뼈가 보이니 이 부분을 잘라줘"**라고 손가락으로 가리키거나 (점), 사각형을 그어야 (박스) 합니다. 이때 의사의 손은 떨릴 수도 있고, 사람마다 보는 기준이 다를 수 있습니다.

    • 질문: "완벽한 레시피로 요리한 AI 가, 실제로 의사가 손으로 지시했을 때도 똑같이 잘할까?"

🔍 연구가 찾아낸 5 가지 놀라운 사실

연구진은 11 가지 최신 AI 모델 (Foundation Models) 을 불러와서 4 가지 부위 (손목, 어깨, 엉덩이, 종아리) 의 뼈와 인공 관절을 분할하는 실험을 했습니다.

1. AI 들은 모두 다릅니다 (모델 간 차이)

모든 AI 가 똑같이 잘하는 게 아닙니다. 어떤 AI 는 손목 뼈는 잘 찾지만, 엉덩이 인공 관절은 엉망으로 그립니다. 마치 요리사마다 특기가 다르듯, 어떤 AI 는 2 차원 (평면) 작업에, 어떤 AI 는 3 차원 (입체) 작업에 더 능숙합니다.

2. "이상적인" 점수는 속임수일 수 있습니다

컴퓨터가 만든 완벽한 지시 (Reference Prompts) 로는 AI 가 90 점 이상을 받지만, 실제 의사가 손으로 지시하면 점수가 뚝 떨어집니다.

  • 비유: "자동 조종 장치로 비행하면 100 점이지만, 사람이 직접 조종하면 80 점이다"라는 뜻입니다. 기존 연구들이 AI 성능을 너무 좋게 과장했을 가능성이 큽니다.

3. 부위마다 난이도가 다릅니다

  • 쉬운 부위 (손목 뼈): 둥글고 작아서 의사가 지시하기 쉽습니다. AI 도 잘 따라갑니다.
  • 어려운 부위 (골반, 인공 관절): 모양이 복잡하고 금속 재질이라 CT 화상이 흐릿합니다. 의사가 지시할 때 손이 조금만 흔들려도 AI 는 엉뚱한 곳을 잘라냅니다.

4. AI 는 "지시"에 매우 민감합니다 (민감도 테스트)

이 연구의 가장 중요한 발견입니다. 의사의 손가락이 1 밀리미터만 움직여도, AI 가 그리는 그림이 크게 달라질 수 있습니다.

  • 비유: "나침반이 아주 작은 자석에도 반응하듯, AI 는 의사의 지시 위치가 조금만 달라져도 완전히 다른 뼈를 잘라냅니다."
  • 일부 AI 는 같은 의사가 두 번 지시해도 비슷하게 잘 그렸지만 (내부 일관성), 서로 다른 두 의사가 지시하면 결과가 완전히 달라졌습니다 (외부 일관성 부족).

5. 최고의 AI 는?

  • 2 차원 (평면) 작업: SAM2.1 이 가장 잘했습니다.
  • 3 차원 (입체) 작업: Med-SAM2nnInteractive 가 상대적으로 나았습니다.
  • 특히 nnInteractive 는 의사의 지시가 조금씩 달라져도 결과가 크게 흔들리지 않는 가장 튼튼한 AI로 평가받았습니다.

💡 결론: "AI 를 믿기 전에, 의사의 손도 믿어야 합니다"

이 논문은 우리에게 중요한 메시지를 줍니다.

"컴퓨터 시뮬레이션에서 AI 가 100 점이라도, 실제 사람이 사용할 때는 점수가 떨어질 수 있습니다. 따라서 AI 를 개발할 때는 '정답'을 얼마나 잘 맞추는지보다, '사람의 실수나 차이'에 얼마나 강인한지 (민감하지 않은지) 를 함께 평가해야 합니다."

마치 자율주행 자동차를 개발할 때, "날씨가 좋은 날에 얼마나 잘 달리는지"만 보는 게 아니라, "비가 오고 운전자가 핸들을 살짝 틀 때에도 안전하게 멈출 수 있는지"를 검증해야 하는 것과 같은 이치입니다.

이 연구는 의료 AI 가 병원에 실제로 들어가기 전, 실제 인간의 손길을 고려한 더 현실적인 검증이 필요함을 강력하게 주장하고 있습니다.