Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

본 논문은 3D CT 스캔, 전자의무기록 및 방사선 보고서를 대규모로 학습하여 2D 기반 모델의 한계를 극복하고 다양한 진단·예후·품질 평가 작업에서 뛰어난 일반화 성능을 입증한 새로운 3D 의료 비전 - 언어 기반 모델 'Merlin' 과 해당 데이터셋을 소개합니다.

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen, Jiaming Liu, Longchao Liu, Dave Van Veen, Syed Jamal Safdar Gardezi, Hongkun Yu, Magdalini Paschali, Zhihong Chen, Jean-Benoit Delbrouck, Eduardo Reis, Robbie Holland, Cesar Truyts, Christian Bluethgen, Yufu Wu, Long Lian, Malte Engmann Kjeldskov Jensen, Sophie Ostmeier, Maya Varma, Jeya Maria Jose Valanarasu, Zhongnan Fang, Zepeng Huo, Zaid Nabulsi, Diego Ardila, Wei-Hung Weng, Edson Amaro Junior, Neera Ahuja, Jason Fries, Nigam H. Shah, Greg Zaharchuk, Marc Willis, Adam Yala, Andrew Johnston, Robert D. Boutin, Andrew Wentland, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, Akshay S. Chaudhari

게시일 2026-03-05
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

머린 (Merlin): CT 스캔을 읽는 '초능력' 인공지능의 탄생

이 논문은 의학 분야에서 혁신적인 인공지능 모델인 **'머린 (Merlin)'**을 소개합니다. 머린은 단순한 이미지 인식 프로그램을 넘어, **3 차원 CT 스캔을 보고 의사의 보고서까지 작성할 수 있는 '지능형 비서'**라고 생각하시면 됩니다.

복잡한 전문 용어 대신, 일상적인 비유를 통해 이 기술이 무엇을 하고 왜 중요한지 설명해 드리겠습니다.


1. 왜 머린이 필요한가요? (문제 상황)

"의사 선생님, 배가 너무 아파요!"
미국에서만 매년 8,500 만 건 이상의 CT 스캔이 찍힙니다. 특히 복부 CT 는 한 번 촬영하면 300 장 이상의 얇은 단면 사진 (슬라이스) 이 나옵니다. 마치 거대한 책을 한 권 통째로 읽어야 하는 것과 비슷하죠.

  • 현재의 문제: 전문 방사선과 의사는 이 방대한 양의 사진을 보고 20 분 이상씩 집중해야 합니다. 하지만 의사는 부족하고, 환자는 늘어나고 있습니다. 마치 작은 도서관에서 한 명의 사서가 수만 권의 책을 하루에 정리해야 하는 상황과 같습니다.
  • 기존 AI 의 한계: 기존 AI 는 2 차원 사진 (일반 X-ray) 만 보거나, 아주 짧은 문장만 이해할 수 있었습니다. 3 차원 CT 의 복잡한 구조를 제대로 파악하지 못했죠.

2. 머린 (Merlin) 은 누구인가요? (해결책)

머린은 **3 차원 CT 스캔을 한 번에 통째로 보고, 환자의 병력 (EHR) 과 의사의 보고서까지 함께 학습한 '초월적 비서'**입니다.

  • 비유: 기존 AI 가 2 차원 지도만 보고 길을 찾는다면, 머린은 3 차원 홀로그램을 보며 건물 안의 모든 층을 동시에 파악하는 것입니다.
  • 학습 방법: 머린은 의사가 직접 손으로 라벨을 붙이는 비용이 들지 않습니다. 대신, 병원 시스템에 이미 쌓여 있는 수백만 건의 CT 스캔 이미지의사가 쓴 보고서, 그리고 **환자의 진료 기록 (ICD 코드)**을 함께 학습합니다.
    • 마치 수천 권의 의학 책과 수백만 장의 사진을 한 번에 읽으며, "이 사진에는 이런 병이 있다"는 것을 스스로 깨닫는 학생과 같습니다.

3. 머린은 무엇을 할 수 있나요? (주요 기능)

머린은 6 가지 주요 임무에서 뛰어난 능력을 보여줍니다.

  1. 눈에 보이지 않는 것 찾기 (Zero-shot Classification):
    • 머린은 훈련받지 않은 새로운 질병도 찾아냅니다. 마치 비밀번호 없이도 모든 문을 열 수 있는 만능 열쇠처럼, "간경변", "신장 낭종" 같은 31 가지 이상의 이상 소견을 텍스트 명령만으로도 찾아냅니다.
  2. 환자의 건강 상태 예측 (Phenotype Classification):
    • CT 스캔만 보고도 환자가 가진 692 가지의 다양한 건강 상태 (예: 당뇨병, 고혈압 등) 를 예측합니다.
  3. 사진과 보고서 연결 (Cross-modal Retrieval):
    • "간이 정상인 환자"라고 검색하면, 머린은 그 조건에 맞는 CT 스캔을 찾아냅니다. 반대로 CT 스캔을 보여주면, 그와 가장 비슷한 과거의 보고서 내용을 찾아줍니다. 도서관에서 책 제목만 보고 내용을 찾아주는 것과 같습니다.
  4. 미래의 질병 예보 (5-Year Disease Prediction):
    • 지금 건강한 사람이라도, CT 스캔을 보고 5 년 후에 당뇨병이나 심장병이 걸릴 확률을 미리 알려줍니다. 이는 미래의 날씨를 예보하는 것처럼, 질병이 생기기 전에 미리 대비할 수 있게 합니다.
  5. 보고서 자동 작성 (Report Generation):
    • CT 스캔을 분석하면, 의사가 작성할 보고서 초안을 자동으로 만들어줍니다. "간은 정상이며, 담석은 없습니다"라고 문장을 완성해 줍니다.
  6. 정밀한 부위 그리기 (3D Segmentation):
    • CT 이미지 속 간, 신장, 비장 등 20 가지 장기를 3 차원 공간에서 정확하게 잘라냅니다. 마치 과일을 칼로 썰어 각 조각을 구분하는 것처럼 정교합니다.

4. 머린은 얼마나 잘할까요? (성적표)

머린은 전 세계 여러 병원의 데이터 (내부 데이터 5,000 건, 외부 데이터 44,000 건 이상) 로 테스트되었습니다.

  • 결과: 머린은 기존에 있던 다른 AI 모델들보다 압도적으로 좋은 점수를 받았습니다.
  • 특이점: 머린은 배부 (Abdomen) CT로만 훈련되었는데도, 가슴 (Chest) CT를 분석하는 데도 다른 전문 모델들보다 더 잘했습니다. 이는 머린이 의학의 보편적인 원리를 잘 이해하고 있다는 뜻입니다.
  • 데이터 부족 상황에서도 강함: 데이터가 아주 적을 때 (10% 만 사용) 도 머린은 기존 모델보다 훨씬 잘했습니다. 이는 적은 재료로도 훌륭한 요리를 해내는 셰프와 같습니다.

5. 왜 머린이 특별한가요? (핵심 요약)

  • 3 차원 이해: 2 차원 사진을 쌓아 올리는 방식이 아니라, 3 차원 입체 구조를 처음부터 이해합니다.
  • 데이터의 힘: 이미지뿐만 아니라 '의사의 말 (보고서)'과 '환자의 기록 (EHR)'을 함께 학습하여 더 정확한 판단을 내립니다.
  • 접근성: 고가의 슈퍼컴퓨터 없이도 일반적인 GPU 하나로 훈련할 수 있어, 작은 병원에서도 이 기술을 활용할 수 있습니다.

결론: 의사의 '슈퍼 파트너'

머린은 의사를 대체하려는 것이 아니라, **의사의 업무 부담을 덜어주고 실수를 줄여주는 '슈퍼 파트너'**입니다.

"머린은 마치 의사가 20 년 치의 경험을 단숨에 습득하고, 300 장의 CT 사진을 1 초 만에 훑어보며, 중요한 부분만 집어주는 똑똑한 조수입니다."

이 기술이 보편화되면, 환자는 더 빠르고 정확한 진단을 받게 되고, 의사는 더 많은 환자를 돌볼 수 있게 되어 의료 시스템 전체가 더 건강해질 것입니다. 연구팀은 머린의 코드와 데이터를 공개하여 전 세계가 함께 이 기술을 발전시킬 수 있도록 했습니다.