Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "특정 전문가"의 한계

지금까지 병원에서는 **특정 병만 잘 아는 '전문가' (기존 CBIR 시스템)**를 고용해서 사진을 찾아주곤 했습니다.

예시: 폐암만 찾는 전문가, 뇌종양만 찾는 전문가.
문제점: 환자가 폐암도 있고 뇌종양도 있는데, 폐암 전문가에게 뇌 사진을 보여주면 "저건 모릅니다"라고 답합니다. 즉, 하나의 병에만 특화되어 있어 다른 병을 찾을 때 무용지물이 되는 문제가 있었습니다.

2. 새로운 해결책: "만능 천재" (Foundation Models)

연구팀은 이제부터 **모든 것을 다 본 '만능 천재' (Foundation Models)**를 채용해 보려고 합니다. 이 천재들은 수백만 장의 자연 사진, 의학 논문, 다양한 병의 사진 등을 두루두루 공부했습니다.

비유: 특정 병만 아는 전문의 대신, **전 세계의 모든 질병과 해부학적 구조를 통달한 '초지능 AI'**를 고용하는 것입니다.
장점: 이 AI 는 따로 훈련을 시키지 않아도 (Off-the-shelf), 처음 보는 병의 사진이라도 "아, 이건 폐렴이네"라고 바로 찾아낼 수 있는 능력을 가집니다.

3. 연구 내용: 어떤 '천재'가 가장 잘할까?

연구팀은 이 '만능 천재'들 (BiomedCLIP, DINOv2 등 다양한 AI 모델) 을 160 만 장이 넘는 161 가지 종류의 병과 4 가지 촬영 방식 (CT, MRI, 초음파, X-ray) 으로 시험해 보았습니다.

결과 1: '만능 천재'도 훌륭하지만, '전문가'가 여전히 더 낫다.
- 비유: "만능 천재"는 아무 일이나 잘하지만, **특정 병에 맞춰 훈련시킨 '전문가 (Specialist)'**가 그 병을 찾을 때는 여전히 더 정확합니다.
- 하지만 '만능 천재'는 훈련 비용과 시간이 전혀 들지 않는다는 점에서 엄청난 가치가 있습니다.
결과 2: 'BiomedCLIP'이 가장 빛을 발했다.
- 수백만 편의 의학 논문과 이미지를 함께 공부한 BiomedCLIP이라는 모델이 가장 잘했습니다. 마치 의학 책과 그림을 동시에 읽은 최고의 도서관 사서처럼, 병의 특징을 아주 잘 찾아냈습니다.
결과 3: 사진 종류에 따라 실력이 다르다.
- 초음파 (US) 사진은 모양이 뚜렷해서 AI 가 잘 찾았습니다. (비유: 물고기 모양이 뚜렷해서 찾기 쉬움)
- X-ray 사진은 2 차원 평면에 모든 것이 겹쳐 있어서 AI 가 헷갈려 했습니다. (비유: 여러 개의 그림이 한 장의 종이에 겹쳐져 있어 어떤 게 중요한지 구별하기 어려움)
결과 4: '뼈'는 찾지만 '병'은 헷갈린다.
- AI 는 **해부학적 구조 (뼈, 장기 위치)**는 잘 찾지만, **병변 (암 덩어리, 염증 등 미세한 변화)**을 찾는 것은 여전히 어렵습니다.
- 비유: "이건 '팔'이네"는 쉽게 말하지만, "이 팔에 있는 '작은 멍'이 어디야?"라고 묻으면 헷갈려 합니다. 병변은 너무 작고 미묘하기 때문입니다.

4. 핵심 교훈 (결론)

이 연구는 우리에게 다음과 같은 메시지를 줍니다:

기존 방식의 한계: 특정 병만 찾는 시스템은 너무 좁은 시야를 가집니다.
새로운 가능성: BiomedCLIP 같은 '만능 AI'를 쓰면, 별도의 훈련 없이도 다양한 병을 찾아낼 수 있어 병원에서 매우 실용적입니다.
미래의 방향: 아직은 '전문가'가 더 정확하지만, '만능 AI'를 조금 더 다듬거나 (Fine-tuning), 병변에 집중하도록 가르친다면 완벽한 의료 검색 시스템이 될 수 있습니다.

한 줄 요약:

"특정 병만 아는 좁은 시야의 전문가 대신, 모든 것을 다 아는 만능 AI를 도입하면 병을 찾는 시스템이 훨씬 유연하고 강력해질 수 있다. 아직은 완벽하지 않지만, 미래 의료의 핵심 열쇠가 될 것이다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

방사선학 분야에서는 X 선, CT, MRI, 초음파 등 다양한 영상 모달리티에서 매일 방대한 양의 데이터가 생성되고 있습니다. 콘텐츠 기반 이미지 검색 (CBIR, Content-Based Image Retrieval) 은 메타데이터나 텍스트 설명에 의존하지 않고, 이미지의 시각적 및 맥락적 특징을 기반으로 관련 이미지를 검색하여 진단 보조 및 연구를 지원할 수 있는 잠재력을 가지고 있습니다.

그러나 기존 의료용 CBIR 시스템은 다음과 같은 한계를 겪고 있습니다:

특정 병리 현상에 국한됨: 대부분의 시스템이 특정 질병이나 제한된 데이터셋으로만 훈련되어, 보지 못한 새로운 조건 (Unseen conditions) 에 대한 일반화 능력이 부족합니다.
데이터 부족 및 프라이버시 문제: 포괄적인 일반 목적 모델을 훈련시키기 위한 대규모 고품질 데이터 접근의 어려움과 개인정보 보호 규제가 존재합니다.
의미적 간극 (Semantic Gap): 저수준의 시각적 특징과 고수준의 임상적 이해 사이의 괴리로 인해 방사선학의 실제 요구사항에 부합하는 시스템 설계가 어렵습니다.

이러한 한계를 극복하기 위해, 특정 작업에 최적화되지 않고 대규모 사전 학습을 통해 범용적인 시각적 특징을 학습한 비전 파운데이션 모델 (Vision Foundation Models) 을 방사선학 CBIR 을 위한 강력한 오프 - 더 - 쉘 (Off-the-shelf) 특징 추출기로 활용하는 것이 본 연구의 핵심 문제의식입니다.

2. 방법론 (Methodology)

2.1. 데이터셋 구성

연구진은 4 가지 주요 공개 데이터셋을 통합하여 160 만 장 이상의 2D 방사선 영상으로 구성된 대규모 벤치마크 데이터셋을 구축했습니다.

구성: NIH14, MIMIC-CXR, CheXpert (모두 X 선), RadImageNet (CT, MRI, 초음파 포함).
규모: 4 가지 모달리티 (CT, MR, XR, US), 12 개 해부학적 부위, 185 개 클래스 (161 개 병리, 24 개 해부학).
특징: 실제 임상 환경과 유사한 긴 꼬리 (Long-tail) 분포를 가지며, 클래스 간 불균형이 심합니다.

2.2. 평가 대상 모델 (Foundation Models)

훈련 방식 (지도, 약지도, 자기지도) 과 학습 데이터 (자연 이미지, 의료 이미지) 에 따라 다양한 파운데이션 모델을 평가했습니다.

지도 학습 (Supervised): ResNet, ViT (ImageNet 학습), Ark (CXR 특화), SAM/MedSAM (세그멘테이션 모델).
약지도 학습 (Weakly-Supervised): CLIP 계열 모델 (CLIP, MedCLIP, BiomedCLIP, BMC-CLIP). 텍스트 - 이미지 쌍을 기반으로 학습됨.
자기지도 학습 (Self-Supervised): MAE, DINOv2, RAD-DINO (CXR 특화).

2.3. 검색 파이프라인 및 평가 지표

오프 - 더 - 쉘 접근법: 모델에 대한 추가 미세 조정 (Fine-tuning) 없이 사전 학습된 가중치를 그대로 사용하여 특징 벡터 (Embedding) 를 추출합니다.
프로세스: 이미지 전처리 $\rightarrow$ 특징 추출 (Embedding 생성) $\rightarrow$ L2 정규화 $\rightarrow$ FAISS 를 이용한 벡터 데이터베이스 인덱싱 $\rightarrow$ 코사인 유사도 기반 검색.
평가 지표: Precision at N (P@1, P@3, P@5, P@10).
- Micro-average: 모든 샘플을 동등하게 취급 (빈도수 반영).
- Macro-average: 클래스별 성능을 평균화 (희귀 클래스 성능 반영).
비교 대상: 본 연구에서 통합 데이터셋으로 직접 훈련시킨 특화 모델 (CVNet-Global) 을 'Specialist'로 설정하여 파운데이션 모델과 비교했습니다.

3. 주요 기여 (Key Contributions)

대규모 방사선학 CBIR 벤치마크 구축: 160 만 장의 이미지와 185 개 클래스를 아우르는 포괄적인 데이터셋과 평가 프로토콜을 공개했습니다.
파운데이션 모델 성능 벤치마킹: 다양한 학습 방식과 아키텍처를 가진 10 개 이상의 모델에 대한 체계적인 성능 평가를 수행했습니다.
약지도 모델의 우수성 입증: 추가 훈련 없이도 BiomedCLIP과 같은 약지도 모델이 특정 병리 현상에 특화된 모델과 유사하거나 경쟁력 있는 성능을 보임을 확인했습니다.
인덱스 크기와 성능의 상관관계 분석: 클래스당 샘플 수에 따른 검색 성능의 포화 지점 (Saturation point) 을 규명했습니다.
임베딩 공간 및 구조적 분석: 해부학적 구조와 병리학적 구조에 대한 검색 성능의 차이, 그리고 임베딩 공간의 군집화 특성을 정량 및 정성적으로 분석했습니다.

4. 주요 결과 (Results)

4.1. 전체 성능

BiomedCLIP이 가장 우수한 성능을 보였습니다 (Micro P@1: 0.594, Macro P@1: 0.240). BMC-CLIP 이紧随其后 (0.592).
특화 모델 (Specialist) 의 우위: 직접 훈련된 CVNet-Global101 이 가장 높은 성능 (Micro P@1: 0.650) 을 기록하여, 파운데이션 모델이 여전히 미세 조정된 특화 모델보다는 성능이 낮음을 확인했습니다.
모델 유형별 비교:
- 약지도 (CLIP 계열): 대규모 텍스트 - 이미지 쌍 학습 덕분에 가장 강력한 일반화 능력을 보임.
- 지도 학습 (ResNet, ViT, Ark): Ark 는 X 선에 특화되어 있으나 다른 모달리티에서도 좋은 일반화 성능을 보임.
- 세그멘테이션 모델 (SAM, MedSAM): 구조적 연결성을 학습하는 데 특화되어 있어 전역적 의미 특징 추출에는 적합하지 않아 성능이 낮음.
- 자기지도 학습: DINOv2 와 MAE 가 좋은 성능을 보였으며, 자연 이미지로 학습된 MAE 가 의료 특화 모델 (RAD-DINO) 보다 나은 성능을 보이기도 함.

4.2. 모달리티별 성능

초음파 (US) 에서 가장 높은 성능 (P@1 최대 0.817) 을 보였고, X 선 (XR) 이 가장 낮았습니다 (P@1 약 0.395).
X 선의 낮은 성능은 2D 투영 이미지의 특성상 해부학적 세부 사항이 가려지고 미세한 구조적 변이가 모호하기 때문으로 분석됨.
XR 에서는 Ark 와 RAD-DINO 같은 X 선 특화 모델이 BiomedCLIP 보다 우세했으나, 이는 학습 데이터에 평가 데이터의 일부가 포함되었을 가능성 (데이터 누수) 이 있음을 지적함.

4.3. 해부학 vs 병리학적 구조

해부학적 구조 검색 성능 (P@1: 0.812) 이 병리학적 구조 검색 성능 (P@1: 0.451) 보다 훨씬 높았습니다.
병리학적 특징은 시각적으로 미묘하고 다양하며, 해부학적 유사성에 의해 쉽게 가려지기 때문에 시각적 유사도만으로 검색하기 어렵다는 것을 시사합니다.

4.4. 인덱스 크기 영향

클래스당 인덱스 내 샘플 수가 증가할수록 P@1 이 향상되지만, 클래스당 약 1,000 개 샘플에서 성능이 포화되는 경향을 보였습니다. 그 이상은 추가 샘플이 성능을 크게 향상시키지 못함.

4.5. 임베딩 공간 분석

kNN 분류: BiomedCLIP 이 가장 좋은 군집화 성능을 보임.
선형 프로빙 (Linear Probing): Ark가 가장 높은 선형 분리 가능성 (AURPC 0.757) 을 보여, 클래스 관련 특징을 가장 잘 보존하고 있음을 나타냄.

5. 의의 및 결론 (Significance & Conclusion)

확장 가능한 솔루션: 특정 데이터가 부족하거나 컴퓨팅 자원이 제한된 환경에서, 파운데이션 모델 (특히 BiomedCLIP) 은 추가 훈련 없이도 강력한 CBIR 시스템으로 활용될 수 있는 확장 가능한 대안임을 입증했습니다.
향후 방향:
- 현재 파운데이션 모델은 병리학적 구조 검색에 한계가 있으므로, 관심 영역 (ROI) 에 주의를 기울이도록 모델을 유도하거나, 2 단계 검색 시스템의 재순위화 (Re-ranking) 단계에 전역 특징을 활용하는 연구가 필요합니다.
- 고해상도 고품질 방사선학 데이터로 학습된 차세대 CLIP 기반 파운데이션 모델 개발이 필요하며, 특정 임상 요구사항에 맞춘 미세 조정 (Fine-tuning) 연구도 병행되어야 합니다.
결론: 특화 모델이 여전히 정확도 면에서 우세하지만, 파운데이션 모델의 범용성과 배포 용이성은 방사선학 분야에서 확장 가능하고 일반화된 이미지 검색 시스템의 미래를 제시합니다.

이 연구는 의료 영상 검색 분야에서 파운데이션 모델의 잠재력을 체계적으로 규명하고, 향후 연구 방향을 제시한다는 점에서 중요한 의의를 가집니다.