AnatomiX, an Anatomy-Aware Grounded Multimodal Large Language Model for Chest X-Ray Interpretation

Each language version is independently generated for its own context, not a direct translation.

1. 기존 AI 의 문제: "거울 속의 나"를 모른다

지금까지 의료용 AI 들은 엑스레이를 보면 "왼쪽 폐에 병이 있네"라고 말하곤 했습니다. 하지만 문제는 왼쪽과 오른쪽을 구분하지 못한다는 점입니다.

비유: 마치 거울에 비친 내 모습을 보고 "내 왼쪽 손이 올라가 있네"라고 말하는 것과 같습니다. 거울 속에서는 실제 내 왼쪽이 오른쪽으로 보이지만, AI 는 그 차이를 모르고 헷갈려합니다.
현실: 기존 AI 들은 엑스레이 사진의 '방향'이나 '위치'를 외워서 답을 맞추는 식으로 학습했습니다. 그래서 사진을 뒤집거나, 방향을 바꾸면 완전히 엉뚱한 진단을 내리거나 (예: 왼쪽 폐를 오른쪽 폐로 착각), 아예 병이 있는 곳을 못 찾습니다.

2. AnatomiX 의 해결책: "해부학자"가 된 AI

저자들은 이 문제를 해결하기 위해 의사가 엑스레이를 보는 방식을 모방했습니다. 의사는 단순히 "병이 보인다"고 말하는 게 아니라, 먼저 "심장, 폐, 갈비뼈, 척추" 같은 장기들을 하나하나 찾아본 뒤, 그 장기들이 어떤 상태인지 진단합니다.

AnatomiX 는 이 과정을 두 단계로 나눕니다.

1 단계: "장기 찾기" (Anatomy Perception Module)

비유: 엑스레이를 보는 AI 가 먼저 가슴 속의 장기들을 하나하나 찾아서 테두리를 그리는 역할을 합니다.
작동 방식: AI 는 "왼쪽 폐는 여기, 오른쪽 폐는 저기, 심장은 여기"라고 정확히 위치를 파악합니다. 이때 단순히 픽셀을 보는 게 아니라, 각 장기마다 고유한 '신분증 (토큰)'을 부여해서 기억합니다.
효과: 사진을 뒤집어도 AI 는 "아, 이건 거울 속이 아니라 실제 오른쪽 폐구나"라고 anatomical(해부학적) 으로 이해하기 때문에, 방향이 바뀌어도 정확한 위치를 찾아냅니다.

2 단계: "의사 대화" (Large Language Model)

비유: 장기들을 찾아낸 AI 는 이제 전문적인 지식을 가진 의사와 대화합니다.
작동 방식: "왼쪽 폐는 건강한가?", "심장 크기는 어떤가?" 같은 질문을 받으면, 1 단계에서 찾아낸 정확한 장기 정보를 바탕으로 답변을 생성합니다.
결과: 단순히 "폐렴이다"라고 말하는 게 아니라, "왼쪽 폐 하부에서 폐렴이 발견되었습니다" 라고 정확한 위치와 함께 설명할 수 있습니다.

3. 왜 이것이 중요한가요? (실제 효과)

이 논문은 AnatomiX 가 기존 최고 성능 모델들보다 25% 이상 더 잘한다고 증명했습니다.

정확한 위치 파악: "왼쪽 폐의 아랫부분"이라고 했을 때, AI 가 진짜 왼쪽 폐 아랫부분을 가리킵니다.
거울 테스트: 사진을 좌우로 뒤집어도 (왼쪽↔오른쪽 바뀜) AI 는 혼동하지 않고 정확한 장기를 찾아냅니다. 기존 모델들은 이 테스트에서 완전히 실패했습니다.
다양한 업무: 엑스레이를 보고 병명을 말해주거나, 특정 부위를 설명하거나, 환자가 "이게 무슨 병인가요?"라고 물으면 답변하는 등 다양한 일을 척척 해냅니다.

4. 요약: AnatomiX 의 핵심

AnatomiX 는 "눈만 좋은 AI"가 아니라 "해부학 지식을 갖춘 AI" 입니다.

기존 AI: "이 그림에 병이 있네. (어디인지 모호함)"
AnatomiX: "이 그림의 왼쪽 폐라는 장기를 먼저 찾아냈고, 그곳에 폐렴이 있네."

이처럼 AnatomiX 는 AI 가 단순히 패턴을 외우는 것을 넘어, 인체의 구조를 진정으로 이해하도록 만들어, 의료 현장에서 더 신뢰할 수 있는 진단 보조 도구로 자리 잡을 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

현황: 최근 멀티모달 대규모 언어 모델 (MLLM) 은 흉부 X 선 (CXR) 해석 분야에서 상당한 진전을 보였으나, **공간적 추론 (Spatial Reasoning)**과 해부학적 이해 (Anatomical Understanding) 측면에서 여전히 한계를 겪고 있습니다.
기존 접근법의 한계: 기존의 Grounding(텍스트 개념과 이미지 객체 정렬) 기술은 전반적인 성능을 향상시켰지만, 의료 영역에서 요구되는 정밀한 해부학적 대응 관계를 확립하지 못합니다.
- 좌우 혼동: 많은 최신 모델이 이미지 좌우가 뒤집힌 (Flipped) 경우나 방사선 표지자 (Radiological markers) 가 제거된 경우, 해부학적 구조 (예: 좌/우 폐, 심장의 위치) 를 잘못 인식하거나 좌우를 혼동합니다. 이는 모델이 실제 해부학적 구조를 인식하기보다는 이미지의 공간적 상관관계나 표지자에 의존하여 추론하기 때문입니다.
- 단일 단계 프로세스: 기존 모델은 이미지에서 병변을 찾고 진단을 내리는 과정을 단일 단계로 수행하며, 이는 방사선 전문의가 해부학적 구조를 식별하고 위치를 파악한 후 진단을 내리는 반복적이고 체계적인 워크플로우와 다릅니다.

2. 제안 방법론: AnatomiX (Methodology)

저자들은 방사선 전문의의 워크플로우에서 영감을 받아 AnatomiX를 제안했습니다. 이는 해부학적 구조를 먼저 식별한 후 하위 태스크를 수행하는 2 단계 (Two-stage) 접근법을 채택한 멀티태스크 멀티모달 LLM 입니다.

A. 아키텍처 구성

AnatomiX 는 크게 **해부학적 인식 모듈 (Anatomy Perception Module, APM)**과 **대규모 언어 모델 (LLM)**로 구성됩니다.

해부학적 인식 모듈 (APM):
- 입력: CXR 이미지.
- 기능:
  - 전역 및 국소 특징 추출: 이미지 인코더 (E) 를 통해 전역 특징을 추출하고, 디코더 (D) 와 특징 추출 모듈 (M) 을 통해 36 가지 흉부 해부학적 구조 (폐, 심장, 늑골 등) 에 대한 **경계 상자 (Bounding Box)**와 **해부학적 토큰 (Anatomy Tokens)**을 추출합니다.
  - 대조적 정렬 (Contrastive Alignment): 추출된 해부학적 특징 토큰과 해당 부위의 방사선학적 소견 (텍스트) 을 정렬합니다. 이때, 단일 정답이 아닌 여러 해부학적 영역에서 소견이 공존할 수 있음을 고려하여 **자기 유사성 손실 (Self-Similarity Loss)**과 **KL 발산 (KL Divergence)**을 기반으로 한 소프트 대조적 손실 (Soft Contrastive Loss) 을 사용합니다. 이는 기존 CLIP 스타일의 손실 함수가 가진 위양성 (False Negative) 문제를 해결합니다.
- 추론 단계: 학습 시에는 Sentence Encoder 를 사용하지만, 추론 시에는 사전 계산된 벡터 데이터베이스 (VDB) 를 사용하여 해당 해부학적 구조에 가장 유사한 텍스트 설명을 검색 (Retrieval) 합니다.
대규모 언어 모델 (LLM):
- 기반 모델: MedGemma-4b-it 기반.
- 입력: APM 에서 추출한 이미지 임베딩, 해부학적 토큰, 예측된 경계 상자, 검색된 텍스트 설명, 그리고 사용자 프롬프트.
- 특수 토큰 도입:
  - <obj_i>: i 번째 해부학적 객체의 특징을 나타내는 토큰.
  - <box>, </box>, <ref>, </ref>: 공간적 Grounding 을 위한 특수 토큰.
- 작동 방식: LLM 은 전역 이미지 특징에 의존하는 것이 아니라, APM 이 제공하는 구체적인 해부학적 객체 토큰을 직접 참조하여 공간적 추론과 진단을 수행합니다.

B. 학습 전략

APM 학습: Chest ImaGenome 데이터셋 (237,000 개 이상) 을 사용하여 객체 탐지 (경계 상자) 와 텍스트 정렬을 End-to-End 로 학습.
정렬 (Alignment): LLM 과 APM 의 임베딩 공간을 정렬.
지시 튜닝 (Instruction Tuning): LoRA (Low-Rank Adaptation) 를 사용하여 9 가지 다양한 CXR 태스크 (Grounding, Report Generation, VQA 등) 에 대해 LLM 을 미세 조정.

3. 주요 기여 (Key Contributions)

AnatomiX 모델 제안: 흉부 X 선 해석을 위해 해부학적 인식을 명시적으로 모델링한 멀티모달 LLM 을 처음 소개했습니다.
SOTA 성능 달성:
- Grounding 태스크: 해부학적 Grounding, Phrase Grounding, Grounded Diagnosis, Grounded Captioning 태스크에서 기존 최첨단 모델 (RadVLM, CheXagent, MAIRA-2 등) 대비 25% 이상의 성능 향상을 기록했습니다.
- 기타 태스크: 보고서 생성, VQA, 이미지 이해 태스크에서도 기존 모델과 동등하거나 더 나은 성능을 유지했습니다.
강건성 (Robustness) 검증: 이미지 좌우 반전 (Flipping) 실험에서 기존 모델들이 좌우를 완전히 혼동하는 반면, AnatomiX 는 해부학적 구조를 정확하게 식별하여 공간적 일관성을 입증했습니다.

4. 실험 결과 (Results)

Grounding 성능:
- Phrase Grounding: IoU 기준 기존 모델 대비 최대 15% 향상.
- Anatomy Grounding: IoU 기준 25% 이상 향상 (AnatomiX: 0.73 vs RadVLM: 0.60).
- 좌우 반전 테스트: RadVLM 은 반전된 이미지에서 IoU 가 0.108 로 급감했으나, AnatomiX 는 0.712 를 유지하여 해부학적 이해의 우수성을 입증했습니다.
보고서 생성 및 VQA:
- 자연어 생성 (NLG) 및 임상적 정확도 (RadGraph-F1, CheXbert-14-F1) 모두에서 상위권을 기록했습니다. 특히 Radialog나 MAIRA-2 보다 파라미터 수가 적음에도 불구하고 경쟁력 있는 성능을 보였습니다.
Ablation Study:
- APM 의 구성 요소 (해부학적 토큰, 경계 상자, 검색된 텍스트) 가 모두 결합되었을 때 가장 높은 성능을 보였으며, 특히 해부학적 토큰과 경계 상자가 공간적 추론에, 검색된 텍스트가 설명 생성에 핵심적인 역할을 함을 확인했습니다.

5. 의의 및 결론 (Significance)

의료 AI 의 패러다임 전환: 단순한 데이터 양의 증가나 일반 도메인 모델의 미세 조정을 넘어, **도메인 특화적 아키텍처 (Domain-specific Architecture)**가 의료 영상 해석의 정확도, 특히 공간적 추론의 핵심임을 입증했습니다.
임상적 신뢰성: 방사선 전문의의 사고 과정 (구조 식별 $\rightarrow$ 위치 파악 $\rightarrow$ 진단) 을 모방함으로써, 모델의 결정 과정에 대한 신뢰도를 높이고 오진 (특히 좌우 혼동) 을 줄일 수 있는 가능성을 제시했습니다.
향후 과제: MRI 등 다른 영상 모달리티로의 확장, 멀티턴 대화 지원, 프롬프트의 중복성 제거 등을 통해 더욱 발전시킬 수 있음을 언급했습니다.

요약하자면, AnatomiX 는 기존 MLLM 의 공간적 추론 약점을 해결하기 위해 해부학적 구조를 명시적으로 인식하고 정렬하는 2 단계 아키텍처를 도입함으로써, 흉부 X 선 해석 분야에서 새로운 기준 (SOTA) 을 세운 연구입니다.