LLM-Bootstrapped Targeted Finding Guidance for Factual MLLM-based Medical Report Generation

Each language version is independently generated for its own context, not a direct translation.

🏥 문제: "똑똑하지만 망상증에 걸린 AI 의사"

지금까지 의료 영상 (엑스레이, MRI 등) 을 보고 진단서를 작성하는 AI 는 한 명의 초고성능 AI에게 모든 일을 맡겼습니다.

상황: AI 가 엑스레이를 보고 "여기 폐렴이 있네"라고 말해야 하는데, 사실은 없는데 "폐렴이 있다"라고 **망상 (할루시네이션)**을 하거나, 정작 중요한 "심장 비대"는 잊어버리는 경우가 많았습니다.
원인: AI 가 "이미지 보는 일"과 "글쓰는 일"을 동시에 하다가, 두 가지 업무가 서로 방해가 되어 사실을 왜곡하는 것입니다. 마치 화가에게 그림을 그리면서 동시에 시를 짓게 했을 때, 그림이 엉망이 되거나 시가 뜬금없이 나오는 것과 비슷합니다.

💡 해결책: Fact-Flow (사실 흐름) 시스템

이 논문은 이 문제를 해결하기 위해 **"일단 사실을 먼저 확인하고, 그다음에 글을 쓰자"**는 새로운 방식을 제안합니다. 마치 수석 의사가 먼저 진단을 내리고, 그 결과를 바탕으로 전문 기자가 보도문을 작성하는 과정과 같습니다.

이 시스템은 크게 3 단계로 이루어집니다.

1 단계: "AI 가 직접 교과서를 만든다" (데이터 준비)

문제: 의료 보고서에서 "어떤 병이 있는지"를 하나하나 손으로 적는 작업은 너무 비싸고 어렵습니다.
해결: 거대한 언어 모델 (LLM) 을 이용해 기존 보고서들을 분석하게 합니다. AI 가 보고서들을 읽어가며 "이건 폐렴, 저건 골절" 같은 키워드 목록 (사실 목록) 을 스스로 만들어냅니다.
비유: 마치 **수석 기자 (LLM)**가 수천 편의 뉴스 기사를 읽어가며, "오늘 뉴스에 꼭 들어야 할 핵심 키워드 50 개"를 스스로 정리한 사전을 만드는 것과 같습니다.

2 단계: "사실 확인관 (Fact Checker) 을 배치한다" (중간 단계)

작업: 이제 엑스레이 이미지를 보고, 앞서 만든 '키워드 사전'에 맞춰 "이 환자에게 폐렴이 있는가? (Yes/No)", **"골절이 있는가? (Yes/No)"**를 체크하는 **전문가 (분류 모델)**를 훈련시킵니다.
비유: **사진을 본 '사실 확인관'**이 "이 사진에는 폐렴이 있음 (O), 폐부종은 없음 (X)"이라고 딱딱하게 체크리스트를 작성합니다. 이 단계에서는 글쓰기는 하지 않고, 오직 '사실'만 확인합니다.

3 단계: "체크리스트를 보고 글을 쓴다" (최종 보고서 생성)

작업: 이제 최종 AI(MLLM) 가 등장합니다. 하지만 이 AI 는 엑스레이를 직접 보고 글을 쓰는 게 아니라, **2 단계에서 만든 '체크리스트 (사실 확인 결과)'**를 보고 글을 씁니다.
비유: **전문 기자 (최종 AI)**가 "폐렴 O, 골절 X"라는 확인된 사실 목록을 받아서, "환자의 폐에 폐렴이 발견되었습니다..."라고 사실에 기반한 정확한 보도문을 작성합니다.
효과: AI 가 "아마도 폐렴일 거야"라고 추측해서 엉뚱한 말을 할 수 없게 됩니다. 사실 확인관이 먼저 걸러냈기 때문입니다.

🌟 왜 이 방법이 좋은가요?

거짓말을 줄입니다: AI 가 스스로 상상해서 사실을 왜곡하는 '망상' 현상을 크게 줄였습니다.
중요한 걸 빼먹지 않습니다: 체크리스트에 있는 항목들을 모두 확인해야 하므로, 중요한 병변을 놓치는 일이 적어집니다.
손이 덜 갑니다: 기존에는 사람이 일일이 라벨을 붙여야 했지만, 이 방법은 AI 가 스스로 데이터를 만들어내므로 비용과 시간을 절약합니다.

📊 실험 결과

이 방법을 **결핵 (폐 엑스레이)**과 안과 (망막 사진) 데이터로 테스트한 결과, 기존 최고의 AI 모델들보다 사실의 정확도가 훨씬 높아졌고, 글의 자연스러움도 떨어지지 않았습니다.

🎯 한 줄 요약

"AI 가 의료 보고서를 쓸 때, 먼저 '사실 확인관'이 핵심 사실을 체크리스트로 정리하게 하고, 그걸 바탕으로 '전문 기자'가 글을 쓰게 하면, 엉뚱한 거짓말 없이 정확한 진단서가 나온다!"

이처럼 Fact-Flow는 AI 가 의료 현장에서 신뢰할 수 있는 도구가 되기 위해, '생각 (사실 확인)'과 '표현 (글쓰기)'을 분리해서 각자의 역할을 제대로 수행하게 만든 혁신적인 아이디어입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 멀티모달 대형 언어 모델 (MLLM) 을 활용한 의료 영상 기반 자동 보고서 생성 (Medical Report Generation, MRG) 은 임상적으로 중요한 과제이나, 현재 기술은 **사실적 불안정성 (Factual Instability)**이라는 심각한 한계에 직면해 있습니다.
주요 문제:
- 할루시네이션 (Hallucination): 모델이 이미지에 존재하지 않는 병변을 생성하거나, 중요한 임상적 소견을 누락하는 경우가 빈번합니다.
- 기존 방법의 한계: 대부분의 기존 방법은 이미지 특징을 직접 보고서 텍스트로 변환하는 엔드 - 투 - 엔드 (End-to-End) 방식을 사용합니다. 이는 모델이 시각적 특징과 언어적 구성을 동시에 학습해야 하므로, 사실에 기반한 정확한 서술을 생성하는 데 어려움을 겪게 만듭니다.
- 데이터 부족: 미세한 임상 소견 (Clinical Findings) 을 레이블링한 대규모 데이터셋이 부족하며, 특히 특정 질병에 초점을 맞춘 경우 수동 레이블링 비용이 매우 비쌉니다.

2. 제안 방법: Fact-Flow (Methodology)

저자들은 시각적 사실 인식 (Visual Fact Identification) 과 보고서 생성 (Report Generation) 과정을 분리하여 사실적 정확도를 높이는 Fact-Flow 프레임워크를 제안합니다. 이 프레임워크는 크게 3 단계로 구성됩니다.

Stage 1: LLM 부트스트랩 다중 레이블 데이터셋 구축 (LLM-Bootstrapped Dataset Construction)

목표: 수동 레이블링 없이 기존 이미지 - 보고서 쌍으로부터 대규모 다중 레이블 데이터셋을 자동 생성합니다.
과정:
1. 분류체계 추출 (Taxonomy Extraction): LLM 을 사용하여 훈련 보고서에서 질병, 병리학적 특징, 해부학적 위치, 중증도 등을 추출합니다.
2. 정제 및 병합: 추출된 레이블의 동의어 및 중복을 제거하기 위해 LLM 을 활용한 반복적 계층적 병합 (Hierarchical Merging) 을 수행하여 표준화된 분류체계 (Taxonomy) 를 구축합니다.
3. 주석 및 필터링: LLM 을 통해 각 보고서에 해당 레이블이 명시적/암시적으로 언급되었는지 이진 벡터로 주석을 달고, 빈도 기반 필터링을 통해 희귀하거나 노이즈가 많은 레이블을 제거합니다.

Stage 2: 가이드 모델 훈련 (Guidance Model Training)

목표: 의료 이미지에서 임상 소견을 예측하는 다중 레이블 분류 모델 ( $f_{MLC}$ ) 을 훈련합니다.
아키텍처: DINOv3(비전 인코더) 와 ConvNeXt 백본을 사용합니다.
손실 함수 개선: 의료 데이터의 심각한 클래스 불균형 (희귀하지만 중요한 소견이 드물게 나타남) 을 해결하기 위해 Logit Adjustment 기법을 적용합니다. 이는 각 레이블의 경험적 빈도 ( $p_j$ ) 에 기반하여 로짓 (Logit) 을 조정하여 소수 클래스의 정밀도와 재현율을 동시에 향상시킵니다.

Stage 3: 가이드된 보고서 생성 (Guided Report Generation)

목표: 예측된 임상 소견 (Fact) 을 명시적인 조건으로 활용하여 MLLM 이 보고서를 생성하도록 유도합니다.
과정:
- 학습 시: 실제 정답 레이블 (Ground-truth) 을 자연어 프롬프트 (예: "이미지는 다음과 같은 소견을 보입니다: [A], [B]...") 로 변환하여 MLLM 에 입력하고, 이를 기반으로 보고서를 생성하도록 미세 조정 (Fine-tuning) 합니다.
- 추론 시: Stage 2 에서 예측된 레이블 ( $\hat{Y}$ ) 을 동일한 프롬프트 형식으로 변환하여 MLLM 에 입력합니다. 이는 모델이 할루시네이션을 줄이고 사실에 기반한 소견을 포함하도록 '사실적 근거 (Factual Grounding)'를 제공합니다.

3. 주요 기여 (Key Contributions)

Fact-Flow 프레임워크 제안: MLLM 기반 보고서 생성의 사실적 정확도를 높이기 위해 명시적인 다중 레이블 임상 소견 조건부 (Conditioning) 를 도입했습니다.
자동화 데이터 파이프라인: 수동 레이블링 없이 LLM 을 활용하여 대규모 (이미지, 다중 레이블) 데이터셋을 구축하는 방법을 고안했습니다.
광범위한 실험 검증: 안과 (Ophthalmology) 와 결핵 (Tuberculosis) 이라는 두 가지 질병 중심 데이터셋에서 SOTA(최첨단) 모델 대비 NLG 지표 및 임상적 유효성 (Clinical Efficacy) 에서 일관된 개선을 입증했습니다.

4. 실험 결과 (Results)

데이터셋: 결핵 흉부 X-ray 데이터셋 (561/80/160) 과 안과 멀티모달 데이터셋 ( fundus, OCT, OCTA 포함, 1,854/206/515).
비교 대상: 기존 MRG 모델 (R2Gen 등), 직접 미세 조정된 MLLM (LLaVA-Med, MedGemma, Qwen2.5-VL), 제로샷 VLM (Gemini 등).
주요 성과:
- 사실적 정확도 향상: Fact-Flow 를 적용한 모델들은 RadFact(임상 개체 추출 기반 F1 점수) 및 NLG 지표 (BLEU, ROUGE, CIDEr) 에서 모두 기존 모델보다 우월한 성능을 보였습니다.
- 할루시네이션 감소: 기존 MLLM 은 종종 '모드 붕괴 (Mode Collapse)' 현상으로 인해 정밀도는 높으나 재현율이 극히 낮거나, 반대로 임상적 유효성 점수가 0 인 경우가 많았으나, Fact-Flow 는 이를 해결하여 균형 잡힌 성능을 달성했습니다.
- 구체적 예시: 안과 데이터셋에서 질병의 측도 (Laterality) 나 해부학적 위치를 더 정확하게 식별하는 것을 확인했습니다.
- 분석 결과: 이미지만 입력한 경우보다 '예측된 레이블'을 추가한 경우 성능이 크게 향상되었으며, '이미지 + 예측 레이블' 조합이 가장 좋은 실용적 성능을 보였습니다.

5. 의의 및 결론 (Significance)

임상 적용 가능성: 의료 보고서 생성에서 가장 큰 장벽인 '할루시네이션'과 '사실 누락' 문제를 해결하여, 실제 임상 환경에서의 MLLM 배포 가능성을 높였습니다.
확장성: Fact-Flow 는 플러그 - 앤 - 플레이 (Plug-and-play) 방식이며, 어떤 MLLM 아키텍처와도 호환됩니다. 특히 특정 질병에 대한 표적화된 소견이 중요한 임상 시나리오에 적합합니다.
비용 효율성: 고비용의 수동 레이블링 없이 LLM 을 활용하여 고품질의 지도 데이터를 생성함으로써, 의료 AI 개발의 진입 장벽을 낮추는 혁신적인 접근법을 제시했습니다.

이 논문은 MLLM 이 의료 분야에서 신뢰할 수 있는 도구로 자리 잡기 위해 필요한 사실 기반 (Fact-based) 가이드 메커니즘의 중요성을 강조하며, 이를 위한 실용적이고 확장 가능한 솔루션을 제시했다는 점에서 의의가 큽니다.