Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 엑스레이나 CT 스캔을 볼 때, 자신이 모르는 것을 모른 척하지 않고 '모릅니다'라고 말할 수 있게 하는 방법"**을 연구한 내용입니다.

의사들이 매일 보는 수천 장의 의료 영상과 AI 가 만들어낸 답변 사이에서, 가장 큰 문제는 AI 가 자신은 잘 모르는 내용인데도 마치 아는 것처럼 확신에 차서 엉뚱한 답을 말하는 '환각 (Hallucination)' 현상입니다.

이 연구는 이를 해결하기 위해 **'의미 불일치 엔트로피 (DSE)'**라는 새로운 필터를 개발했습니다. 이를 일상적인 비유로 설명해 드리겠습니다.

🎓 비유: "15 명의 전문가에게 같은 질문을 던져보자"

이 연구의 핵심 아이디어는 매우 단순하지만 강력합니다.

상황: AI(비전 - 언어 모델) 에게 "이 CT 스캔에서 가장 걱정되는 점은 무엇인가요?"라고 물었습니다.
문제: AI 가 한 번만 대답하면, 그 답변이 진짜인지, AI 가 망상 (환각) 을 보고 지어낸 것인지 알 수 없습니다.
해결책 (이 연구의 방법):
- AI 에게 동일한 질문을 15 번 반복해서 물어봅니다. (단, 이때 AI 가 조금 더 자유롭게, 즉 '확률'을 높여서 답변하도록 설정합니다.)
- 15 번의 답변을 비교해 봅니다.
  - 좋은 경우 (신뢰도 높음): 15 번 중 14 번이 "방광암"이라고 답하고, 1 번이 "방광 결석"이라고 답했다면? → 의미가 거의 같습니다. AI 는 이 질문에 대해 확신이 있는 것입니다. (엔트로피 낮음)
  - 나쁜 경우 (신뢰도 낮음): 1 번은 "방광암", 2 번은 "심장마비", 3 번은 "모르겠습니다", 4 번은 "이건 뼈가 부러진 거예요"라고 각기 다른 엉뚱한 소리를 한다면? → 의미가 뒤죽박죽입니다. AI 는 이 질문에 대해 혼란스럽거나, 사실은 모르고 지어낸 것입니다. (엔트로피 높음)

이처럼 **15 번의 답변이 얼마나 서로 다른지 (산포도)**를 수치화한 것이 바로 **'이산적 의미 엔트로피 (DSE)'**입니다.

🚦 신호등 시스템: "신뢰할 수 없는 건 걸러내자"

연구진은 이 수치를 이용해 신호등 시스템을 만들었습니다.

초록불 (DSE 점수 낮음): 15 번 답변이 비슷하다? → 통과! 이 답변은 신뢰할 수 있으니 의사에게 보여줍니다.
빨간불 (DSE 점수 높음): 15 번 답변이 제각각이다? → 차단! AI 가 혼란스러우니 이 질문은 무시하거나, "AI 가 답을 못 찾았습니다"라고 표시합니다.

📊 연구 결과: "답변 수는 줄었지만, 정확도는 폭발했습니다"

이 필터를 적용한 결과는 놀라웠습니다.

기존 (필터 없음): AI 가 모든 질문에 답했지만, 정답률은 약 50%(동전 던지기 수준) 였습니다. 특히 병변 (이상 소견) 을 찾는 질문에서는 AI 가 매우 엉뚱한 소리를 했습니다.
적용 후 (필터 있음):
- AI 가 "모르겠다"고 하거나, 엉뚱한 소리를 할 것 같은 질문 (신호등 빨간불) 을 대량으로 걸러냈습니다.
- 대신, 남은 질문들만 AI 가 답하게 했습니다.
- 그 결과, 남은 질문에 대한 정답률은 50% 에서 76% 로 급상승했습니다!

비유하자면:

"모든 학생에게 시험을 보게 했을 때 평균 점수가 50 점이었다면, '모르는 문제는 찍지 마라'고 가르치고 '정답을 확신하는 문제'만 풀게 했을 때, 남은 문제들의 정답률은 76 점으로 올라간 것입니다. 물론 풀지 않은 문제가 많아서 전체 점수는 낮아질 수 있지만, 풀어낸 답은 매우 신뢰할 수 있게 됩니다."

💡 왜 이것이 중요한가요?

블랙박스 해결: 우리가 AI 의 내부 workings(뇌 구조) 을 알 수 없는 '블랙박스' 상태에서도, 단순히 AI 가 내뱉은 말만 보고 신뢰도를 판단할 수 있습니다.
안전장치: 의사가 AI 의 말을 맹신하지 않고, "이건 AI 가 확신하지 못하는 부분이니 내가 다시 한번 확인하자"라고 판단할 수 있는 안전장치가 됩니다.
실용성: 추가적인 학습이나 복잡한 설정 없이, 기존에 쓰는 AI(GPT-4o 등) 에 바로 적용할 수 있습니다.

⚠️ 한계점 (주의할 점)

이 방법도 만능은 아닙니다.

확신 있는 망상: 만약 AI 가 15 번을 물어봐도 모두 똑같은 엉뚱한 답을 한다면? (예: 모두 "방광암"이라고 하지만 사실은 "정상"인 경우) → 이 경우엔 필터가 걸러내지 못합니다. AI 가 확신에 차서 거짓말을 하면 걸러내기 어렵기 때문입니다.
답변 수 감소: 신뢰할 수 없는 답을 걸러내다 보니, AI 가 답을 못 하는 경우가 많아집니다. "무조건 다 답하는 것"보다 "신뢰할 수 있는 것만 답하는 것"이 의료 현장에서는 더 안전하다는 철학이 적용된 것입니다.

🏁 결론

이 연구는 **"AI 가 의료 영상에서 얼마나 확신할 수 있는지 측정하는 새로운 온도계"**를 개발했습니다.

이 온도계를 통해 AI 가 "모르겠다"고 하거나 "혼란스러워" 할 때 그 부분을 걸러내면, 남은 AI 의 진단은 훨씬 더 믿을 수 있게 됩니다. 이는 AI 가 의사를 대체하는 것이 아니라, 의사가 AI 를 더 안전하게 활용할 수 있도록 돕는 '스마트 필터' 역할을 할 것임을 보여줍니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 방사선학에서 이산적 의미 엔트로피 (DSE) 를 활용한 환각 (Hallucination) 필터링

1. 문제 제기 (Problem)

배경: 방사선학 분야의 업무량 증가와 전문의 부족으로 인해 인공지능, 특히 이미지 분석과 언어 능력을 통합한 **비전 - 언어 모델 (VLM, Vision-Language Models)**의 도입이 활발해지고 있습니다.
핵심 문제: VLM 은 종종 시각적 증거나 임상적 맥락과 무관하지만 그럴듯하게 들리는 잘못된 정보를 생성하는 할루시네이션 (Hallucination) 현상을 보입니다.
현재의 한계:
- VLM 은 인간 전문가와 달리 불확실성을 표현하지 않고 높은 언어적 확신으로 오류를 제시할 수 있어 진단 안전성과 임상 신뢰도에 위협이 됩니다.
- 기존 불확실성 추정 방법 (토큰 확률, 활성화 값 등) 은 폐쇄형 (Black-box) 상용 모델 (예: GPT-4) 에 적용하기 어렵습니다.
- 추가 학습 데이터나 파인튜닝이 필요한 보조 모델 (Reward models) 은 임상 현장에서의 적용성이 제한적입니다.
목표: 폐쇄형 VLM 의 내부 구조에 접근하지 않고도 할루시네이션을 탐지하여 거부할 수 있는 방법을 개발하고, 이를 통해 방사선학적 시각적 질문 응답 (VQA) 의 정확도를 높이는 것입니다.

2. 방법론 (Methodology)

이 연구는 **이산적 의미 엔트로피 (Discrete Semantic Entropy, DSE)**를 활용하여 모델의 불확실성을 정량화하고 필터링하는 방식을 제안했습니다.

데이터셋:
- VQA-Med 2019: 500 개의 의료 이미지와 임상 질문 (모달리티, 평면, 장기, 이상 소견 4 가지 카테고리).
- RadDataset: 206 개의 실제 임상 2D 이미지 (CT, MRI, X-ray, 혈관조영술) 와 해당 진단명.
모델: OpenAI 의 GPT-4o 와 GPT-4.1 사용.
실험 프로세스:
1. 고온 샘플링 (High-temperature Sampling): 각 질문당 온도 (Temperature) 1.0 으로 15 번의 독립적인 응답을 생성하여 모델의 변이성을 극대화합니다.
2. 기저선 (Baseline) 설정: 온도 0.1 로 1 번의 응답을 생성하여 기준 정확도를 측정합니다.
3. 의미 군집화 (Semantic Clustering): 생성된 15 개의 응답을 쌍방향 함의 (Bidirectional Entailment) 체크를 통해 의미적으로 동일한 응답끼리 군집화합니다.
4. DSE 계산: 군집의 상대적 빈도를 기반으로 엔트로피를 계산합니다.
  - $DSE(x) = -\sum P(C_i|x) \log_{10} P(C_i|x)$
  - 모든 응답이 하나의 군집에 속하면 DSE 는 0 (완전한 일관성), 모든 응답이 서로 다르면 최대값 (약 1.18) 에 도달합니다.
5. 필터링 전략: 계산된 DSE 값이 임계값 (Threshold) 을 초과하는 질문은 거부 (Reject) 하고, 나머지 질문에 대해서만 정확도를 재평가합니다.
  - 사용된 임계값: 0.6 (상대적 완화), 0.3 (상대적 엄격).
평가 지표: 정확도 향상, 통계적 유의성 (부트스트랩 리샘플링, Bonferroni 보정), 커버리지 (남은 질문 수) 와 정확도의 트레이드오프.

3. 주요 기여 (Key Contributions)

블랙박스 VLM 을 위한 할루시네이션 탐지: 모델 내부 파라미터나 확률 분포에 접근하지 않고, 오직 출력 (Output) 만을 사용하여 의미적 일관성을 기반으로 불확실성을 정량화하는 방법을 방사선학 분야에 처음 적용했습니다.
임상 적용 가능성: 추가 학습이나 파인튜닝 없이 표준 API 호출만으로 구현 가능하여, 기존 폐쇄형 상용 모델에 즉시 적용 가능한 경량 필터링 전략을 제시했습니다.
정확도 - 커버리지 트레이드오프 분석: 엄격한 DSE 임계값을 적용할수록 정확도는 크게 향상되지만, 답변을 제공하는 질문 수는 감소한다는 인과관계를 다양한 모달리티와 질문 유형에서 실증했습니다.

4. 결과 (Results)

기저선 정확도: 전체 데이터셋 (706 개) 에서 GPT-4o 는 51.7%, GPT-4.1 은 54.8% 의 낮은 정확도를 보였습니다. 특히 '이상 소견 (Abnormality)' 탐지나 복잡한 임상 진단 (RadDataset) 에서 성능이 저조했습니다.
DSE 필터링 효과:
- DSE ≤ 0.3 (엄격한 필터링):
  - GPT-4o: 정확도 51.7% → 76.3% (약 24.6%p 상승, 통계적 유의성 p < 0.001). 단, 답변 가능한 질문 수는 706 개 중 334 개 (47.3%) 로 감소했습니다.
  - GPT-4.1: 정확도 54.8% → 63.8% (약 13.5%p 상승).
- DSE ≤ 0.6 (완화된 필터링):
  - GPT-4o: 정확도 62.9% 로 상승 (질문 499 개 유지).
하위 카테고리별 분석:
- 모달리티/장기/평면 질문: 높은 기저선 정확도를 보였으며 DSE 필터링으로 인한 거부율이 낮았습니다.
- 이상 소견 (Abnormality) 질문: 기저선 정확도가 매우 낮았으나 (13.6%), DSE 필터링을 통해 GPT-4o 의 정확도가 33.3% (DSE≤0.6) 까지 향상되었으나, 거부율이 매우 높았습니다 (DSE≤0.3 기준 91.2% 거부).
- 실패 사례: 모델이 동일한 잘못된 답변을 일관되게 생성하는 경우 (Confident Hallucination) 는 DSE 가 낮게 나와 필터링을 통과하는 한계가 확인되었습니다.

5. 의의 및 결론 (Significance & Conclusion)

안전성 강화: DSE 는 VLM 이 생성한 답변의 신뢰도를 정량화하여, 임상 의사결정 시 불확실성이 높은 답변을 선별적으로 거부함으로써 진단 안전성을 높이는 핵심 메커니즘이 될 수 있습니다.
실용성: API 기반의 경량 구현으로 인해 PACS 나 보고 시스템에 통합하기 용이하며, 비용 효율적 (질문당 약 $0.72) 입니다.
한계 및 향후 과제:
- DSE 는 '일관성'을 측정할 뿐 '사실성'을 보장하지 않으므로, 일관된 오답 (Confident Hallucination) 은 탐지하지 못합니다.
- 현재 연구는 2D 이미지 슬라이스에 국한되었으며, 3D 볼륨 데이터나 전향적 임상 연구가 필요합니다.
결론: DSE 는 현재 일반 목적 VLM 이 방사선학적 진단에 독립적으로 사용되기에는 부족함을 인정하면서도, **불확실성 관리 (Uncertainty Management)**를 통해 AI 도구의 신뢰성과 임상 수용성을 높이는 중요한proof-of-concept 를 제시했습니다.

핵심 메시지: "할루시네이션을 완전히 제거할 수는 없지만, 의미적 엔트로피를 통해 불확실한 답변을 걸러내면 AI 가 제공하는 답변의 정확도를 획기적으로 높일 수 있다."

Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy

🎓 비유: "15 명의 전문가에게 같은 질문을 던져보자"

🚦 신호등 시스템: "신뢰할 수 없는 건 걸러내자"

📊 연구 결과: "답변 수는 줄었지만, 정확도는 폭발했습니다"

💡 왜 이것이 중요한가요?

⚠️ 한계점 (주의할 점)

🏁 결론

논문 요약: 방사선학에서 이산적 의미 엔트로피 (DSE) 를 활용한 환각 (Hallucination) 필터링

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation