Modeling Clinical Uncertainty in Radiology Reports: from Explicit Uncertainty Markers to Implicit Reasoning Pathways

Each language version is independently generated for its own context, not a direct translation.

🏥 배경: 의사의 보고서와 '숨은 뜻'

방사선 전문의 (라디올로지스트) 는 환자의 X-ray 를 보고 "폐에 염증이 있을 수도 있습니다"라고 적습니다.
하지만 AI 가 이 문장을 읽을 때 두 가지 큰 문제가 생깁니다.

**명시적 불확실성 **(Explicit Uncertainty)
- 상황: 의사가 "아마도", "가능성이 있다", "의심된다" 같은 말을 썼을 때입니다.
- 문제: AI 는 "아마도"가 50% 확률인지, 90% 확률인지 알 수 없습니다. 기존 시스템은 단순히 '불확실'이라고만 분류해서, 얼마나 불확실한지 그 **정확한 정도 **(숫자)를 알려주지 못했습니다.
- 비유: 친구가 "내일 비 올 것 같아"라고 했을 때, AI 는 "비 올 확률 50%?" 아니면 "90%?"를 구별하지 못해 우산을 챙길지 말지 결정하지 못하는 것과 같습니다.
**암시적 불확실성 **(Implicit Uncertainty)
- 상황: 의사가 "심부전 (Congestive Heart Failure)"이라고만 진단하고, 그 이유인 "심장 크기 증가"나 "폐 부종" 같은 세부 내용은 생략했을 때입니다.
- 문제: AI 는 "심장 크기 증가"가 없다고 오해할 수 있습니다. 사실은 의사가 "심부전"이라고 말했으니 당연히 "심장 크기 증가"도 있는 건데, 보고서에 적지 않았을 뿐입니다.
- 비유: 친구가 "오늘 피곤해서 잠이 안 와"라고 했을 때, AI 는 "그 친구는 커피를 마시지 않았다"고 추측할 수 있습니다. 하지만 사실은 커피를 마셨지만, 피곤한 이유만 말한 것일 뿐입니다. AI 는 이 숨겨진 연결고리를 놓칩니다.

🛠️ 해결책: 두 가지 새로운 도구

저자들은 이 문제를 해결하기 위해 두 가지 도구를 개발했습니다.

1. "의사 언어 번역기" (명시적 불확실성 해결)

의사가 쓴 "아마도", "가능성 있음" 같은 말들을 **0 에서 1 사이의 숫자 **(확률)로 바꾸는 시스템입니다.

어떻게 했나요?
- 단순히 규칙을 정하는 게 아니라, **거대 언어 모델 **(LLM)을 "심판"으로 세웠습니다.
- LLM 에게 "A 문장의 '아마도'와 B 문장의 '가능성' 중 어떤 게 더 확실한가?"라고 8,000 번 이상 비교하게 했습니다.
- 마치 **게임 랭킹 시스템 **(TrueSkill)처럼, 어떤 표현이 더 확실한지 순위를 매겨서, 각 표현에 해당하는 숫자 점수를 부여했습니다.
- 결과: 이제 AI 는 "아마도 폐렴"이라는 문장을 읽으면, "폐렴일 확률 45%"라고 정확히 계산할 수 있게 되었습니다.

2. "진단 연결 고리" (암시적 불확실성 해결)

의사가 생략한 세부 내용을 **전문가들이 만든 '진단 지도 **(Pathway)를 통해 찾아내는 시스템입니다.

어떻게 했나요?
- 14 가지 흔한 질병 (예: 폐렴, 심부전, 골절 등) 에 대해, 전문 의사와 함께 '진단 지도'를 그렸습니다.
- 예: "심부전"이라는 진단이 나오면, 지도에 따라 자동으로 "심장 크기 증가", "폐 부종", "호흡 곤란" 같은 세부 증상이 숨겨져 있었을 것이라고 추론해서 추가합니다.
- 결과: 보고서에 적히지 않았던 중요한 증상들도 AI 가 "아, 이 환자는 심부전이니까 이 증상도 있을 거야"라고 추론하여 데이터에 채워 넣습니다.

📊 결과: 'Lunguage++'라는 새로운 보물

이 두 가지 방법을 합쳐서 **Lunguage++**라는 새로운 데이터셋을 만들었습니다.

**기존 데이터 **(Lunguage) X-ray 보고서의 내용을 구조화했지만, 불확실한 부분과 생략된 부분이 많았습니다.
**새로운 데이터 **(Lunguage++)
- 모든 진단에 **확률 **(숫자)이 붙어 있습니다. ("폐렴일 확률 0.45")
- 의사가 말하지 않았지만 있을 법한 증상들도 채워져 있습니다.
- 비유: 기존 데이터가 "빈칸이 많은 퍼즐"이었다면, Lunguage++ 는 빈칸이 모두 채워지고, 각 조각의 중요도가 숫자로 적힌 완성된 퍼즐입니다.

💡 왜 중요한가요?

이 기술은 AI 가 방사선 보고서를 읽을 때, 의사의 생각 과정을 더 똑똑하게 따라잡게 해줍니다.

더 정확한 진단: AI 가 "아마도"라는 말을 50% 로만 보지 않고, 문맥에 따라 30% 나 80% 로 다르게 판단할 수 있습니다.
숨은 증상 발견: 보고서에 적히지 않은 중요한 증상도 추론해서, 환자 상태를 더 정확히 파악할 수 있습니다.
미래의 의료 AI: 이 데이터를 바탕으로 만든 AI 는 의사를 더 잘 돕고, 환자에게 더 정확한 치료 방향을 제시할 수 있게 됩니다.

한 줄 요약:

"의사의 보고서에 숨겨진 '아마도'의 정도를 숫자로 바꾸고, 말하지 않은 내용도 전문가 지도로 찾아서 AI 가 더 똑똑하게 진단할 수 있게 만든 연구입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

방사선 보고서 (Radiology Reports) 는 임상 의사결정의 핵심 자원이지만, 자동화된 분석을 위해 구조화할 때 두 가지 유형의 불확실성 (Uncertainty) 을 해결해야 하는 과제가 존재합니다.

명시적 불확실성 (Explicit Uncertainty):
- 방사선 전문의가 소견의 존재 여부를 확신하지 못할 때 사용하는 'hedging phrases' (예: "possible", "suggesting", "may represent" 등) 로 표현됩니다.
- 기존 연구들은 이를 단순한 이진 분류 (양성/불확실/음성) 나 규칙 기반 시스템으로 처리했으나, 문맥에 따라 의미가 달라지며 불확실성의 정도를 연속적인 확률로 정량화하기 어렵다는 한계가 있었습니다.
암시적 불확실성 (Implicit Uncertainty):
- 보고서 작성 시 간결함을 위해 진단 추론 과정의 일부 (중간 소견 등) 가 생략되는 경우 발생합니다.
- 예를 들어, "심부전 (congestive heart failure)"이라고만 기록되고 이를 뒷받침하는 "심비대"나 "폐부종" 같은 하위 소견이 명시되지 않을 때, 해당 소견이 실제로 부재한 것인지 단순히 생략된 것인지 구분하기 어렵습니다. 이는 데이터 편향을 유발하고 진단 추론 과정을 왜곡할 수 있습니다.

2. 방법론 (Methodology)

저자들은 명시적 및 암시적 불확실성을 모두 해결하기 위해 두 단계의 프레임워크를 제안하고, 이를 적용하여 **Lunguage++**라는 확장된 데이터셋을 구축했습니다.

A. 명시적 불확실성 정량화 (Quantifying Explicit Uncertainty)

목표: 방사선 보고서 내의 소견 (finding) 에 대해 0(부재) 에서 1(존재) 사이의 연속적인 확률 값을 할당.
핵심 기법:
1. 불확실성 어휘 추출: LLM(Gemini) 을 활용하여 14,049 개의 구조화된 소견 - 문장 쌍에서 42 개의 공통적인 hedging phrases 를 자동 추출했습니다.
2. 참고 순위 구축 (Reference Ranking):
  - TrueSkill 알고리즘 적용: 경쟁 게임의 선수 등급 산정 방식에서 영감을 받았습니다. 4 개의 LLM(Gemini, GPT-4o, Claude, MedGemma) 을 '판심자 (Judge)'로 활용하여, 42 개 구문 쌍 (8,610 회) 에 대해 문맥을 고려한 쌍별 비교 (Pairwise Comparison) 를 수행했습니다.
  - 이를 통해 각 구문의 상대적 확신도 (Skill level, $\mu$ ) 를 도출하고 전역 순위를 매겼습니다.
3. 전문가 검증: 방사선 전문의 및 내과 전문의 등 6 명의 전문가가 50 개의 구문 쌍에 대해 평가를 수행하여 LLM 기반 순위의 신뢰성을 검증했습니다 (일치율 약 77~80%).
4. 확률 매핑: TrueSkill 점수 ( $\mu$ ) 를 시그모이드 함수를 통해 0~1 확률 값으로 변환했습니다. 이때 'most likely'와 'less likely' 구문에 대한 전문가의 확률 평가를 기준점 (Anchor) 으로 사용했습니다.

B. 암시적 불확실성 모델링 (Modeling Implicit Uncertainty)

목표: 명시적으로 언급되지 않았으나 진단 논리에 따라 암시되는 하위 소견들을 복원.
핵심 기법: Pathway Expansion Framework (경로 확장 프레임워크)
1. 진단 경로 (Diagnostic Pathways) 구축: 14 가지 흔한 흉부 X 선 (CXR) 진단 (예: 폐렴, 심부전, 기흉 등) 에 대해 전문가 합의 하에 방향성 비순환 그래프 (DAG) 형태의 진단 경로를 정의했습니다. 이는 고차원 진단이 어떤 하위 소견들을 필요로 하는지 (예: 심부전 $\rightarrow$ 심비대 + 폐부종) 를 계층적으로 표현합니다.
2. 확산 과정 (Expansion Process):
  - 소견 중복 제거: 의미적으로 유사한 소견을 병합합니다.
  - 경로 매칭: 보고서의 소견을 정의된 진단 경로와 매칭합니다.
  - 재귀적 확장: 매칭된 진단 노드에서 하위 자식 노드 (하위 소견) 를 재귀적으로 추출하고, 부모 노드의 진단 상태 (양성/음성), 불확실성 (확신/유보), 확률 값을 상속받습니다.
3. 충돌 해결 (Conflict Resolution): 확장 과정에서 원래 보고서와 모순되거나 확장된 소견 간에 충돌이 발생할 경우, 다음과 같은 규칙 기반 프로토콜로 해결합니다.
  - 원래 보고서 (Original) 가 확장된 내용 (Expansion) 보다 우선합니다.
  - 확신도 (Definitive) 가 높은 것이 유보적 (Tentative) 인 것보다 우선합니다.
  - 확률 값이 높은 것을 선택합니다.

3. 주요 기여 (Key Contributions)

명시적 불확실성 정량화 프레임워크: LLM 기반의 쌍별 비교와 TrueSkill 알고리즘을 결합하여, 문맥을 고려한 연속적인 확률 값을 할당하는 새로운 방법을 제시했습니다.
암시적 불확실성 해결을 위한 첫 번째 프레임워크: 14 가지 진단에 대한 전문가 정의 진단 경로 (Diagnostic Pathways) 를 구축하고, 이를 통해 생략된 임상적 증거를 복원하는 규칙 기반 확장 시스템을 제안했습니다.
Lunguage++ 데이터셋 출시: 기존 Lunguage 데이터셋을 확장하여, 모든 소견에 대해 연속 확률 값을 부여하고 암시적 소견을 포함한 구조화된 방사선 보고서 벤치마크를 공개했습니다.

4. 결과 (Results)

데이터 확장: Lunguage 의 14,049 개 구조화된 소견 중 18.7%(2,639 개) 가 진단 경로와 매칭되어 확장되었으며, 이를 통해 **4,761 개의 새로운 하위 소견 (+33.9%)**이 추론되어 추가되었습니다.
불확실성 분포: 유보적 (Tentative) 인 소견들의 평균 확률은 0.459 로 나타났으며, 이는 불확실성이 단순히 '있음/없음'이 아닌 연속적인 스펙트럼임을 보여줍니다.
충돌 발생률: 확장 과정에서 발생한 충돌은 전체의 약 3.2% 에 불과했으며, 충돌 해결 프로토콜을 적용 후 모든 논리적 일관성이 확보되었습니다.
전문가 일치도: LLM 기반 순위와 전문가 평가 간의 일치도가 높았으며, GPT-4o 가 전문가와 가장 높은 일치율을 보였습니다.

5. 의의 및 한계 (Significance & Limitations)

의의:
- 신뢰할 수 있는 AI 학습: 불확실성을 정량화하고 생략된 논리를 복원함으로써, 의료 AI 모델의 학습 및 평가를 더욱 정확하게 수행할 수 있는 기반을 마련했습니다.
- 임상적 추론 모방: 방사선 전문의의 실제 사고 과정 (Explicit + Implicit) 을 구조화된 데이터로 재현하여, Vision-Language 모델이 불확실성을 인지한 보고서 생성 및 해석을 학습하는 데 기여합니다.
- 확장성: 제안된 프레임워크는 CheXpert, MIMIC-CXR 등 다른 대규모 CXR 데이터셋에도 적용 가능합니다.
한계:
- LLM 의존성: 명시적 불확실성 순위 구축에 LLM 에 의존하며, 모델의 편향이나 비용 문제가 존재합니다.
- 단방향 경로: 진단 경로가 상향식 (Bottom-up) 이나 순환적 의존성을 표현하지 못하며, 확률 전파 시 모든 자식 노드에 동일한 확률을 부여하는 단순화가 이루어졌습니다.
- 임상 예외: 진단 경로가 높은 확률 (>80%) 을 기반으로 하지만, 예외적인 임상 상황에서는 경로 기반 추론이 실제 이미지와 불일치할 수 있습니다.

이 연구는 방사선 보고서의 구조화 과정에서 발생하는 불확실성을 체계적으로 다루어, 차세대 의료 AI 의 신뢰성과 해석 가능성을 높이는 중요한 이정표로 평가됩니다.