Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering

Each language version is independently generated for its own context, not a direct translation.

🏥 배경: 혼란스러운 수술실

상상해 보세요. 34 명의 젊은 의사 (AI 모델) 들이 모여 있습니다. 그들은 각자 다른 학교를 나왔고, 서로 다른 교재를 읽었습니다.

문제 상황: 환자에 대한 질문 (예: "이 CT 스캔에서 어떤 병이 의심되나요?") 을 던지면, 34 명 중 10 명은 A 병이라고 하고, 15 명은 B 병이라고 하고, 9 명은 C 병이라고 합니다.
위험: 의사들이 제각각 다른 답을 내놓으면, 환자는 누구 말을 믿어야 할지 몰라 혼란에 빠집니다. 이것이 바로 **'모델의 변동성 (Model Variability)'**입니다.

🧠 실험: 두 가지 방식의 진료

연구진은 이 34 명의 의사들에게 두 가지 방식으로 질문을 던졌습니다.

방식 1: 홀로 고민하기 (Zero-shot)
- 의사들은 오직 자신의 기억과 지식만 믿고 즉흥적으로 답을 냅니다.
- 결과: 답이 제각각이라 의견이 분산되었습니다. (엔트로피가 높음)
방식 2: 노련한 선배의 지도 받기 (Agentic Retrieval)
- 이번에는 모든 의사에게 **동일하게 준비된 '참고 자료 (검색된 의학 지식)'**를 건네주었습니다.
- 이 자료는 AI 가 스스로 찾아서 정리한 것이지만, 모든 의사에게 똑같은 내용으로 주어졌습니다.
- 결과: 의사들은 이 자료를 바탕으로 다시 생각했습니다.

📊 주요 발견: 놀라운 변화들

1. 의견이 하나로 모였습니다 (결정 안정성 ↑)

비유: 처음엔 34 명이 제각각 다른 말을 했지만, 같은 참고 자료를 읽고 나니 대부분이 같은 결론을 내렸습니다.
의미: AI 들이 서로 다른 답을 내놓는 '산만함'이 줄어들었습니다. 이는 의사들이 더 집중해서 생각하게 되었다는 뜻입니다.

2. 하지만 '맞는 답'을 모인 것은 아닙니다 (정확도 vs 합의)

중요한 경고: 의견이 하나로 모인다고 해서, 그 답이 반드시 맞는 것은 아닙니다.
비유: 만약 참고 자료에 실수가 있거나, 선배가 잘못된 방향을 가리켰다면? 34 명의 의사 모두 서로 다른 실수를 똑같이 저지르게 될 수 있습니다.
결과: 연구진은 "의견이 많이 일치한다 = 정답이다"라고 믿으면 안 된다고 경고했습니다. 가끔은 **모두가 틀린 답에 동의하는 '동시 실수'**가 발생하기도 했습니다.

3. 전체적인 실수는 줄었지만, '치명적 실수'는 여전히 존재합니다 (견고성 ↑)

비유: 전체적으로 보면, 참고 자료를 받은 그룹이 정답을 맞히는 비율이 더 높아졌습니다. (예: 100 명 중 74 명 → 81 명)
하지만: 여전히 몇몇 질문에서는 **참고 자료를 받은 그룹이 오히려 더 많이 틀리는 '치명적인 붕괴'**가 일어났습니다. 이는 모든 AI 가 같은 잘못된 길로 빠진 경우입니다.
교훈: 평균적인 실수는 줄었지만, **가장 위험한 상황 (치명적 오류)**은 여전히 사라지지 않았습니다.

4. "말이 길다고 해서 정답은 아니다" (답변 길이와 정답의 관계)

비유: 어떤 의사는 답변을 10 줄로 길게 썼고, 어떤 의사는 2 줄로 짧게 썼습니다.
결과: 답변이 길다고 해서 정답일 확률이 더 높은 것은 전혀 아니었습니다. 길고 상세한 설명이 오히려 잘못된 확신을 심어줄 수 있습니다.

5. 의학적 위험도 (실수가 얼마나 큰일인지)

연구진은 틀린 답들이 환자에게 얼마나 큰 피해를 줄지 전문의들이 평가했습니다.
결과: 틀린 답 중 72% 가 환자에게 중대한 위험 (수술 지연, 잘못된 치료 등) 을 초래할 수 있는 수준이었습니다.
핵심: AI 가 '대부분 동의한다'고 해서 안심하면 안 됩니다. 그 동의가 틀린 방향이라면, 그 피해는 매우 클 수 있습니다.

💡 결론: 우리가 배운 교훈

이 연구는 AI 를 의료 현장에 도입할 때 "평균 점수"만 보면 안 된다고 말합니다.

팀워크는 양날의 검입니다: AI 들에게 같은 자료를 주면 의견이 하나로 모아져 안정적이게 되지만, 잘못된 길로 함께 빠질 위험도 커집니다.
소리가 큰 게 정답은 아니다: AI 가 자신 있게 길게 설명하거나, 34 명 중 30 명이 같은 답을 낸다고 해서 그 답이 안전하다고 믿어서는 안 됩니다.
새로운 안전장치가 필요하다: 단순히 "정답률"을 따지는 것을 넘어, **"여러 AI 가 얼마나 일관되게 맞췄는지", "틀렸을 때 얼마나 위험한지"**를 함께 평가해야 합니다.

한 줄 요약:

"AI 들에게 같은 책을 읽게 하면 의견이 하나로 모이지만, 그 의견이 틀렸다면 모두 함께 큰 실수를 저지를 수 있으니, 단순한 합의보다는 '안전성'과 '견고함'을 더 꼼꼼히 확인해야 한다"는 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대형 언어 모델 (LLM) 이 의료, 특히 방사선학 분야의 의사결정 지원 시스템에 통합되고 있습니다. 최근 검색 증강 생성 (RAG) 과 에이전트 추론 (Agentic Reasoning) 기술은 외부 지식을 활용하여 성능을 향상시키는 것으로 알려져 있습니다. 그러나 실제 배포 환경에서는 다음과 같은 중요한 신뢰성 문제가 존재합니다.

모델 변동성 (Model Variability): 조직은 비용, 지연 시간, 벤더 변경 등의 이유로 다양한 아키텍처, 버전, 공급자의 모델을 사용합니다. 단일 모델의 평균 정확도만으로는 이러한 환경에서의 시스템 신뢰성을 평가하기 어렵습니다.
집단적 신뢰도의 불명확성: 에이전트 추론이 여러 이질적인 모델 간의 결정 일관성 (consistency) 을 높이는지, 혹은 오히려 잘못된 정보로 인해 여러 모델이 동시에 틀린 답변을 도출하는 '동조적 오류 (coordinated failures)'를 유발하는지 명확하지 않습니다.
신뢰성 지표의 한계: 단순한 정확도 (Accuracy) 나 동의율 (Agreement) 은 시스템의 안정성, 오류의 임상적 중대성, 그리고 모델 간 변동성에 대한 견고함을 충분히 설명하지 못합니다.

2. 방법론 (Methodology)

이 연구는 34 개의 다양한 LLM 을 대상으로 방사선학 질문 응답 작업에서 Zero-shot 추론과 **에이전트 검색 증강 추론 (Agentic Retrieval-Augmented Reasoning)**을 비교 평가하는 통제된 프레임워크를 제시합니다.

데이터셋:
- Benchmark-RadQA (104 개 질문): RSNA-RadioQA 및 ExtendedQA 기반.
- Board-RadQA (65 개 질문): 독일 방사선학 전문의 시험 문제 기반.
- 총 169 개의 전문가 큐레이션 객관식 질문 사용.
모델 패널:
- OpenAI, Qwen, Llama, DeepSeek, Gemma, Claude, Gemini, Mistral 등 34 개의 이질적인 모델 (상용 및 오픈 가중치, 파라미터 규모 다양, 일반 목적 및 의료 특화 모델 포함).
실험 조건:
1. Zero-shot: 모델에게 질문과 보기만 제공.
2. Agentic Condition: 질문과 보기에 더해, 동일하게 구성된 검색 증강 파이프라인이 생성한 구조화된 증거 보고서 (Evidence Report) 를 제공.
  - 파이프라인은 Radiopaedia.org 에서 관련 정보를 검색하고, 이를 중립적인 구조화된 보고서로 합성하여 모든 모델에 동일하게 전달합니다.
  - 이를 통해 검색 및 계획 단계의 차이를 통제하고, 동일한 증거에 대한 모델들의 반응 차이만 격리하여 평가합니다.
평가 지표 (Collective Behavior Metrics):
- 결정 안정성 (Decision Stability): Shannon 엔트로피를 사용하여 모델 간 답변 분산 정도 측정.
- 합의 강도 (Consensus Strength): 다수결 (Majority Fraction) 비율.
- 정답 견고성 (Robustness of Correctness): 전체 모델 중 정답을 맞춘 모델의 비율 (모델 선택에 따른 정답의 재현성).
- 동의 - 정답 결합 (Coupling): 합의 강도와 정답 비율 간의 상관관계.
- 출력 길이 (Verbosity): 답변 길이가 정답성과 얼마나 관련 있는지 분석.
- 임상적 중대성 (Clinical Severity): 방사선 전문의 3 명이 틀린 답변의 임상적 위험도 (저/중/고) 를 블라인드 상태로 평가.

3. 주요 기여 및 결과 (Key Contributions & Results)

A. 에이전트 추론은 모델 간 분산을 줄이고 결정을 집중시킴

엔트로피 감소: 에이전트 추론을 적용한 결과, 모델 간 답변 분산 (엔트로피) 이 Zero-shot (중앙값 0.48) 에서 에이전트 조건 (중앙값 0.13) 으로 유의하게 감소했습니다 ( $P=5.6 \times 10^{-9}$ ).
이는 공유된 구조화된 증거가 이질적인 모델들을 더 좁은 답변 범주로 정렬시킴을 의미합니다.

B. 합의 강도 증가는 정답성을 보장하지 않음

합의 증가: 에이전트 조건에서 다수결 비율이 증가했습니다 (중앙값 0.85 → 0.97).
정답성 불일치: 합의가 증가한 경우 중 56% 는 정답이 맞았으나, 7% 는 잘못된 답변에 대한 합의가 강화되는 현상이 관찰되었습니다. 즉, 에이전트 추론이 때로는 여러 모델을 동시에 잘못된 결론으로 이끌 수 있음을 시사합니다.

C. 정답 견고성 (Robustness) 의 향상과 희귀한 붕괴 사례

견고성 향상: 전체 모델 패널이 정답을 맞춘 비율 (Robustness) 이 평균 0.74 에서 0.81 로 증가했습니다. 이는 모델이 바뀌더라도 정답을 유지할 가능성이 높아졌음을 의미합니다.
동조적 오류 (Coordinated Failures): 소수 (약 7%) 의 질문에서는 에이전트 조건에서 정답률이 급격히 떨어지는 '붕괴' 사례가 발생했습니다. 이는 공유된 증거가 오해의 소지가 있을 경우, 모델 다양성이 주는 보호 효과가 사라지고 동시에 오류가 발생할 수 있음을 보여줍니다.

D. 동의와 정답성의 관계 및 출력 길이의 한계

강한 상관관계: 평균적으로 합의 강도와 정답 견고성은 강한 상관관계 ( $\rho \approx 0.87$ ) 를 보였으나, 높은 합의가 낮은 견고성 (잘못된 정답) 을 동반하는 사례가 1~2% 존재했습니다.
Verbosity (출력 길이) 는 신뢰할 수 없는 지표: 정답과 오답 간의 답변 길이 (토큰 수) 에 유의미한 차이가 없었습니다. 특히 에이전트 조건에서는 길이가 길어졌으나 정답성과의 연관성은 사라졌습니다.

E. 임상적 중대성 분석

고위험 오류 존재: 틀린 답변 중 72% 가 임상적으로 '중등도' 또는 '고도'의 위험을 가진 것으로 평가되었습니다.
평가자 간 일치도 낮음: 임상적 위험도 평가에 대한 평가자 간 일치도 (Fleiss' $\kappa$ ) 는 매우 낮았으나 (0.02), 이는 오류의 임상적 결과가 단일 카테고리에 집중되지 않고 복잡함을 보여줍니다.
핵심 통찰: 구조적 안정성 (엔트로피 감소) 이나 견고성 향상은 임상적으로 치명적인 오류를 완전히 제거하지 못합니다.

4. 의의 및 결론 (Significance)

이 연구는 방사선학 및 고위험 의료 분야에서 LLM 기반 시스템을 평가할 때 단순한 평균 정확도나 동의율만으로는 부족함을 강력하게 시사합니다.

새로운 평가 패러다임: 시스템의 신뢰성을 평가할 때 결정 안정성 (Stability), 모델 간 견고성 (Cross-model Robustness), 동의 - 정답 결합 (Coupling), 그리고 **잔류 오류의 임상적 영향 (Clinical Impact)**을 종합적으로 분석해야 합니다.
에이전트 시스템의 양면성: 에이전트 검색 증강은 모델 간 일관성을 높이고 전체적인 정답률을 개선하지만, 동시에 **동조적 오류 (Coordinated Errors)**의 위험을 내포합니다. 공유된 증거가 잘못되면 다양한 모델이 동시에 실패할 수 있습니다.
안전성 경고: 높은 동의율이나 긴 설명이 반드시 안전하거나 정확한 것을 의미하지는 않습니다. 특히 임상적 중대성이 높은 오류가 여전히 존재하므로, 배포 전에는 모델 변동성 하에서의 '꼬리 위험 (Tail-risk)'과 오류의 임상적 결과를 반드시 평가해야 합니다.

결론적으로, 이 연구는 의료 AI 의 신뢰성 평가가 단일 모델의 성능을 넘어, 모델 변동성 하에서의 집단적 행동 구조와 안전성을 다차원적으로 이해해야 함을 강조합니다.