A statistical framework for evaluating the repeatability and reproducibility… — 쉬운 설명

원저자: Shyr, C., Ren, B., Hsu, C.-Y., Yan, C., Tinker, R. J., Cassini, T. A., Hamid, R., Wright, A., Bastarache, L., Peterson, J. F., Malin, B. A., Xu, H.

게시일 2026-03-25

📖 4 분 읽기☕ 가벼운 읽기

보기: medRxiv ↗PDF ↗

CC BY 4.0

원저자: Shyr, C., Ren, B., Hsu, C.-Y., Yan, C., Tinker, R. J., Cassini, T. A., Hamid, R., Wright, A., Bastarache, L., Peterson, J. F., Malin, B. A., Xu, H.

원본 논문은 CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ⚕️ 이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

이 논문은 **"인공지능 (AI) 이 의사가 된다면, 같은 질문을 해도 매번 같은 대답을 할까?"**라는 매우 중요한 질문에서 시작합니다.

대부분의 사람들은 AI 가 "정답"을 맞췄는지 여부 (정확도) 만을 중요하게 생각합니다. 하지만 이 연구는 **"AI 가 얼마나 일관되게 행동하는가?"**를 측정하는 새로운 방법을 제안합니다.

이 복잡한 통계 논문을 일상적인 비유로 쉽게 설명해 드릴게요.

🍳 비유: "요리사 (AI) 와 레시피 (프롬프트)"

이 논문의 핵심을 이해하기 위해 **요리사 (AI 모델)**와 **레시피 (질문/프롬프트)**를 상상해 보세요.

1. 문제: 왜 같은 요리사도 매번 다른 요리를 할까?

AI 는 확률이라는 주사위를 굴려서 단어를 하나씩 만들어냅니다. 마치 요리사가 "오늘은 소금을 조금 더 넣을까, 덜 넣을까?"라고 고민하며 매번 조금씩 다른 맛의 요리를 만드는 것과 비슷합니다.

상황: 환자가 "배가 아파요"라고 말하면, AI 는 100 번을 실행해 볼 때 100 번 모두 "위염"이라고 답할 수도 있고, 50 번은 "위염", 30 번은 "충수염", 20 번은 "소화불량"이라고 답할 수도 있습니다.
위험: 환자가 한 번은 "위염"이라고 듣고 안심했는데, 다음에 같은 환자를 다시 보러 갔을 때 AI 가 "충수염"이라고 하면 어떻게 될까요? 의사는 당황하고 환자는 혼란스러워합니다. 정답을 맞췄더라도, 매번 다른 대답을 한다면 그 AI 는 신뢰할 수 없습니다.

2. 해결책: 새로운 측정 도구 (통계 프레임워크)

저자들은 이 문제를 해결하기 위해 FDA(미국 식품의약국) 의 가이드라인을 참고하여 AI 의 '일관성'을 측정하는 4 가지 지표를 만들었습니다.

이 지표를 요리사의 두 가지 능력으로 나누어 설명해 볼까요?

A. 의미의 일관성 (Semantic): "맛이 같은가?"

비유: 요리사가 10 번 요리를 했는데, 10 번 모두 "매콤한 국물"이라고 불렀다면? 하지만 1 번은 "매콤한 국물", 2 번은 "매운 찌개", 3 번은 "고추장 국물"이라고 불렀다면?
의미: 겉모습 (단어) 은 달라도 **의미 (진단)**가 같다면 괜찮습니다. 하지만 "위염"이라고 했다가 "충수염"이라고 한다면, 이는 **의미의 일관성 (Semantic Repeatability)**이 낮은 것입니다.
이 연구의 발견: "베이지안 추론 (확률적 사고)"이라는 특별한 레시피를 사용하면, AI 가 같은 진단을 내릴 확률이 훨씬 높아졌습니다. 즉, 질문하는 방식 (프롬프트) 에 따라 AI 의 일관성이 달라진다는 것입니다.

B. 내부의 일관성 (Internal): "요리사가 얼마나 확신하는가?"

비유: 요리사가 국을 끓일 때, "소금 1 티스푼"이라고 확신하며 넣는지, 아니면 "소금 0.5~1.5 티스푼 사이 아무거나"라고 막연하게 고민하며 넣는지입니다.
의미: AI 가 단어를 고를 때, "이 단어가 99% 맞다"라고 확신하는지, 아니면 "A, B, C 중 하나일지도 모르겠다"라고 망설이는지 측정합니다.
이 연구의 발견: AI 가 정답을 맞췄다고 해서, 내부적으로 확신을 가지고 답한 것은 아니었습니다. 정답을 맞췄을 때와 틀렸을 때의 '일관성'은 별개였습니다.

🔍 이 연구가 밝혀낸 3 가지 중요한 사실

질문하는 방식이 중요하다:
같은 AI 모델이라도, 어떻게 질문하느냐에 따라 일관성이 완전히 달라집니다. 마치 요리사에게 "간단하게 만들어줘"라고 할 때와 "단계별로 정확히 만들어줘"라고 할 때의 결과물이 다르듯이, 프롬프트 (질문) 전략이 AI 의 신뢰도를 결정합니다.
정답과 일관성은 별개다:
AI 가 한 번은 정답을 맞췄다고 해서, 그 다음에도 같은 정답을 낼 것이라고 보장할 수 없습니다. 정확도 (Accuracy) 가 높다고 해서 신뢰성 (Reliability) 이 높은 것은 아닙니다. 마치 운 좋게 한 번 맞춘 주사위와 항상 같은 숫자가 나오는 주사위는 다릅니다.
실제 환자 데이터 vs 시험 문제:
시험 문제 (USMLE) 보다는 실제 복잡한 환자 사례 (UDN) 에서 AI 의 일관성이 더 높게 나타났습니다. 이는 실제 환자 데이터가 더 구체적이고 상세해서 AI 가 헷갈릴 여지가 적었기 때문일 수 있습니다.

💡 결론: 왜 이 연구가 중요한가?

이 논문은 **"AI 가 의사를 돕는 도구가 되려면, 단순히 정답을 맞추는 것만으로는 부족하다"**고 말합니다.

현재: 우리는 AI 가 "정답"을 맞췄는지만 봅니다.
미래: 우리는 AI 가 "매번 같은 결론을 내리는지"를 확인해야 합니다.

이 연구는 의료 현장에서 AI 를 사용할 때, 단순히 "맞았나?"가 아니라 "일관되게 맞았나?"를 체크하는 새로운 규칙을 제시합니다. 마치 요리사가 매일 같은 맛의 요리를 낼 수 있어야 손님이 신뢰하듯, 의료 AI 도 환자를 볼 때마다 일관된 진단을 내려야만 진정으로 신뢰받을 수 있다는 메시지를 전달합니다.

한 줄 요약:

"AI 가 정답을 맞추는 것보다 중요한 것은, 매번 같은 질문을 했을 때 매번 같은 결론을 내리는 것입니다. 이 논문은 그 '일관성'을 측정하는 새로운 자를 만들어냈습니다."

1. 연구 배경 및 문제 제기 (Problem)

현황: 대규모 언어 모델 (LLM) 이 의료 기록 생성, 환자 응답, 임상 의사결정 지원 등 다양한 의료 분야에서 활용되고 있습니다. 기존 평가는 주로 정확도 (Accuracy) 와 같은 작업 수준 지표에 집중되어 왔습니다.
문제점: LLM 은 확률 분포에서 토큰을 샘플링하여 텍스트를 생성하므로, 동일한 프롬프트를 입력하더라도 실행마다 다른 출력을 생성할 수 있습니다. 즉, 한 번의 실행에서는 정답을 도출할지라도 반복 실행 시 일관된 결과를 내지 못할 수 있습니다.
규제적 요구: 미국 식품의약국 (FDA) 은 AI 기반 의료 소프트웨어에 대해 '재현성 (Repeatability, 동일 조건에서의 일관성)'과 '재현성 (Reproducibility, 다른 조건에서의 일관성)'을 정량화할 것을 권고하고 있습니다.
연구 격차: 기존 BLEU, ROUGE 등의 지표는 참조 텍스트와의 유사성을 측정할 뿐, 반복 실행 간의 변동성 (Variability) 을 정량화하는 데는 적합하지 않습니다. 또한, 프롬프트 엔지니어링 연구들은 주로 정확도 향상에 초점을 맞추고 있어, 실행 간 일관성 평가는 부족합니다.

2. 방법론 (Methodology)

연구팀은 FDA 의 가이드라인을 기반으로 LLM 출력의 변동성을 정량화하는 통계적 프레임워크를 개발했습니다. 이 프레임워크는 **의미적 (Semantic)**과 내부적 (Internal) 두 가지 차원과 **재반복성 (Repeatability)**과 재현성 (Reproducibility) 두 가지 조건을 결합하여 총 4 가지 지표를 정의합니다.

가. 정의된 4 가지 지표

의미적 재반복성 (Semantic Repeatability):
- 정의: 동일한 조건 (동일한 모델, 프롬프트, 파라미터) 에서 반복 실행 시 출력의 의미가 얼마나 일관적인지 측정.
- 계산: 각 실행 결과의 텍스트 임베딩 벡터 간 평균 코사인 유사도 (Cosine Similarity) 를 계산하여 [0, 1] 범위로 정규화.
내부적 재반복성 (Internal Repeatability):
- 정의: 동일한 조건에서 텍스트 생성 중 모델의 토큰 수준 확률 분포가 얼마나 확신 (Certainty) 있는 상태인지 측정.
- 계산: 생성된 각 토큰의 확률 분포에 대한 샤논 엔트로피 (Shannon Entropy) 를 계산. 엔트로피가 낮을수록 확률 분포가 뾰족하여 모델이 특정 토큰을 확신하고 있음을 의미함. 평균 엔트로피를 기반으로 점수화.
의미적 재현성 (Semantic Reproducibility):
- 정의: 서로 다른 조건 (예: 다른 프롬프트 전략) 에서 반복 실행 시 출력의 의미가 얼마나 일관적인지 측정.
- 계산: 각 조건별 평균 임베딩 벡터 간의 코사인 유사도를 계산.
내부적 재현성 (Internal Reproducibility):
- 정의: 서로 다른 조건에서 텍스트 생성 중 모델의 토큰 수준 확률 분포의 확신 정도가 얼마나 일관적인지 측정.
- 계산: 각 조건별 평균 엔트로피 간의 차이를 계산하여 점수화.

나. 실증 평가 (Empirical Evaluation)

데이터셋:
1. MedQA (USMLE): 미국 의사 면허 시험 문제 518 개 (표준화된 벤치마크).
2. UDN (Undiagnosed Diseases Network): 희귀 질환 환자 사례 90 건 (실제 임상 데이터, 복잡하고 불완전한 정보 포함).
모델: ChatGPT-4, ChatGPT-4o-mini, LLaMA 3.2-1B (상용 및 오픈소스, 다양한 크기).
프롬프트 전략: Savage 등 [33] 이 개발한 5 가지 체인 오브 씽킹 (CoT) 프롬프트 (전통적, 감별진단, 직관적, 분석적, 베이지안 추론).
실험 설정: 각 모델 - 프롬프트 - 사례 조합당 100 회 독립 실행 (Total 912,000 개 생성). 온도 (Temperature) 는 0.5, Top-k 는 30 으로 고정.

3. 주요 결과 (Results)

재반복성 (Repeatability) 변동:
- 의미적 재반복성: 모델, 프롬프트, 데이터셋에 따라 크게 달라졌습니다. 특히 ChatGPT-4의 경우 베이지안 추론 (Bayesian Reasoning) 프롬프트를 사용했을 때 다른 프롬프트 전략보다 의미적 재반복성이 유의하게 높았습니다 ( $p < 0.001$ ).
- 내부적 재반복성: 모델과 프롬프트 전략에 따라 큰 차이가 없었으나, ChatGPT-4o-mini 의 경우 전통적 CoT 와 베이지안 CoT 에서 다른 전략보다 내부적 재반복성 점수가 유의하게 낮았습니다.
- 데이터셋 차이: UDN(실제 환자 사례) 의 경우 USMLE(시험 문제) 보다 프롬프트 간 재반복성 변동이 적었습니다. 이는 실제 임상 사례의 긴 서술 구조가 모델의 응답 범위를 제한하여 일관성을 높인 것으로 추정됩니다.
재현성 (Reproducibility) 변동:
- ChatGPT-4o-mini 는 USMLE 데이터에서 다른 모델보다 높은 내부적 재현성을 보였습니다.
- LLaMA 3.2-1B 는 두 데이터셋 모두에서 다른 모델보다 높은 의미적 재현성을 보였습니다.
정확도와의 관계:
- 핵심 발견: 재반복성/재현성 점수와 진단 정확도는 일반적으로 관련이 없었습니다.
- 정답을 도출한 사례와 오답을 도출한 사례 간에 재반복성/재현성 점수에서 통계적으로 유의미한 차이가 거의 없었습니다 (일부 프롬프트 제외).
- 이는 모델이 한 번은 정답을 맞출지라도 반복 실행 시 일관되지 않을 수 있으며, 반대로 일관되게 틀린 답을 낼 수도 있음을 의미합니다.

4. 주요 기여 (Key Contributions)

규제 기반 통계 프레임워크 개발: FDA 가이드라인을 반영하여 LLM 의 출력 변동성을 '의미적'과 '내부적' 차원에서, '재반복성'과 '재현성' 조건으로 세분화하여 정량화하는 체계적인 프레임워크를 처음 제안했습니다.
모델 및 프롬프트 무관성 (Agnostic): 특정 모델이나 프롬프트에 의존하지 않으며, 자가 회귀 (Autoregressive) LLM 전반에 적용 가능한 일반화된 지표를 제시했습니다.
정확도와 일관성의 분리: LLM 평가에서 '정확도'와 '일관성 (재현성/재반복성)'이 별개의 차원임을 실증적으로 증명했습니다. 이는 임상 환경에서 모델의 신뢰성을 평가할 때 정확도만으로는 부족함을 시사합니다.
프롬프트 전략의 영향: 프롬프트 전략 (예: 베이지안 추론) 이 모델의 출력 일관성에 중요한 영향을 미친다는 것을 발견했습니다.

5. 의의 및 결론 (Significance)

임상적 신뢰성 확보: 의료 분야에서 LLM 을 사용할 때, 모델이 한 번의 실행에서 정답을 내더라도 반복 실행 시 일관된 결과를 보장해야 합니다. 본 연구의 지표는 이러한 일관성을 체계적으로 평가하여 임상적 신뢰도를 높이는 데 기여합니다.
포괄적 평가 체계: 기존 정확도 중심의 평가를 보완하여, 모델의 강건성 (Robustness) 과 신뢰성을 종합적으로 평가할 수 있는 도구를 제공합니다.
미래 방향: 연구팀은 이 프레임워크가 특정 모델이나 프롬프트에 국한되지 않고, 다양한 의료 과제와 모델 구성에서 출력 변동성을 비교하는 표준 도구로 활용될 수 있음을 강조했습니다. 또한, 향후 인간 중심 평가 (임상가의 검토 등) 와 결합하여 모델 변동성이 실제 임상 의사결정에 미치는 영향을 규명할 것을 제안했습니다.

이 논문은 LLM 이 의료 현장에 안전하게 도입되기 위해 필수적인 '일관성' 문제를 통계적으로 해결하려는 중요한 시도로 평가됩니다.

A statistical framework for evaluating the repeatability and reproducibility of large language models