Reproducibility and Robustness of Large Language Models for Mobility Functional Status Extraction

⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"병원 기록을 읽는 인공지능 (AI) 이 얼마나 믿을 만한가?"**에 대한 질문을 던집니다.

의사들이 쓴 복잡한 병원 기록 (진료 기록지) 에서 환자가 걷거나 이동하는 능력에 대한 정보를 AI 가 찾아내는 작업을 연구했습니다. 여기서 핵심은 AI 가 정확한 답을 내는 것뿐만 아니라, 같은 질문을 반복해도 항상 같은 답을 내놓는지 (재현성), 그리고 **질문하는 말투를 살짝 바꿔도 답이 흔들리지 않는지 (강건성)**를 확인하는 것입니다.

이 복잡한 연구를 일상적인 비유로 쉽게 설명해 드릴게요.

1. 연구의 배경: "똑똑한 AI 도 가끔 혼란스러워한다"

병원 기록지는 매우 복잡하고 비공식적인 언어로 쓰여 있습니다. 예를 들어 "보행기 사용", "균형 잡기 위해 부동 장치 사용" 같은 표현들이 있죠. AI 는 이런 문맥을 이해해서 환자가 '이동 능력이 있는가/없는가'를 판단해야 합니다.

하지만 AI 는 사람처럼 매번 똑같은 생각을 하지 않습니다. 같은 질문을 해도, AI 가 "기분" (랜덤성) 에 따라 조금씩 다른 답을 내놓을 수 있습니다. 병원처럼 실수가 치명적인 곳에서는 정확도만큼이나 일관성이 중요합니다.

2. 실험 방법: 세 가지 AI 와 두 가지 테스트

연구진은 세 가지 다른 성격을 가진 AI 모델을 비교했습니다.

일반적인 천재 (Llama 3.3): 모든 것을 잘 아는 범용 모델.
전문가 팀 (Llama 4): 많은 전문가 (모두 16 명) 가 있지만, 매번 2 명만 뽑아 일을 시키는 '혼합 전문가 (MoE)' 방식.
의학 전공자 (MedGemma): 의학 데이터로 특별히 훈련된 모델.

이들에게 두 가지 테스트를 시켰습니다.

재현성 테스트 (같은 질문 반복): "이 문장을 분석해"라고 똑같은 말을 100 번 반복했을 때, AI 가 100 번 내내 같은 답을 내놓을까요?
강건성 테스트 (말투 바꾸기): "이 문장을 분석해"를 "이 기록을 살펴봐", "이 내용을 확인해" 등으로 말투만 살짝 바꿔서 물어봤을 때, AI 가 당황하지 않고 같은 결론을 내릴까요?

3. 주요 발견: 놀라운 결과들

🌡️ 온도 조절의 중요성 (Temperature)

AI 에게는 '온도'라는 설정이 있습니다.

온도 0.0 (냉정함): AI 가 가장 논리적이고 일관된 답을 냅니다.
온도 1.0 (뜨거움): AI 가 창의적이지만, 엉뚱한 답을 하거나 매번 다른 답을 내놓을 수 있습니다.

결과: 대부분의 AI 는 온도가 높아질수록 정답률 (F1 점수) 은 비슷하게 유지되는데, 일관성 (재현성) 은 확 떨어졌습니다. 즉, "대체로 맞는 말을 하지만, 매번 다른 말을 해서 신뢰할 수 없다"는 뜻입니다. 특히 '전문가 팀' 방식의 AI(Llama 4) 는 온도가 조금만 올라가도 답이 매우 불안정해졌습니다.

🗣️ 말투 바꾸기의 위험성

질문하는 사람의 말투가 조금만 달라져도 AI 의 답이 크게 바뀌는 경우가 많았습니다.

**일반적인 천재 (Llama 3.3)**와 **의학 전공자 (MedGemma)**는 말투 변화에 비교적 강했습니다.
하지만 **전문가 팀 (Llama 4)**은 말투가 바뀌는 것만으로도 답이 뒤죽박죽이 되는 경향이 매우 컸습니다. 마치 회의 중 전문가들이 서로 다른 의견을 내서 결론이 나지 않는 상황과 비슷합니다.

4. 해결책: "여러 번 물어보고 다수결로 결정하기"

AI 가 한 번에 답을 내는 대신, 같은 질문을 10 번 정도 반복해서 물어본 뒤, **가장 많이 나온 답 (다수결)**을 최종 답으로 채택하는 방법을 썼습니다. 이를 '자기 일관성 (Self-Consistency)'이라고 합니다.

결과: 이 방법은 일관성을 획기적으로 높여주었습니다. 마치 여러 명의 전문가에게 같은 문제를 물어보고 투표로 결론을 내리는 것과 같습니다. 비용은 조금 더 들지만 (계산 시간이 더 걸림), 신뢰할 수 있는 결과를 얻기에 매우 효과적이었습니다.

5. 결론 및 시사점: 병원 AI 에게 필요한 것

이 연구는 우리에게 중요한 교훈을 줍니다.

정확도만 보면 안 됩니다: AI 가 90% 정확도를 낸다고 해서 안심하면 안 됩니다. 같은 환자를 보더라도 AI 가 매일 다른 진단을 내린다면 그 AI 는 쓸모가 없습니다. **일관성 (안정성)**을 반드시 확인해야 합니다.
모델 선택이 중요합니다: 모든 AI 가 똑같이 안정적인 것은 아닙니다. 이 연구에서는 의학 전문으로 훈련된 모델이나 일반적인 모델이, 복잡한 '전문가 팀' 방식의 모델보다 임상 현장에서 더 안정적으로 작동했습니다.
현실적인 해결책:
- 가장 안전한 방법은 AI 를 **가장 차분한 상태 (온도 0.0)**로 운영하는 것입니다.
- 만약 AI 가 좀 더 창의적인 답을 내야 한다면, 여러 번 물어보고 다수결로 결정하는 방법을 써서 안정성을 확보해야 합니다.

한 줄 요약:

"병원에서 쓰는 AI 는 단순히 '똑똑한' 것보다 '매일 같은 일을 꾸준히, 흔들리지 않고' 해내는 것이 훨씬 더 중요합니다. 말투가 조금만 바뀌어도 혼란스러워하는 AI 는 피하고, 여러 번 물어봐서 결론을 내는 방법을 쓰면 훨씬 믿을 수 있습니다."

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 임상 정보 추출을 위한 대규모 언어 모델 (LLM) 의 재현성과 견고성 평가

1. 연구 배경 및 문제 제기 (Problem)

임상 기록 (Clinical Notes) 은 환자의 기능 상태, 증상, 임상적 추론에 대한 귀중한 정보를 포함하고 있으나, 비정형 텍스트의 언어적 다양성과 문서화 습관 차이로 인해 신뢰할 수 있는 정보 추출 (Information Extraction, IE) 이 어렵습니다. 최근 LLM 은 임상 정보 추출에서 높은 정확도를 보이지만, 임상 현장에 배포되기 위해서는 **정확도 (Accuracy)**뿐만 아니라 **신뢰성 (Reliability)**이 필수적입니다.

재현성 (Reproducibility): 동일한 프롬프트와 입력 텍스트에 대해 반복 실행 시 일관된 결과를 산출하는 능력.
견고성 (Robustness): 프롬프트가 자연스러운 방식으로 (예: 다른 임상가가 작성한 문장 재구성) 변형되었을 때 결과가 안정적으로 유지되는 능력.

기존 연구들은 주로 평균 정확도에 집중했으나, 임상 시스템에서는 출력의 불안정성이 하류 분석, 감사, 사용자 신뢰에 치명적일 수 있습니다. 특히 이동성 (Mobility) 기능 상태 추출은 간접적인 표현 (예: "보행기 사용", "균형을 위한 부동 장치 사용") 이 많아 LLM 의 추론 능력을 테스트하기에 적합한 사례이나, 이러한 모델의 재현성과 견고성에 대한 체계적인 평가는 부족했습니다.

2. 연구 방법론 (Methodology)

이 연구는 통제된 실험 설계를 통해 세 가지 오픈 가중치 (Open-weight) LLM 을 비교 평가했습니다.

평가 대상 모델:
1. Llama 3.3 70B: 고밀도 (Dense) 범용 모델 (Baseline).
2. Llama 4 (Scout-17B-16E): 혼합 전문가 (Mixture-of-Experts, MoE) 아키텍처를 가진 범용 모델.
3. MedGemma 27B: 의료 도메인에 특화된 (Domain-tuned) 모델.
데이터셋: ICF(국제 기능, 장애 및 건강 분류) 프레임워크에 기반한 4 가지 이동성 기능 범주 (신체 위치 변경/유지, 물체 운반/이동, 걷기/이동, 교통수단 이용) 에 대한 800 개의 임상 노트 섹션 (각 범주당 200 개, 양적/부정적 균형).
실험 설계:
- 실험 1 (재현성 평가): 동일한 프롬프트에서 온도 (Temperature) 를 0.0~1.0 으로 변화시키며 각 조건당 100 회 반복 실행.
- 실험 2 (견고성 평가): 의미는 동일하지만 문장 구조가 다른 10 가지 프롬프트 변형 (Paraphrasing) 을 생성하여 실행.
- 실험 3 (완화 전략): 다수결 투표 (Majority Voting) 를 통한 자기 일관성 (Self-consistency) 기법 적용.
평가 지표:
- 성능: F1-score (양성 예측의 정확도).
- 안정성: Fleiss' Kappa ( $\kappa$ ) (반복 실행 또는 프롬프트 변형 간 일치도).
통계 분석: 3 요인 ANOVA (모델, 온도, 이동성 범주) 및 Tukey HSD 사후 검정.

3. 주요 결과 (Key Results)

A. 온도와 재현성 (Intra-prompt Reproducibility)

온도 증가가 일반적으로 합의도 ( $\kappa$ ) 를 저하시켰으나, 그 정도는 모델과 작업에 따라 크게 달랐습니다.
Llama 3.3: 온도가 증가함에 따라 $\kappa$ 가 완만하게 감소하는 경향을 보였습니다. 일부 작업에서는 높은 온도에서 F1 점수가 약간 상승하기도 했습니다.
Llama 4 (MoE): 온도 증가에 따른 $\kappa$ 감소가 가장 급격했습니다. 특히 '물체 운반/이동' 및 '교통수단 이용' 작업에서 불안정성이 두드러졌습니다.
MedGemma: 전반적으로 높은 성능과 재현성을 보였으나, '신체 위치 변경' 작업에서는 온도 증가에 따라 $\kappa$ 가 급격히 떨어지는 경향을 보였습니다.
통찰: 평균 F1 점수는 온도 변화에 따라 크게 변하지 않았으나, $\kappa$ 는 급격히 하락하여 높은 평균 정확도가 반드시 안정적인 출력을 보장하지 않음을 시사합니다.

B. 프롬프트 변형과 견고성 (Inter-prompt Robustness)

의미적으로 동일한 프롬프트의 문장 구조 변화만으로도 출력의 변동성이 크게 발생했습니다.
모델 간 차이: Llama 3.3 과 MedGemma 는 프롬프트 변형에 상대적으로 견고했으나, Llama 4 (MoE) 는 4 가지 이동성 범주 중 3 개에서 견고성이 현저히 낮았습니다. 특히 MoE 아키텍처의 라우팅 (Routing) 메커니즘이 작은 입력 변화에 민감하게 반응하여 다른 전문가 (Expert) 를 선택함으로써 불안정성을 유발하는 것으로 추정됩니다.
통계적으로 모델 간 견고성 차이는 매우 유의미했습니다 ( $p < 0.001$ ).

C. 완화 전략: 자기 일관성 (Self-Consistency via Majority Voting)

100 번의 반복 실행 결과를 다수결 투표로 집계하는 방식은 재현성 ( $\kappa$ ) 을 획기적으로 개선했습니다.
특히 재현성이 낮았던 Llama 4 에서 $\kappa$ 회복 효과가 가장 컸으며, F1 점수도 유지되거나 소폭 향상되었습니다.
이는 재학습 없이 추론 시간 (Inference-time) 에만 추가 연산으로 신뢰성을 높일 수 있는 실용적인 방법임을 입증했습니다.

4. 주요 기여 (Key Contributions)

이중 평가 프레임워크 제시: 임상 정보 추출에서 '정확도 (F1)'와 '안정성 (Fleiss' Kappa)'을 동시에 평가하는 체계적인 프레임워크를 확립했습니다.
모델 아키텍처별 신뢰성 비교: 범용 Dense 모델, MoE 모델, 도메인 특화 모델 간의 재현성 및 견고성 차이를 정량화했습니다. 특히 MoE 모델이 프롬프트 변형에 취약할 수 있음을 처음으로 명확히 지적했습니다.
임상 배포 가이드라인 제공:
- 임상 환경에서는 Temperature 0.0을 기본값으로 사용하여 재현성을 확보할 것을 권장합니다.
- 불가피하게 높은 온도를 사용하거나 프롬프트가 다양한 환경에서는 **다수결 투표 (Self-consistency)**를 적용하여 안정성을 확보해야 함을 제안합니다.
통계적 근거: ANOVA 를 통해 모델, 온도, 작업 유형이 안정성에 미치는 상호작용 효과를 통계적으로 입증했습니다.

5. 의의 및 결론 (Significance)

이 연구는 LLM 기반 임상 시스템의 배포에서 정확도만으로는 충분하지 않으며, 재현성과 견고성이 필수적임을 강조합니다. 특히 MoE 아키텍처와 같은 최신 모델이 높은 성능을 보일지라도, 프롬프트의 미세한 변화나 온도 설정에 따라 출력이 크게 달라질 수 있음을 경고합니다.

연구 결과는 임상 AI 시스템 개발 시 다음과 같은 실용적 제안을 합니다:

모델 선택: 의료 도메인 특화 모델 (MedGemma) 이나 재현성이 높은 Dense 모델 (Llama 3.3) 이 MoE 모델보다 임상 IE 작업에 더 적합할 수 있음.
파라미터 설정: 임상적 안정성이 필요한 경우 Temperature 를 0.0 으로 고정.
신뢰성 향상: 비용이 허용된다면 다수결 투표와 같은 앙상블 기법을 통해 추론 단계에서 신뢰성을 보강.

결론적으로, 본 연구는 LLM 기반 임상 정보 추출 시스템의 안전하고 감사 가능한 (Auditable) 배포를 위해 신뢰성 지표를 성능 지표와 병행하여 보고하고 평가할 것을 강력히 권고합니다.