SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 배경: 왜 이 연구가 필요할까요?

전통적으로 AI 는 의사가 시험 문제를 내면 (예: "뇌경색의 증상은 무엇인가?") 정답을 맞추는 방식으로 평가받았습니다. 하지만 실제 진료실은 시험지처럼 깔끔하지 않습니다. 환자는 "어제 밤에 손이 떨리고, 입맛이 이상하고, 갑자기 시야가 흐려졌어요"라고 산만하고 복잡한 이야기로 증상을 설명합니다.

이 연구는 **"AI 가 이런 산만한 환자의 이야기를 듣고, 뇌의 어느 부위 (발작 시작 부위) 에서 문제가 시작되었는지 추리할 수 있을까?"**를 확인하고 싶었습니다. 특히 약물로 치료가 안 되는 간질 환자는 뇌 수술이 유일한 희망인 경우가 많기 때문에, 이 '추리'가 얼마나 정확한지가 생명을 구하는 열쇠가 됩니다.

🧠 2. 실험: 8 명의 AI 조수들을 시험에 붙이다

연구팀은 GPT-4, Mixtral, Llama 등 최신 AI 8 개를 '간질 전문가'로 변장시켜 실험했습니다.

과제: 환자가 말한 증상 (예: "입술을 쩝쩝 찼다", "팔이 갑자기 뻣뻣해졌다") 을 듣고, 뇌의 7 개 영역 중 어디에서 발작이 시작되었을 확률을 계산하게 했습니다.
참고: 실제 의사 2 명도 같은 과제를 수행하여 AI 와 비교했습니다.

🚀 3. 주요 발견: AI 의 놀라운 성장과 함정

① "스스로 생각하게 하라" (프롬프트 엔지니어링)

처음에 AI 에게 그냥 "이 증상은 어디 문제야?"라고 물으면 (Zero-shot), AI 는 운 좋게 맞히는 수준이었습니다. 하지만 연구팀은 AI 에게 **"단계별로 생각해보고, 의사처럼 추론 과정을 말해보라"**고 지시했습니다.

비유: 단순히 답만 외우는 학생에서, 수학 문제를 풀 때 풀이 과정을 차근차근 적어주는 학생으로 변신시킨 셈입니다.
결과: 이렇게 '생각하는 과정 (Chain-of-Thought)'을 요구하자, AI 의 정확도가 급상승하여 실제 전문의 수준에 근접했습니다.

② "의사 코스프레"의 힘

AI 에게 "너는 이제 세계 최고의 간질 전문가야"라고 역할을 부여하자 (Clinical Impersonation), 성능이 더 좋아졌습니다.

비유: 학생이 "너는 이제 수학 선생님이다"라고 역할을 부여받으면, 평소보다 훨씬 더 진지하게 문제를 풀고 답을 내는 것과 같습니다.
결과: 역할 부여만으로도 정확도가 약 14% 나 향상되었습니다.

③ "짧은 이야기 vs 긴 이야기"의 역설

흥미롭게도, 환자의 이야기가 너무 짧거나 너무 길 때 AI 가 가장 잘 맞췄습니다.

비유:
- 짧은 이야기: "손이 떨려" → 핵심 키워드만 있어서 AI 가 바로 '뇌 앞부분'을 떠올리기 쉬움.
- 긴 이야기: 모든 세부 사항을 다 설명 → AI 가 중요한 단서 (핵심 증상) 를 골라내서 논리적으로 연결하기 쉬움.
- 중간 길이: "어제 좀 그랬는데, 그다음엔 이런 저런..." → 중요한 단서가 섞여 있거나 불필요한 정보 (잡음) 가 너무 많아 AI 가 헷갈렸습니다.

④ "정답을 맞췄는데, 이유가 엉터리일 수 있다" (가장 중요한 경고!)

AI 가 정답을 맞췄을 때, 그 **이유 (추론 과정)**를 전문가가 확인했습니다.

문제: GPT-4 는 논리도 훌륭하고 근거 (논문) 도 잘 찾아냈지만, 다른 모델들은 **정답을 맞췄는데 그 이유는 완전히 엉뚱한 가짜 사실 (환각)**을 근거로 들거나, 존재하지 않는 논문을 인용하기도 했습니다.
경고: "정답을 맞췄으니 안심하자"가 아니라, **"왜 그 답을 냈는지 설명할 수 있어야 한다"**는 것이 핵심입니다.

🌍 4. 언어와 문화의 장벽

영어 기반의 한계: AI 는 영어로 된 질문과 답변을 가장 잘 처리했습니다.
흥미로운 점: 환자가 프랑스어나 중국어로 증상을 말해도, AI 가 영어 지시문을 받으면 꽤 잘 이해했습니다. 하지만 질문과 답변이 모두 외국어로 이루어지면 (특히 Mixtral 모델), 성능이 뚝 떨어졌습니다.
비유: AI 는 영어로 된 '지시서'를 읽을 때 가장 똑똑해지지만, 모든 것이 외국어로 된 상황에서는 혼란을 겪습니다.

💡 5. 결론: AI 는 훌륭한 '보조 도구'지만, 의사의 판단이 필요하다

이 연구는 **"AI 가 환자의 복잡한 이야기를 듣고 뇌의 문제를 추리할 수 있는 잠재력이 매우 크다"**는 것을 증명했습니다. 특히 "단계별로 생각하라"는 지시와 "전문가 역할 부여"가 핵심 열쇠였습니다.

하지만 **"정답을 맞췄다고 해서 믿어도 되는 것은 아니다"**라는 중요한 경고도 남겼습니다. AI 가 엉뚱한 근거를 대며 정답을 맞출 수 있기 때문에, 최종적인 판단은 반드시 인간 의사가 AI 의 추론 과정을 검증한 뒤 내려야 합니다.

한 줄 요약:

"AI 는 이제 환자의 이야기를 듣고 뇌의 문제를 추리하는 '초급 의사' 수준까지 성장했지만, 여전히 엉뚱한 근거를 대는 '망상'을 할 수 있으니, 인간 의사의 눈으로 꼼꼼히 확인해야 합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

현황: 대규모 언어 모델 (LLM) 은 구조화된 질문 - 답변 (Q&A) 벤치마크 (예: MedQA, PubMedQA) 에서 임상 지식을 잘 활용하는 것으로 입증되었습니다.
문제점: 그러나 실제 임상 환경에서는 환자와의 비구조화된 인터뷰나 임상 기록 (Clinical Narratives) 에서 진단 정보를 추출하고 추론하는 것이 핵심입니다. 기존 평가들은 이러한 비구조화된 텍스트를 해석하고 진단적 추론을 수행하는 LLM 의 능력을 충분히 평가하지 못했습니다.
목표: 간질 (Epilepsy) 분야를 사례로 삼아, 비구조화된 발작 증상 설명 (Seizure Descriptions) 을 바탕으로 뇌의 발작 시작 부위 (Seizure Onset Zone, SOZ) 를 확률적으로 추정하는 LLM 의 능력을 체계적으로 평가하는 프레임워크를 개발하는 것입니다.

2. 방법론 (Methodology)

A. 데이터셋 및 태스크

데이터: 공개된 Semio2Brain 데이터베이스를 사용했습니다. 이는 309 개의 논문과 4,643 명의 환자 데이터를 기반으로 2,567 가지 발작 반증 (Semiology) 을 7 개의 주요 뇌 영역 (측두엽, 전두엽, 대상회, 두정엽, 후두엽, 뇌섬엽, 시상하부) 에 매핑한 것입니다.
전처리: 약어 확장, 오타 수정, 불필요한 단어 제거 등을 거쳐 최종적으로 1,269 개의 발작 증상 기록을 분석에 사용했습니다.
Ground Truth: 수술 후 발작이 1 년 이상 지속되지 않은 (Seizure Free) 사례를 기준으로 SOZ 를 확정했습니다.
태스크: LLM 에게 발작 증상 설명을 입력받아 7 개 뇌 영역 중 하나에 대한 **확률 분포 (Likelihood Estimates)**를 출력하도록 하고, 이를 정답과 비교하여 정확도를 평가합니다.

B. 평가 모델

총 8 개의 LLM 평가:
- 일반 목적 모델: GPT-3.5, GPT-4, Mixtral-8x7B, Qwen-72B, LlaMa2-70B, LlaMa3-70B
- 의료 특화 모델: OpenBioLLM-70B, Med42-70B
프롬프트 전략 (Prompt Strategies):
1. Zero-Shot (ZS): 예시 없이 직접 수행.
2. Few-Shot (FS): 5 개의 예시 (입력 - 출력 쌍) 제공.
3. Chain-of-Thought (CoT): 단계별 추론 과정 요구.
4. FS-CoT: 전문가가 선정한 예시와 추론 패턴을 결합.
5. Self-Consistency (SC): 여러 추론 경로를 생성하고 다수결 (Majority Voting) 로 최종 답변 도출.

C. 평가 지표

정확도: F1 점수 (가장 확률이 높은 뇌 영역 선택).
신뢰도 (Confidence): 모델 출력된 확률 분포의 엔트로피 (Shannon Entropy) 를 기반으로 계산 ( $C = 1 - H$ ).
보정 (Calibration): 예측 확률과 실제 정확도의 일치도를 Brier Score 로 측정.
정성적 평가: 간질 전문의 (Clinical Expert) 가 모델의 추론 과정 (이해력, 지식 회상, 논리적 추론) 과 인용 출처의 정확성을 평가.

3. 주요 결과 (Key Results)

A. 성능 및 프롬프트 엔지니어링의 영향

기초 성능: 대부분의 모델은 Zero-Shot 조건에서 우연 수준 (Chance level) 보다 약간 높은 성능을 보였으나, GPT-4와 Mixtral-8x7B는 임상 전문가 (약 47-48% F1) 와 유사한 성능 (약 52%) 을 보였습니다.
프롬프트 개선 효과: 모든 모델에서 프롬프트 엔지니어링을 적용하면 성능이 크게 향상되었습니다.
- FS-CoT와 SC 전략이 가장 큰 개선을 가져왔습니다.
- 특히 GPT-4는 SC 전략을 통해 53.44% 의 F1 점수를 기록하며 최고 성능을 보였습니다.
- 의료 특화 모델 (OpenBioLLM, Med42) 은 특정 조건에서 일반 모델과 경쟁했으나, GPT-4 나 Mixtral 과 같은 최상위 일반 목적 모델의 일관된 성능을 완전히 따라잡지는 못했습니다.

B. 신뢰도와 보정 (Confidence & Calibration)

신뢰도 향상: 프롬프트 엔지니어링 (특히 Few-Shot 및 FS-CoT) 은 모델의 예측 신뢰도를 크게 높였습니다 (예: FS-CoT 조건에서 21% 증가).
보정: GPT-4는 Zero-Shot 조건에서도 가장 우수한 보정 (Calibration) 을 보였으며, 예측 확률이 실제 정확도와 잘 일치했습니다.
결론: GPT-4와 Mixtral-8x7B가 정확도, 신뢰도, 보정 측면에서 가장 균형 잡힌 성능을 보였습니다.

C. 추론 및 출처 평가 (Expert Analysis)

정확성: GPT-4 는 Mixtral-8x7B 보다 **정확도 (Correctness)**와 **완전성 (Completeness)**에서 통계적으로 유의미하게 우수했습니다.
논리적 추론: GPT-4 는 논리적 추론 단계에서 오류가 적었으나, Mixtral 은 약 38% 의 추론 오류를 보였습니다.
할루시네이션 (Hallucination): Mixtral 은 잘못된 과학적 근거를 인용하거나 존재하지 않는 논문을 인용하는 등 '할루시네이션' 문제가 빈번했습니다. 반면 GPT-4 는 적절한 출처를 인용하는 경향이 강했습니다.
중요 시사점: 모델이 정답을 맞췄더라도, 그 근거가 허위 정보 (Hallucinated knowledge) 에 기반할 수 있음을 발견했습니다.

D. 성능에 영향을 미치는 요인

증상 설명 길이: 설명의 길이에 따른 성능은 U 자형 (U-shaped) 패턴을 보였습니다. 매우 짧거나 매우 긴 설명이 중간 길이의 설명보다 성능이 좋았습니다.
역할 연기 (Persona): 모델에게 "간질 전문가 (Expert Epileptologist)" 역할을 부여하면 AI 어시스턴트 역할보다 F1 점수가 약 13.7% 향상되었습니다.
다국어 성능: 영어 프롬프트에 비영어권 증상 설명을 입력할 때는 성능 저하가 미미했으나, 프롬프트와 입력 모두 비영어권일 경우 Mixtral 의 성능이 크게 저하되었습니다. GPT-4 는 상대적으로 견고했습니다.

4. 주요 기여 (Key Contributions)

SemioLLM 프레임워크: 비구조화된 임상 텍스트에서 진단 정보를 추출하고 확률적 진단 결정을 내리는 LLM 을 평가하는 확장 가능하고 도메인 적응형 프레임워크를 최초로 제시했습니다.
실제 임상 시나리오 평가: 구조화된 Q&A 가 아닌, 실제 임상에서 발생하는 비구조화된 발작 묘사를 기반으로 한 대규모 평가 (1,200 건 이상) 를 수행했습니다.
추론의 투명성 분석: 단순히 정답 여부뿐만 아니라, 모델의 추론 과정, 지식 회상 능력, 그리고 출처 인용의 정확성까지 심층적으로 분석하여 LLM 의 임상 적용 가능성과 한계를 규명했습니다.
프롬프트 전략 최적화: 임상 전문가가 유도하는 Chain-of-Thought 와 역할 연기 (Persona) 가 진단 정확도를 높이는 가장 효과적인 전략임을 입증했습니다.

5. 의의 및 결론 (Significance)

임상 적용 가능성: LLM 이 비구조화된 환자 기록을 분석하여 뇌의 병변 위치를 추정할 수 있음을 보여주었으며, 이는 약물 난치성 간질 환자의 수술 계획 수립 등에 활용될 잠재력을 가집니다.
신뢰성 확보 필요: 모델이 정답을 예측하더라도 근거가 허위일 수 있으므로, 임상 현장에서는 **해석 가능성 (Interpretability)**과 할루시네이션 방지를 위한 추가적인 검증 시스템 (예: RAG, Retrieval-Augmented Generation) 이 필수적임을 강조했습니다.
미래 방향: 본 연구는 LLM 이 의료 진단 보조 도구로 활용되기 위해서는 단순한 지식 테스트를 넘어, 비구조화된 데이터 처리 능력과 신뢰할 수 있는 추론 능력을 갖추어야 함을 시사합니다. 또한, 다국어 지원 및 다양한 임상 분야 (피부과 등) 로의 확장이 필요함을 제시했습니다.

이 논문은 기초 AI 시스템이 의료 현장에서 실제로 적용되기 위해서는 어떤 조건 (프롬프트, 역할, 데이터 특성 등) 하에서 최적의 성능을 발휘하는지 체계적으로 규명한 중요한 연구로 평가됩니다.