병원에서는 환자 정보를 외부로 보내지 않기 위해, 인터넷 없이도 작동하는 **'작은 AI (로컬 LLM)'**를 컴퓨터에 설치하고 싶어 합니다. 하지만 문제는 이 작은 AI 가 의학적 지식을 얼마나 '단단하게' 기억하고 있는지입니다.
이 연구는 **"AI 가 크면 무조건 똑똑할까?", "의사 전용으로 훈련시켰으면 무조건 안전할까?"**라는 질문에 답하기 위해 15 개의 다양한 AI 모델을 테스트했습니다.
🔍 실험 방법: "의사 자격증 시험" 대신 '논리 퀴즈'
기존의 시험은 "이 증상은 어떤 병일까?" 같은 객관식 문제를 냈습니다. 하지만 이 연구는 더 까다로운 **'논리 퀴즈'**를 냈습니다.
비유: 가상의 학생 (AI) 에게 "사과 (A) 는 과일 (B) 의 일종이다"라고 가르쳤을 때, 다음 네 가지를 모두 맞혀야 '합격'입니다.
사과가 과일의 일종임을 맞히기.
"과일이 무조건 사과다"라는 틀린 말을 걸러내기.
"사과가 배 (C) 의 일종이다"라는 엉뚱한 말을 거절하기.
"배가 사과다"라는 엉뚱한 말도 거절하기.
AI 가 이 네 가지 논리를 모두 정확히 이해해야만, 그 용어를 '튼튼하게 (Robust)' 이해했다고 인정했습니다.
💡 주요 발견 3 가지
1. "크기 = 똑똑함"은 착각입니다 (Size doesn't equal Safety)
비유: 도서관의 책 수 (모델 크기) 가 많다고 해서 모든 책을 다 읽은 건 아닙니다.
결과: 보통은 AI 가 클수록 (책이 많을수록) 점수가 좋았습니다. 하지만 **20 만 권짜리 작은 도서관 (20B 모델)**이 **100 만 권짜리 거대 도서관 (70B~120B 모델)**보다 더 잘하는 경우가 있었습니다.
교훈: 무조건 큰 모델을 쓴다고 해서 안전한 게 아닙니다.
2. "전문가 훈련"은 크기에 따라 효과가 다릅니다 (Fine-tuning is not magic)
비유: 의대생 (일반 AI) 에게 의학 책만 더 읽게 했을 때 (의료 특화 훈련), 그 효과가 나이는 (모델 크기) 에 따라 달랐습니다.
결과:
작은 AI (4B): 의학 책을 더 읽어도 전혀 도움이 안 되었습니다. (기초 체력이 부족해서요.)
중간 크기 AI (27B): 의학 책을 더 읽으니 점수가 확 뛰었습니다.
교훈: 작은 AI 에게는 전문 훈련을 시켜도 소용없을 수 있습니다.
3. "난이도"에 따라 실력이 달라집니다 (Complexity matters)
비유: 쉬운 단어 (감기, 두통) 는 AI 가 잘 알아듣지만, **어렵고 희귀한 단어 (특정 희귀병, 복잡한 해부학 용어)**는 AI 가 헷갈려서 엉뚱한 말을 합니다.
결과: 대부분의 AI 는 쉬운 단어는 90% 이상 맞추지만, 어려운 단어가 나오면 점수가 폭락했습니다. 오직 몇몇 최상위 모델만이 어려운 단어에서도 실수 없이 일관된 성능을 냈습니다.
특이점: 'GPT-OSS 20B'라는 모델은 크기는 작지만, 어려운 단어에서도 다른 거대 모델들보다 훨씬 잘했습니다.
📊 흥미로운 사실: "진단명"은 잘 알아듣는데, "해부학"은 못 알아듣습니다
AI 들은 **'병 이름 (진단명)'**을 외우는 건 잘했지만, **'신체 부위 (해부학)'**나 **'증상'**을 설명하는 건 상대적으로 못했습니다. 마치 "감기 (병)"는 알지만 "코 (부위)"가 어디 있는지 헷갈리는 것과 비슷합니다.
🚨 결론: "안전한 AI"를 쓰기 위해 필요한 것
이 연구는 우리에게 중요한 경고를 줍니다.
"AI 가 크다고, 혹은 의학 훈련을 받았다고 해서 무조건 환자에게 써도 되는 건 아닙니다."
병원이나 연구소가 AI 를 도입할 때는 다음과 같이 생각해야 합니다.
무조건 큰 모델을 고르지 마세요. (작지만 똑똑한 모델이 더 나을 수 있습니다.)
어떤 일을 시킬지 먼저 보세요. (쉬운 업무라면 작은 AI 로도 충분하지만, 복잡한 희귀병 진단이라면 최상위 모델을 써야 합니다.)
검증은 필수입니다. (실제 업무에 쓰기 전에, 그 AI 가 우리 병원에서 쓰는 어려운 용어들을 정확히 이해하는지 테스트해봐야 합니다.)
한 줄 요약:
AI 를 의사처럼 쓰려면, 단순히 '크기'나 '훈련 여부'만 믿지 말고, 실제로 어려운 의학 용어를 얼마나 정확하게 이해하는지 꼼꼼히 시험해봐야 안전합니다.
1. 연구 배경 및 문제 제기 (Problem)
데이터 프라이버시와 로컬 배포의 필요성: 의료 및 연구 기관은 환자 데이터 보호 (HIPAA, GDPR 준수) 및 네트워크 장애 시 운영 연속성을 위해 온프레미스 (On-premises) 환경에서 대규모 언어 모델 (LLM) 을 호스팅하려는 수요가 증가하고 있습니다.
경량화 모델의 한계: 이러한 환경은 표준 하드웨어에서 실행 가능한 소형 (Lightweight) LLM 을 필요로 하지만, 모델 크기를 축소하는 것이 의료 용어에 대한 표현의 '견고성 (Robustness)'을 해치지 않는지 여부는 불명확합니다.
기존 연구의 부족: 기존 벤치마크 (예: MedQA-USMLE) 는 단순한 객관식 질문을 통해 성능을 평가하지만, 이는 모델이 통계적 확률에 기반한 텍스트 생성만 할 뿐, 용어 간의 논리적 관계나 방향성을 정확히 이해하는지 (표현의 견고성) 를 보장하지 못합니다.
핵심 질문: 모델의 파라미터 수 증가나 의료 특화 파인튜닝 (Fine-tuning) 이 실제 임상 환경에서 필요한 의료 용어 표현의 견고성을 보장하는지, 그리고 용어의 복잡성이 성능에 어떤 영향을 미치는지 규명하는 것이 본 연구의 목적입니다.
2. 연구 방법론 (Methodology)
데이터셋 구성: 신경학 (Neurology) 분야의 250 개 임상 용어 삼중항 (Triplets) 을 구성했습니다. 각 삼중항은 [자식 용어 (A), 부모 카테고리 (B), 오답 (Distractor, C)] 형태로 구성되었습니다.
견고한 표현 (Robust Representation) 의 정의: 모델이 다음 4 가지 논리적 관계를 모두 정확히 판별할 때만 '견고한 표현'으로 간주했습니다.
B 가 A 의 부모임을 긍정 (True).
A 가 B 의 부모임을 부정 (False).
A 와 오답 C 를 구분 (False).
오답 C 가 A 의 부모임을 부정 (False).
참고: 무작위 추측으로 4 번 모두 맞출 확률은 6.25% 입니다.
Semantic Complexity Index (SCI) 개발: 용어의 난이도를 정량화하기 위한 새로운 지수입니다. 다음 4 가지 요소를 통합하여 0.2(낮은 복잡성) 에서 0.7(높은 복잡성) 까지 점수화했습니다.
사회적 주목도 (Wikipedia 조회수)
어휘 빈도 (Zipf 점수)
의미적 모호성 (Polysemy, WordNet 기준)
계산적 분할 (Token 수)
실험 대상 모델: 로컬 배포가 가능한 15 개의 오픈 가중치 LLM (4B~120B 파라미터) 을 평가했습니다. 일반 목적 모델과 의료 파인튜닝 모델 (MedGemma 등) 을 포함했습니다.
평가 프로토콜: 제로샷 (Zero-shot) 프롬프트를 사용하며, 각 용어에 대해 3 가지 프롬프트 변형을 적용하여 총 750 회 평가를 수행했습니다. 온도는 0.0 으로 고정하여 재현성을 확보했습니다.
3. 주요 결과 (Key Results)
모델 크기와 성능의 상관관계:
모델 크기와 표현 견고성 사이에는 로그 - 선형 상관관계가 존재했으나 (r=0.736), 이는 절대적이지 않았습니다.
예외 발견: 20B 파라미터의 일반 목적 모델인 GPT-OSS는 70B 이상 모델보다 높은 성능을 보였으며, 120B 모델과 유사한 견고성을 유지했습니다. 이는 모델 크기보다 아키텍처 최적화나 학습 품질이 더 중요할 수 있음을 시사합니다.
의료 파인튜닝의 효과:
4B 모델: 파인튜닝이 성능 향상에 유의미한 영향을 주지 않았습니다 (14.7% vs 15.7%, p=0.67).
27B 모델: 파인튜닝이 성능을 크게 향상시켰습니다 (38.2% → 62.6%, p<0.0001). 이는 특정 규모 이상의 모델에서만 파인튜닝이 효과를 발휘함을 보여줍니다.
의미적 복잡성 (SCI) 의 영향:
대부분의 로컬 LLM 은 용어의 복잡성이 증가할수록 성능이 급격히 저하되었습니다.
복잡성 불변성 (Complexity Invariance): GPT-OSS (20B, 120B) 와 프론티어 모델 (Gemini 3 Pro) 만은 SCI 가 높아져도 성능이 20% 미만으로만 감소하는 '복잡성 불변성'을 보여주었습니다.
임상 하위 도메인별 차이:
진단 (Diagnoses) 용어에 대한 성능이 가장 높았으며 (73.8%), 해부학적 위치 (Localisation, 47.9%) 나 임상 증상 (Clinical features, 52.1%) 용어에 비해 유의하게 높았습니다.
4. 주요 기여 (Key Contributions)
새로운 평가 프레임워크: 단순한 지식 회상이 아닌, 용어 간의 논리적 관계와 방향성을 검증하는 '표현 견고성' 평가 방법론을 제시했습니다.
SCI (Semantic Complexity Index) 개발: 의료 용어의 사회적 prominence, 빈도, 모호성, 토큰화를 통합하여 용어의 난이도를 정량화하는 새로운 지수를 제안했습니다.
모델 선택에 대한 통찰: "모델이 크거나 의료 파인튜닝을 거쳤다면 안전하다"는 통념을 반박했습니다. 오히려 특정 아키텍처 (GPT-OSS) 를 가진 중형 모델이 대형 모델보다 복잡한 용어 처리에 더 우월할 수 있음을 증명했습니다.
임상 배포 가이드라인: 모델의 전체적인 성능 점수보다는, 특정 사용 사례 (Use-case) 에 필요한 용어의 복잡성 수준에 따라 모델을 검증해야 함을 강조했습니다.
5. 의의 및 결론 (Significance & Conclusion)
임상 안전성 확보: 로컬 LLM 을 임상 환경에 배포할 때, 단순히 모델 크기나 파인튜닝 여부만으로는 안전성을 보장할 수 없습니다. 용어 수준의 표현 견고성 (Representational Robustness) 이 확보되지 않으면, 복잡한 임상 시나리오에서 예측 불가능한 실패가 발생할 수 있습니다.
검증의 필요성: 의료 AI 시스템의 안전성을 위해 SCI 와 같은 복잡성 인식 프레임워크를 사용하여 특정 용도 (예: 진단 지원 vs 단순 정보 검색) 에 맞는 모델을 엄격하게 검증해야 합니다.
향후 방향: 경량 모델은 낮은 복잡성의 용어 처리에는 적합할 수 있으나, 고난도 임상 작업에는 프론티어 모델이나 GPT-OSS 시리즈와 같은 고성능 모델이 필요하며, 이는 아키텍처 최적화가 파라미터 수보다 중요할 수 있음을 시사합니다.
이 연구는 의료 AI 의 로컬 배포가 가져올 수 있는 잠재적 위험을 식별하고, 안전하고 신뢰할 수 있는 임상 AI 시스템 구축을 위한 과학적 근거를 제공합니다.