원저자: Liqi Zhou, Jiafu Li

게시일 2026-05-18✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

원저자: Liqi Zhou, Jiafu Li

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ⚕️ 이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

마치 병원 응급실을 상상해 보세요. 하지만 문으로 들어오는 대신 수천 명의 사람들이 컴퓨터 화면에 질문을 타이핑하고 있습니다. 어떤 이는 가벼운 감기에 대해 묻고, 어떤 이는 정기적인 진료 예약을 필요로 하며, 어떤 이는 하루 이내에 의사의 진료가 필요한 증상을 호소하고, 소수는 생명에 위협을 주는 응급 상황에 처해 있습니다.

병원이 직면한 과제는 다음과 같습니다: 수천 개의 메시지를 인간이 하나하나 읽지 않고도 어떻게 빠르고 안전하게 분류할 수 있을까요?

이 논문은 인공지능 (AI) 을 활용한 새로운 형태의 '디지털 분류기'에 대한 시범 주행과 같습니다. 그들이 무엇을 했으며 무엇을 발견했는지 간단한 비유를 통해 정리해 보겠습니다.

문제: '노이즈'가 많은 받은 편지함

온라인 환자 메시지는 지저분합니다. 사람들은 의사처럼 말하지 않고 친구처럼 글을 씁니다. 병에 걸린 지 얼마나 되었는지, 통증이 얼마나 심한지, 혹은 다른 건강 문제가 있는지 언급하는 것을 잊어버리기도 합니다.

목표: 이 메시지들을 네 개의 통으로 분류합니다:
1. 자가 관리: "집에 머물고 차를 드세요. 괜찮아질 거예요."
2. 방문 예약: "다음 주에 예약을 잡으세요."
3. 긴급 검토: "오늘이나 내일 의사와 통화하세요."
4. 응급 상황: "911 에 전화하거나 지금 바로 응급실로 가세요."

실험: '선생님' 대 '똑똑한 학생'

연구자들은 새로운 강력한 AI 모델 (대규모 언어 모델 또는 LLM) 이 기존에 사용되던 단순한 컴퓨터 프로그램보다 이 분류 작업을 더 잘 수행할 수 있는지, 특히 미리 라벨이 지정된 방대한 예시들을 학습할 수 없는 상황에서도 더 잘할 수 있는지 확인하고자 했습니다.

구식 방법 (지도 학습 모델): 700 개의 구체적인 환자 메시지와 그에 대한 답변을 외워 규칙을 배워야 하는 학생을 상상해 보세요. 이들은 '실버 라벨' (인간 의사가 아닌 AI 가 생성한 답변) 로 훈련됩니다.
신식 방법 (프롬프트 기반 LLM): 수백만 권의 책을 읽은 매우 똑똑한 학생을 상상해 보세요. 700 개의 예시를 외우는 대신, 몇 가지 규칙과 몇 가지 예시 (소수 샷 프롬프팅) 만 주고 "이 새로운 메시지는 어디로 가야 할까요?"라고 묻습니다.

결과: 누가 경주를 이겼을까?

1. '똑똑한 학생' (LLM) 이 더 잘했지만, 압도적인 차이는 아니었습니다.
가장 뛰어난 AI 모델 (Claude Haiku 4.5) 은 학습을 위해 12 개의 예시를 제공받았을 때 약 **47.5%**의 정답률을 보였습니다. 반면 가장 뛰어난 '구식' 모델 (BioBERT) 은 약 **37.8%**의 정답률을 보였습니다.

주의점: 통계적으로 새로운 AI 가 확실히 '더 낫다'고 말할 만큼 차이가 크지는 않았습니다. 점수 범위가 겹쳤기 때문입니다. 마치 한 선수가 약간 앞서서 경주를 마쳤지만, 그 간격이 너무 좁아 다시 달리지 않는 한 누가 더 빠른지 100% 확신할 수 없는 두 선수가 경주를 치른 것과 같습니다.

2. '성적'보다 '안전 점수'가 더 중요합니다.
분류 작업에서 비상 상황 (응급) 을 놓치는 것은 비상 상황이 아닌 것을 소방서에 보내는 것 (과잉 분류) 보다 더 나쁩니다.

연구자들은 AI 모델들이 일반적인 '성적' (Macro-F1) 에서는 더 나아졌지만, 안전 면에서는 훨씬 더 뛰어났다는 사실을 발견했습니다.
AI 모델들은 실제 응급 상황을 거의 놓치지 않았습니다 (테스트에서 심각한 과소 분류율은 0% 였음). 반면 기존 모델들은 위험한 사례를 약 30% 놓쳤습니다.
비유: AI 는 신분증 확인은 약간 느리지만 실제 위협을 포착하는 데는 훨씬 뛰어난 보안 요원과 같습니다.

3. '혼란스러운 중간 지대'는 여전히 어렵습니다.
AI 는 '자가 관리' (쉬움) 와 '응급 상황' (명확함) 을 식별하는 데 뛰어났습니다. 하지만 '중간 지대', 즉 **"긴급 임상 검토"**에서는 어려움을 겪었습니다.

비유: 종이 베기와 심장마비의 차이를 구분하는 것은 쉽습니다. 하지만 내일 의사가 필요한 심한 복통과 일주일 더 기다려도 되는 복통의 차이를 구분하는 것은 매우 어렵습니다. 가장 똑똑한 AI 조차도 여기서 혼란을 겪었습니다.

4. '두 개의 머리' 전략 (합의)
연구자들은 교묘한 트릭을 시도했습니다. 두 개의 서로 다른 AI 모델을 사용하여 메시지를 분류한다면 어떨까요?

두 AI 가 동의하면: "좋습니다, 우리 둘 다 이것이 '자가 관리'라고 생각합니다. 받아들여 합시다." (이 방법은 매우 잘 작동했습니다).
AI 들이 이견을 보이면: "우리는 합의할 수 없습니다. 이 메시지를 인간 의사가 보게 합시다."
결과: 이 '두 개의 머리' 접근법은 안전망을 만들었습니다. 이는 AI 가 혼자 일할 수 있다는 뜻이 아니라, AI 가 인간이 까다로운 사례에 집중할 수 있도록 도와주는 필터 역할을 할 수 있다는 뜻입니다.

결론: 대체제가 아닌 유용한 조력자

이 논문은 이러한 AI 모델들이 혼자 일할 준비가 되지 않았다고 결론 내립니다. 이들은 '자율적인' 의사가 아닙니다.

대신, 이를 고급 기술의 분류 간호사 조력자로 생각하세요:

그들은 쉬운 '자가 관리' 질문들을 빠르게 분류할 수 있습니다.
그들은 명백한 응급 상황을 표시하여 누구도 놓치지 않도록 할 수 있습니다.
하지만 혼란스러운 중간 지대 사례의 경우, 그들은 반드시 메시지를 인간 의사에게 전달해야 합니다.

요약하자면: AI 는 인간이 업무량을 우선순위에 따라 정리하는 데 훌륭한 도구이지만, 환자 안전에 대한 최종 결정권자는 결코 되어서는 안 됩니다.

기술 요약: 온라인 환자 문의의 실행 가능한 분류 (Triage) 를 위한 퓨샷 (Few-Shot) 대규모 언어 모델

문제 정의

건강 플랫폼상의 온라인 환자 문의는 일반적으로 비공식적이며 불완전하고, 전문적인 평가 이전에 작성됩니다. 이러한 한계에도 불구하고, 의료 시스템은 이러한 메시지를 적절한 수준의 임상적 후속 조치로 연결할 수 있는 확장 가능한 방법이 필요합니다. 본 연구는 이 문제를 진단 생성이나 일반적인 의료 텍스트 분류와 구별되는 4 클래스 실행 가능 분류 (actionable triage) 작업으로 정의합니다. 목표는 환자 문의에 정확히 하나의 라우팅 라벨을 할당하는 것입니다:

자가 관리 (Self-care): 임상적 접촉 없이 가정에서 관리 가능한 경우.
방문 예약 (Schedule-visit): 비긴급 임상적 평가가 필요한 경우 (수일에서 수주).
긴급 임상 검토 (Urgent-clinician-review): 24~48 시간 내 신속한 검토가 필요한 경우.
응급실 의뢰 (Emergency-referral): 즉시 응급 평가가 필요한 경우.

이 작업은 환자 작성 텍스트에 주요 임상적 세부 사항 (지속 기간, 중증도, 생체 징후) 이 부족하고, 고위험 사례의 희소성, 그리고 과분류 (over-triage) 보다 과소분류 (under-triage, 긴급 사례 놓침) 가 더 위험한 임상적 비대칭성으로 인해 어렵습니다.

방법론

데이터 구축

본 연구는 익명화된 환자 - 의사 교환 데이터인 HealthCareMagic-100K 코퍼스를 활용합니다.

전처리: 20 토큰 미만 또는 500 토큰 초과의 메시지가 포함된 기록을 필터링하여 110,163 개의 사용 가능한 메시지를 남겼습니다.
층화 샘플링: 클래스 불균형 (특히 응급 사례의 부족) 을 해결하기 위해 키워드 기반 층화 샘플링 전략을 사용했습니다. 기록을 응급 키워드와 의사의 에스컬레이션 구절에 기반하여 점수를 매긴 후, 작업 풀을 고위험 문의가 풍부한 상태로 만들기 위해 (자가 관리, 방문 예약, 긴급, 응급) 버킷에 할당했습니다.
데이터 분할: 1,040 건의 작업 풀에서 세 개의 불교합 집합을 생성했습니다:
- 실버 학습 세트 (N=700): Claude Sonnet 4.5 에 의해 자동 라벨링됨. 지도 학습 베이스라인 훈련에 사용.
- 골드 평가 세트 (N=300): 두 명의 연구자가 정교화된 주석 지침을 사용하여 인간으로 보정함. 최종 평가에 사용.
- 퓨샷 풀 (N=40): 컨텍스트 학습 데모에 사용되는 고신뢰도 인간 검증 예시.

주석 및 라벨링

두 사람 파일럿과 6 차례의 정련을 통해 구조화된 주석 지침을 개발했습니다. 이는 "텍스트만으로 분류"를 강조하며, 활성 증상을 정보성 문의와 구분하고, 취약 계층에 대해서는 낮은 임계값을 적용합니다.

실버 라벨: Claude Sonnet 4.5 에 의해 생성됨.
골드 보정: 인간 검토자가 초기 Sonnet 라벨과 자신의 독립적 라벨을 비교했습니다. 골드 세트의 경우 38% 의 라벨이 수정되었으며, 이로 인해 Sonnet-인간 코헨의 $\kappa$ 는 0.35 로 나타나 인간 보정의 필요성을 강조했습니다.

실험 설정

본 연구는 저자원 조건 하에서 지도 학습 베이스라인과 **프롬프트를 적용한 대규모 언어 모델 (LLM)**을 비교합니다.

지도 학습 베이스라인:
- TF-IDF: 700 건 실버 세트로 훈련된 로지스틱 회귀, 랜덤 포레스트, XGBoost.
- BioBERT: 실버 세트로 미세 조정된 BioBERT-v1.1.
- 참고: "기본" (전체 700 예시) 과 "균형" (클래스당 91 예시로 다운샘플링) 훈련 조건 모두 평가됨.
프롬프트 적용 LLM: 파라미터 업데이트 없이 평가된 6 개 모델 (Llama3.1-8B, Qwen3-8B, Mistral-7B, DeepSeek-R1-7B, GPT-4o-mini, Claude Haiku 4.5).
프롬프트 조건: 모델은 0-샷, 4-샷 (클래스당 1 개 예시), 12-샷 (클래스당 3 개 예시) 설정에서 테스트됨.

평가 지표

주요 지표: 클래스 불균형을 고려한 Macro-F1.
안전 인지 지표: 응급 회상률, 긴급 이상 회상률, 과소분류율 (실제보다 낮은 중증도 예측), 심한 과소분류율 (2 단계 이상 차이).
합의 분석: 두 모델이 동의할 때만 예측을 자동 수용하고, 그렇지 않으면 인간 검토로 에스컬레이션하는 오라클 인간 - 루프 (HITL) 시뮬레이션.

주요 결과

분류 성능

지도 학습 베이스라인: 가장 강력한 지도 학습 베이스라인은 Macro-F1 0.378을 기록한 **BioBERT-v1.1 (기본)**이었습니다. 성능은 응급실 의류 클래스에서 특히 약했습니다 (F1 $\approx$ 0.26).
LLM 성능: 퓨샷 프롬프팅이 성능을 향상시켰습니다. 가장 강력한 모델인 **Claude Haiku 4.5 (12-샷)**는 Macro-F1 0.475를 달성했습니다. 다른 상위 모델로는 Llama3.1-8B (0.464) 와 Qwen3-8B (0.444) 가 있었습니다.
통계적 유의성: LLM 이 점 추정치에서 베이스라인을 능가했지만, 신뢰 구간은 겹쳤습니다. McNemar 검정 결과, Llama3.1-8B 만 BioBERT-v1.1 보다 유의하게 우수했으며, 상위 LLM 들 간에는 유의한 차이가 없었습니다.

클래스별 및 안전 성능

클래스 난이도: "자가 관리"는 LLM 에게 가장 쉬운 클래스였습니다 (F1 > 0.65). "긴급 임상 검토"는 모든 모델에서 가장 어려운 클래스로 남았습니다 (F1 < 0.35), 이는 중간 위험 사례의 모호성을 반영합니다.
안전 지표: LLM 은 지도 학습 베이스라인보다 우수한 안전 프로파일을 보여주었습니다.
- 과소분류: 모든 상위 LLM 구성은 골드 세트에서 0.000 의 심한 과소분류율을 달성한 반면, 지도 학습 베이스라인은 0.269 에서 0.308 사이였습니다.
- 회상률: GPT-4o-mini (12-샷) 는 Claude Haiku 4.5 보다 낮은 Macro-F1 을 보임에도 불구하고 가장 높은 긴급 이상 회상률 (0.984) 과 가장 낮은 과소분류율 (0.053) 을 달성했습니다.

프롬프트 민감도 및 합의

프롬프트 민감도: 퓨샷 프롬프팅으로 인한 성능 향상은 단조롭거나 균일하지 않았습니다. Claude Haiku 4.5 는 샷 수가 증가함에 따라 단조롭게 향상되었지만, Qwen3-8B 는 4-샷에서 정점을 찍었고, Llama3.1-8B 는 0-샷보다 4-샷에서 더 나쁜 성능을 보였습니다.
이중 모델 합의: 모델 간 합의는 라벨에 크게 의존했습니다.
- 자가 관리: 높은 합의 신뢰도 (합의 정확도 > 90%).
- 긴급 임상 검토: 낮은 합의 신뢰도 (합의 정확도 $\approx$ 25%).
- 오라클-HITL: 불일치를 인간으로 에스컬레이션하는 워크플로우를 시뮬레이션한 결과, 이론적 Macro-F1 이 최대 0.708 (GPT-4o-mini + Llama3.1-8B) 에 달하여 의사 결정 지원의 상당한 잠재력을 시사했습니다.

중요성 및 주장

본 논문은 프롬프트를 적용한 LLM 이 분류 우선순위 설정과 선택적 인간 검토를 지원할 수 있지만, 자율적 배포를 위한 준비는 되어 있지 않다고 결론지었습니다.

대체가 아닌 의사 결정 지원: 저자들은 LLM 의 가치는 작업별 미세 조정 없이 자유 텍스트 증상을 해석하고 복잡한 지침을 따를 수 있는 능력에 있다고 주장합니다. 그러나 "긴급 임상 검토" 사례 분류의 지속적인 어려움과 고위험 시나리오에서의 과소분류 위험은 자율적 라우팅을 배제합니다.
워크플로우 통합: 본 연구는 LLM 이 신뢰도가 높은 저위험 "자가 관리" 합의 사항을 처리하고, 고위험 또는 불확실한 사례는 인간 검토를 위해 플래그하는 선택적 예측 전략을 제안합니다.
안전 인지 평가: 논문은 Macro-F1 과 같은 집계 지표가 중요한 안전 트레이드오프를 흐리게 한다고 강조합니다. 과소분류를 최소화하는 모델은 F1 점수가 낮더라도 선호될 수 있으며, 이는 임상 NLP 에서 안전 인지 평가 프레임워크가 필요함을 시사합니다.
한계: 저자들은 단일 공개 코퍼스 사용, 골드 세트의 modest 한 크기 (특히 응급 사례), 지도 학습 훈련을 위한 실버 라벨 의존성, 그리고 오프라인 평가의 특성을 포함한 한계를 인정합니다. 업무량 감소나 안전에 대한 주장을 하기 전에 임상 전문가 검토를 통한 전향적 검증이 필요하다고 명시했습니다.

요약하자면, 이 연구는 온라인 환자 분류에서 LLM 을 위한 엄격한 벤치마크를 제공하며, 저자원 환경에서 퓨샷 LLM 이 전통적인 지도 학습 베이스라인을 능가하지만, 그 배포는 인간 감독과 라벨 의존적 신뢰 신호에 의해 엄격히 제한되어야 함을 보여줍니다.

Few-Shot Large Language Models for Actionable Triage Categorization of Online Patient Inquiries