Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

이 논문은 저자원 의료 환경 배포를 위해 소규모 오픈소스 LLM 들의 프롬프트 민감도와 답변 일관성을 평가한 결과, 일관성이 높다고 해서 정확도가 보장되는 것은 아니며, 특히 역할극 프롬프트는 정확도를 저하시키고 도메인 사전학습만으로는 지시 준수가 어렵다는 점을 밝혀 Llama 3.2 가 정확성과 신뢰성 측면에서 가장 균형 잡힌 성능을 보였음을 제시합니다.

Shravani Hariprasad

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"작은 인공지능 (AI) 이 병원에서 환자를 진료할 때 얼마나 믿을 수 있는가?"**에 대한 연구입니다.

클라우드나 거대한 서버 없이, 일반 컴퓨터나 작은 기기에서도 돌아갈 수 있는 '작은 AI'들이 의료 현장에 도입되고 있습니다. 하지만 이 작은 AI 들이 질문을 조금만 다르게 해도 답변이 뚝뚝 끊기거나, 똑같은 틀린 답을 계속 반복하는지 확인한 것입니다.

이 복잡한 연구를 세 가지 핵심 비유로 쉽게 설명해 드리겠습니다.


1. "똑같은 틀린 답을 반복하는 똑똑한 바보" (일관성 vs 정확성)

연구의 가장 놀라운 발견은 **"AI 가 일관되게 대답한다고 해서, 그 답이 맞다는 뜻은 아니다"**라는 것입니다.

  • 비유: imagine imagine 한 무식하지만 자신감 넘치는 길 안내원을 상상해 보세요.
    • 당신이 "서울역으로 가는 길은?"이라고 물으면 "저기 왼쪽으로 가세요"라고 답합니다.
    • "서울역은 어디에 있나요?"라고 다르게 물어도, "아무튼 왼쪽으로 가세요"라고 똑같이 답합니다.
    • 일관성 (Consistency): 이 안내원은 질문을 어떻게 바꾸든 항상 같은 답을 줍니다. 매우 '일관적'이고 '신뢰할 만해' 보입니다.
    • 정확성 (Accuracy): 하지만 실제로 서울역은 오른쪽에 있습니다. 그는 일관되게 틀린 길을 안내하고 있는 것입니다.

이 연구에서 Gemma 2라는 모델이 바로 이런 경우였습니다. 질문을 바꿔도 항상 같은 답을 줘서 '일관성' 점수는 최고였지만, 정작 정답률은 가장 낮았습니다. 의료 현장에서 이런 AI 는 환자에게 "무조건 이 약을 드세요"라고 일관되게 틀린 처방을 내릴 수 있어 매우 위험합니다.

반면, Llama 3.2는 질문을 바꾸면 답변이 조금씩 달라질 수 있었지만 (일관성은 중간), 정답을 맞히는 비율은 가장 높았습니다. 의료 현장에서는 "완벽하게 일관된 틀린 답"보다 "약간은 변할 수 있지만 맞는 답"이 훨씬 안전합니다.

2. "가면을 쓴 배우는 연기를 못 한다" (역할극 프롬프트의 위험)

연구진은 AI 에게 "당신은 이제부터 숙련된 의사입니다"라고 말하며 역할을 부여해 보았습니다 (Roleplay). 하지만 결과는 참담했습니다.

  • 비유: 연극 연습을 하다가 본연의 실력을 잃은 배우를 생각해 보세요.
    • 평소에는 문제를 잘 풀던 학생이, 갑자기 "당신은 수석 의사입니다"라고 가면 (역할) 을 쓰고 문제를 풀게 되면, 오히려 당황해서 엉뚱한 답을 내놓습니다.
    • 작은 AI 들은 "의사 역할을 해줘"라는 지시를 받으면, 그 역할극에 집중하느라 실제 의학 지식을 추론하는 능력을 잃어버렸습니다.

결론적으로, 의료 AI 에게 "의사처럼 행동해"라고 말하는 것은 오히려 실수를 부르는 독약이 될 수 있습니다. 가장 간단한 "질문만 던져줘" 방식이 가장 정확한 답을 얻는 길입니다.

3. "지식만 많다고 의사가 될 순 없다" (지식 vs 명령 따르기)

연구에는 Meditron-7B라는 특별한 모델도 참여했습니다. 이 모델은 수만 편의 의학 논문과 가이드라인을 읽어서 의학 지식은 엄청나게 많지만, "질문에 답해라"라는 명령을 따르는 훈련은 받지 않은 상태였습니다.

  • 비유: 책을 10 만 권 읽었지만, 질문에는 대답하지 않는 도서관 사서를 상상해 보세요.
    • 그 사서는 의학 지식을 다 알고 있습니다. 하지만 당신이 "이 환자에게 어떤 약을 줘야 할까요?"라고 물으면, 그는 책 내용을 길게 읊어대거나 아예 대답을 안 합니다.
    • 연구 결과, 이 모델은 질문의 99% 에서 "알 수 없음 (UNKNOWN)"이라고 답하거나 형식에 맞지 않는 엉뚱한 글을 써냈습니다.

이는 의학 지식 (Domain Knowledge) 이 아무리 많아도, 사용자의 지시를 정확히 따르는 능력 (Instruction Following) 이 없으면 의료 현장에서 쓸모가 없다는 것을 보여줍니다.


🏥 결론: 병원에 AI 를 도입할 때 무엇을 믿어야 할까?

이 연구는 저개발 지역이나 인터넷이 잘 안 되는 곳에서도 쓸 수 있는 작은 AI를 어떻게 선택하고 사용해야 하는지 알려줍니다.

  1. 일관성만 믿지 마세요: AI 가 똑같은 답을 계속 내놓는다고 해서 믿지 마세요. 그 답이 틀릴 수도 있습니다.
  2. 역할극은 금지: "의사처럼 말해줘" 같은 말은 하지 마세요. 그냥 질문만 던지는 것이 가장 좋습니다.
  3. 가장 균형 잡힌 선택: 연구 결과, Llama 3.2라는 모델이 "정답률"과 "명령을 잘 따르는 능력" 사이에서 가장 좋은 균형을 보여주었습니다.
  4. 지식보다 태도: 의학 지식이 많더라도, 질문을 제대로 이해하고 답을 내놓는 '태도 (명령 수행 능력)'가 없으면 쓸모가 없습니다.

한 줄 요약:

"작은 AI 를 병원에 쓸 때는, 일관성 있게 틀린 답을 주는 AI보다 질문을 잘 듣고 정확한 답을 주는 AI를 선택해야 하며, 의사 역할을 시키는 말은 하지 않는 것이 안전합니다."