Biomedical Large Language Models and Prompt Engineering for Causality Assessment of Individual Case Safety Reports in Pharmacovigilance

본 연구는 5 가지 생물의학 대규모 언어 모델과 프롬프트 전략의 조합을 평가한 결과, 인간 전문가와의 일치도가 64% 에 그치고 주요 평가 항목에서 일관성이 부족하여 개별 사례 안전성 보고서의 인과성 평가에 아직 실용화하기에는 부적합함을 밝혔습니다.

원저자: Heckmann, N. S., Papoutsi, D. G., Barbieri, M. A., Battini, V., Molgaard, S. N., Schmidt, S. O., Melskens, L., Sessa, M.

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

원저자: Heckmann, N. S., Papoutsi, D. G., Barbieri, M. A., Battini, V., Molgaard, S. N., Schmidt, S. O., Melskens, L., Sessa, M.

원본 논문은 CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ⚕️ 이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

🍎 핵심 비유: "AI 요리사와 레시피"

이 연구를 이해하기 위해 요리 상황을 상상해 보세요.

  1. 상황 (약물 부작용 보고서):

    • 약을 먹고 이상한 증상이 나타난 환자들로부터 온 수백 개의 편지 (보고서) 가 있습니다.
    • 이 편지를 읽어서 **"이 증상이 정말 약 때문일까? 아니면 다른 병 때문일까?"**를 판단해야 합니다. 이를 '인과성 평가'라고 합니다.
  2. 인간 전문가 (요리사):

    • 약학자나 의사 같은 전문가들은 이 편지들을 꼼꼼히 읽고, 경험과 논리를 바탕으로 "약 때문일 확률이 80% 야"라고 결론을 내립니다.
  3. 인공지능 (AI 요리사):

    • 연구팀은 **의학 책과 논문만 먹고 자란 특수한 AI (Biomedical LLM)**들을 데려와서 이 편지들을 읽게 했습니다.
    • 그리고 이 AI 들에게 **"이렇게 생각해보자 (프롬프트)"**라는 다양한 지시 방법을 주었습니다.
  4. 실험 목표:

    • "AI 요리사가 인간 요리사와 똑같은 결론을 내릴 수 있을까?"를 확인하는 것입니다.

🔍 실험 내용: 어떤 AI 를 썼을까?

연구팀은 세 가지 다른 'AI 요리사'를 테스트했습니다.

  • TinyLlama: 작고 빠른 AI (간단한 일에는 좋지만 복잡한 건 힘들어함).
  • Medicine LLaMA-3: 의학 전문으로 훈련된 중형 AI.
  • MedLLaMA: 또 다른 의학 전문 AI.

이들에게 두 가지 다른 **'레시피 (알고리즘)'**를 적용했습니다.

  • 나란조 (Naranjo) 레시피: 10 가지 질문을 하나씩 체크하는 점수제 방식 (A, B, C 점수).
  • WHO-UMC 레시피: 전체적인 흐름을 보고 판단하는 서술형 방식.

📊 실험 결과: AI 는 잘했을까?

결론부터 말하면, **"전통적인 일반 AI 보다 훨씬 나아졌지만, 아직 인간 전문가를 완전히 대체할 수는 없다"**입니다.

1. 좋은 점 (성공):

  • 의학 전문 AI 는 일반 AI 보다 훨씬 잘했습니다.
    • 일반 AI 는 "약 때문일 수도 있고, 아닐 수도 있어"라고 막연하게 말했지만, 의학 전문 AI 는 약과 관련된 전문 지식을 바탕으로 더 논리적인 판단을 내렸습니다.
    • 특히 나란조 (점수제) 레시피를 사용할 때, AI 가 인간 전문가와 약 64% 정도 일치하는 결론을 내렸습니다. 이는 이전 연구 (34%) 보다 훨씬 높은 성과입니다.
    • 비유: "일반 AI 는 요리 레시피를 다 읽지 못해서 엉뚱한 요리를 했지만, 의학 전문 AI 는 재료 (약) 에 대해 잘 알고 있어서 맛을 꽤 잘 냈어요."

2. 나쁜 점 (실패):

  • 복잡한 추론은 여전히 어렵습니다.
    • "이 증상이 약 때문인지, 아니면 환자가 원래 앓고 있던 병 때문인지"를 구별하는 것 (대안적 원인) 이나, "시간적으로 맞는지"를 판단하는 것은 AI 가 자주 틀렸습니다.
    • 가장 큰 문제: "이유를 못 말해요."
      • AI 가 점수를 매겨서 "약 때문이야 (Probable)"라고 답할 때, 왜 그런지 설명을 제대로 못 하는 경우가 많았습니다.
      • 비유: AI 가 "이 요리는 소금 때문이야!"라고 외치는데, 정작 소금을 넣은 흔적은 없거나, "내가 그렇게 느꼈어"라고만 말합니다. 약국에서는 "왜?"라는 질문에 확실한 근거가 있어야 하므로, 이 부분이 치명적입니다.
    • 할루시네이션 (망상): 없는 사실을 있는 것처럼 말하거나, 질문을 그대로 반복하는 실수도 있었습니다.

3. 레시피의 중요성:

  • 나란조 (점수제) 레시피는 AI 가 잘 따라했습니다.
  • 하지만 WHO-UMC (서술형) 레시피는 AI 가 혼란을 겪었습니다. AI 는 명확한 단계가 있는 점수제를 좋아하지만, 유연하게 판단해야 하는 서술형 방식은 어려워했습니다.

💡 이 연구가 우리에게 주는 교훈

이 연구는 **"AI 가 약사나 의사를 완전히 대신할 날은 아직 멀었다"**는 것을 보여줍니다.

  • 도구로서의 가능성: AI 는 인간 전문가가 읽어야 할 보고서 중 '분명한 사실'이나 '간단한 점수 계산'을 먼저 처리해 주는 유능한 보조 도구가 될 수 있습니다.
  • 인간의 역할: 하지만 최종 판단과 그 이유를 설명하는 것은 여전히 **사람 (Human-in-the-loop)**이 해야 합니다. 특히 환자 안전과 관련된 일에서는 AI 가 "왜?"라고 물었을 때 논리적인 근거를 제시하지 못하면 신뢰할 수 없기 때문입니다.

한 줄 요약:

"의학 전문 AI 는 일반 AI 보다 훨씬 똑똑해져서 약물 부작용 보고서를 분석하는 데 큰 도움을 줄 수 있지만, 아직은 '왜 그런 결론인가?'에 대한 확실한 이유를 설명하는 데는 인간 전문가의 눈과 두뇌가 꼭 필요합니다."

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →