Biomedical Large Language Models and Prompt Engineering for Causality Assessment of Individual Case Safety Reports in Pharmacovigilance

본 연구는 5 가지 생물의학 대규모 언어 모델과 프롬프트 전략의 조합을 평가한 결과, 인간 전문가와의 일치도가 64% 에 그치고 주요 평가 항목에서 일관성이 부족하여 개별 사례 안전성 보고서의 인과성 평가에 아직 실용화하기에는 부적합함을 밝혔습니다.

Heckmann, N. S., Papoutsi, D. G., Barbieri, M. A., Battini, V., Molgaard, S. N., Schmidt, S. O., Melskens, L., Sessa, M.

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기
⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

🍎 핵심 비유: "AI 요리사와 레시피"

이 연구를 이해하기 위해 요리 상황을 상상해 보세요.

  1. 상황 (약물 부작용 보고서):

    • 약을 먹고 이상한 증상이 나타난 환자들로부터 온 수백 개의 편지 (보고서) 가 있습니다.
    • 이 편지를 읽어서 **"이 증상이 정말 약 때문일까? 아니면 다른 병 때문일까?"**를 판단해야 합니다. 이를 '인과성 평가'라고 합니다.
  2. 인간 전문가 (요리사):

    • 약학자나 의사 같은 전문가들은 이 편지들을 꼼꼼히 읽고, 경험과 논리를 바탕으로 "약 때문일 확률이 80% 야"라고 결론을 내립니다.
  3. 인공지능 (AI 요리사):

    • 연구팀은 **의학 책과 논문만 먹고 자란 특수한 AI (Biomedical LLM)**들을 데려와서 이 편지들을 읽게 했습니다.
    • 그리고 이 AI 들에게 **"이렇게 생각해보자 (프롬프트)"**라는 다양한 지시 방법을 주었습니다.
  4. 실험 목표:

    • "AI 요리사가 인간 요리사와 똑같은 결론을 내릴 수 있을까?"를 확인하는 것입니다.

🔍 실험 내용: 어떤 AI 를 썼을까?

연구팀은 세 가지 다른 'AI 요리사'를 테스트했습니다.

  • TinyLlama: 작고 빠른 AI (간단한 일에는 좋지만 복잡한 건 힘들어함).
  • Medicine LLaMA-3: 의학 전문으로 훈련된 중형 AI.
  • MedLLaMA: 또 다른 의학 전문 AI.

이들에게 두 가지 다른 **'레시피 (알고리즘)'**를 적용했습니다.

  • 나란조 (Naranjo) 레시피: 10 가지 질문을 하나씩 체크하는 점수제 방식 (A, B, C 점수).
  • WHO-UMC 레시피: 전체적인 흐름을 보고 판단하는 서술형 방식.

📊 실험 결과: AI 는 잘했을까?

결론부터 말하면, **"전통적인 일반 AI 보다 훨씬 나아졌지만, 아직 인간 전문가를 완전히 대체할 수는 없다"**입니다.

1. 좋은 점 (성공):

  • 의학 전문 AI 는 일반 AI 보다 훨씬 잘했습니다.
    • 일반 AI 는 "약 때문일 수도 있고, 아닐 수도 있어"라고 막연하게 말했지만, 의학 전문 AI 는 약과 관련된 전문 지식을 바탕으로 더 논리적인 판단을 내렸습니다.
    • 특히 나란조 (점수제) 레시피를 사용할 때, AI 가 인간 전문가와 약 64% 정도 일치하는 결론을 내렸습니다. 이는 이전 연구 (34%) 보다 훨씬 높은 성과입니다.
    • 비유: "일반 AI 는 요리 레시피를 다 읽지 못해서 엉뚱한 요리를 했지만, 의학 전문 AI 는 재료 (약) 에 대해 잘 알고 있어서 맛을 꽤 잘 냈어요."

2. 나쁜 점 (실패):

  • 복잡한 추론은 여전히 어렵습니다.
    • "이 증상이 약 때문인지, 아니면 환자가 원래 앓고 있던 병 때문인지"를 구별하는 것 (대안적 원인) 이나, "시간적으로 맞는지"를 판단하는 것은 AI 가 자주 틀렸습니다.
    • 가장 큰 문제: "이유를 못 말해요."
      • AI 가 점수를 매겨서 "약 때문이야 (Probable)"라고 답할 때, 왜 그런지 설명을 제대로 못 하는 경우가 많았습니다.
      • 비유: AI 가 "이 요리는 소금 때문이야!"라고 외치는데, 정작 소금을 넣은 흔적은 없거나, "내가 그렇게 느꼈어"라고만 말합니다. 약국에서는 "왜?"라는 질문에 확실한 근거가 있어야 하므로, 이 부분이 치명적입니다.
    • 할루시네이션 (망상): 없는 사실을 있는 것처럼 말하거나, 질문을 그대로 반복하는 실수도 있었습니다.

3. 레시피의 중요성:

  • 나란조 (점수제) 레시피는 AI 가 잘 따라했습니다.
  • 하지만 WHO-UMC (서술형) 레시피는 AI 가 혼란을 겪었습니다. AI 는 명확한 단계가 있는 점수제를 좋아하지만, 유연하게 판단해야 하는 서술형 방식은 어려워했습니다.

💡 이 연구가 우리에게 주는 교훈

이 연구는 **"AI 가 약사나 의사를 완전히 대신할 날은 아직 멀었다"**는 것을 보여줍니다.

  • 도구로서의 가능성: AI 는 인간 전문가가 읽어야 할 보고서 중 '분명한 사실'이나 '간단한 점수 계산'을 먼저 처리해 주는 유능한 보조 도구가 될 수 있습니다.
  • 인간의 역할: 하지만 최종 판단과 그 이유를 설명하는 것은 여전히 **사람 (Human-in-the-loop)**이 해야 합니다. 특히 환자 안전과 관련된 일에서는 AI 가 "왜?"라고 물었을 때 논리적인 근거를 제시하지 못하면 신뢰할 수 없기 때문입니다.

한 줄 요약:

"의학 전문 AI 는 일반 AI 보다 훨씬 똑똑해져서 약물 부작용 보고서를 분석하는 데 큰 도움을 줄 수 있지만, 아직은 '왜 그런 결론인가?'에 대한 확실한 이유를 설명하는 데는 인간 전문가의 눈과 두뇌가 꼭 필요합니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →