Quantifying Hallucinations in Language Language Models on Medical Textbooks

이 논문은 의료 교과서 기반 질문응답에서 LLaMA-70B-Instruct 모델의 환각 발생률 (19.7%) 을 측정하고, 환각률이 낮을수록 임상 전문가의 유용성 평가가 높아지는 경향이 있음을 규명했습니다.

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏥 핵심 비유: "완벽해 보이는 로봇 의사"

상상해 보세요. 거대한 도서관 (학습 데이터) 을 모두 읽은 로봇 의사가 있습니다. 이 로봇은 의학 시험에서 100 점 만점을 맞을 정도로 똑똑해 보입니다. 하지만 문제는 이 로봇이 자신도 모르게 엉뚱한 사실을 지어내거나 (환각, Hallucination), 책에 없는 내용을 마치 있는 것처럼 말하는 것입니다.

이 연구는 "로봇 의사가 환자를 진료할 때, 얼마나 자주 이런 위험한 거짓말을 할까?"를 확인하기 위해 새로운 실험을 진행했습니다.

🔍 연구의 배경: 왜 새로운 시험이 필요할까?

기존의 의학 시험은 로봇이 "A, B, C, D 중 정답을 고르라"는 식으로 출제되었습니다. 하지만 로봇은 이 시험을 볼 때 과거에 본 문제를 암기해서 맞출 뿐, 진짜 의학 지식을 이해하는지 알 수 없었습니다. 마치 시험 문제집을 통째로 외운 학생이 실제 임상 현장에서 환자를 보는 것과 비슷합니다.

그래서 연구팀은 **"이전에는 한 번도 본 적 없는 새로운 의학 책 (교과서) 의 한 구절을 보여주고, 그 내용만으로 답을 하라"**는 새로운 시험을 만들었습니다.

🧪 실험 과정: 두 가지 미션

연구팀은 두 가지 실험을 했습니다.

  1. 미션 1 (로봇의 거짓말 찾기):

    • 유명한 오픈소스 로봇 (LLaMA-70B) 에게 새로운 의학 책 구절을 주고 질문을 시켰습니다.
    • 결과: 로봇이 만든 답 중 **약 20% (5 개 중 1 개)**는 책에 없는 내용을 지어내거나 틀린 정보를 포함하고 있었습니다.
    • 재미있는 점: 로봇의 말투는 매우 전문적이고 그럴듯했습니다. 98.8% 의 답이 "아주 그럴듯해 보였지만", 그중 20% 는 사실은 거짓말이었습니다. 즉, 겉보기엔 완벽해 보이지만 속은 빈 껍데기일 수 있다는 경고입니다.
  2. 미션 2 (여러 로봇 비교 & 의사 평가):

    • 다양한 크기의 로봇 8 개를 시험에 참여시켰고, 실제 현직 의사들에게 이 답들을 평가하게 했습니다.
    • 결과:
      • 크기가 큰 로봇일수록 거짓말을 덜 했습니다. (작은 로봇은 27% 거짓말, 큰 로봇은 9% 거짓말)
      • 하지만 아무리 큰 로봇이라도 100% 거짓말을 안 하는 로봇은 없었습니다.
      • 의사들의 평가: 거짓말이 적은 로봇일수록 의사들이 "이 답은 쓸모있다"고 평가했습니다.

💡 중요한 발견: "역발상" 질문이 로봇을 당황시킨다

연구팀은 로봇을 더 잘 테스트하기 위해 **"거꾸로 묻는 질문"**을 사용했습니다.

  • 일반 질문: "이 약은 HIV 환자에게 안전한가요?"
  • 역발상 질문: "이 약은 HIV 환자에게 안전하지 않은 약은 무엇인가요?"

그랬더니 로봇들이 거꾸로 묻는 질문에서 훨씬 더 많이 헛소리를 했습니다. 마치 거울에 비친 글자를 읽으려다 혼란을 겪는 것처럼, 로봇은 부정문이나 복잡한 조건을 처리할 때 약점을 드러냈습니다.

💰 결론: "로봇은 아직 혼자 진료할 수 없다"

이 연구의 결론은 매우 명확합니다.

  1. 로봇은 여전히 위험합니다: 아무리 똑똑해 보여도, 의학 같은 고위험 분야에서는 로봇이 혼자서 환자를 진료하게 하면 안 됩니다. 5 명 중 1 명은 잘못된 정보를 줄 수 있기 때문입니다.
  2. 검증 비용이 비쌉니다: 로봇이 만든 답을 100% 믿을 수 없기 때문에, 실제 인간 의사 (전문가) 가 하나하나 확인해 봐야 합니다. 이 '사람이 확인하는 과정'이 자동화 시스템의 가장 큰 비용이자 병목 현상입니다.
  3. 미래의 방향: 로봇을 의학에 쓰려면, 로봇이 답을 내면 반드시 인간 전문가가 "이게 책에 있는 내용인가?"를 확인하는 시스템이 필수적입니다.

📝 한 줄 요약

"거대 인공지능은 의학 시험에서 100 점 만점을 받을 수 있지만, 실제 진료에서는 5 번 중 1 번은 엉뚱한 거짓말을 합니다. 따라서 로봇이 의사를 대체하기 전까지는, 반드시 인간 의사가 로봇의 말을 하나하나 검증해야 합니다."

이 연구는 인공지능이 얼마나 발전했는지 자랑하는 것이 아니라, **"의사라는 직업에서 인공지능의 한계를 명확히 보여주고, 안전을 위해 인간이 반드시 개입해야 함"**을 강조하는 중요한 경고입니다.