Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

이 논문은 영국 정부 공중보건 정보를 기반으로 한 새로운 벤치마크 'PubHealthBench'를 개발하여 최신 LLM 들이 객관식 질문에서는 인간을 능가하는 높은 정확도를 보이지만, 자유형 응답에서는 75% 미만의 성능을 보여 추가적인 안전장치가 필요함을 밝혔습니다.

Joshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏥 "건강한 AI?" 영국 공공보건 지식을 테스트한 보고서

이 논문은 **"인공지능 (AI) 챗봇이 영국의 공공보건 정보 (예: 백신 접종 시기, 식중독 예방법 등) 를 얼마나 잘 알고 있을까?"**를 확인한 실험 결과입니다. 연구진은 영국 보건안전청 (UKHSA) 소속으로, AI 가 잘못된 정보를 알려주면 국민들의 건강에 큰 위험이 될 수 있다고 판단해 이 연구를 진행했습니다.

이 복잡한 연구를 일상적인 비유로 쉽게 설명해 드릴게요.


1. 연구 배경: "AI 는 의사가 될 수 있을까?"

요즘 AI 챗봇은 우리 질문에 아주 잘 대답합니다. 하지만 만약 AI 가 "감기에 걸리면 이 약을 드세요"라고 엉뚱한 약을 추천한다면 어떨까요? 특히 영국의 정부 보건 지침은 수시로 바뀌고 매우 전문적입니다.

연구진은 **"AI 가 마치 공인된 보건 전문가처럼 정확한 정보를 줄 수 있을까?"**를 확인하기 위해 새로운 시험지인 **'PubHealthBench'**를 만들었습니다. 이는 마치 **영국 보건부에서 출제한 8,000 문항의 '최고 난이도 보건 자격증 시험'**과 같습니다.

2. 시험지 만들기: "수천 권의 두꺼운 책을 AI 가 읽게 하기"

연구진은 영국 정부 웹사이트에 있는 687 개의 보건 지침 문서 (PDF 와 웹페이지) 를 모두 긁어모았습니다.

  • 자동화 공장: 사람이 8,000 개의 문제를 직접 만들면 몇 년이 걸립니다. 그래서 연구진은 AI 를 이용해 이 문서들을 분석하고, 자동으로 **객관식 문제 (MCQA)**와 **주관식 문제 (Free Form)**를 만들어냈습니다.
  • 품질 관리: 만들어진 문제 중에는 "정답이 애매한 것"이나 "오타가 있는 것"도 있었습니다. 인간 전문가들이 800 개의 문제를 직접 검토하여 "이건 진짜 시험 문제다"라고 승인한 뒤, 최종 시험지를 완성했습니다.

3. 시험 결과: "객관식은 천재, 주관식은 초보?"

24 개의 최신 AI 모델 (GPT-4.5, Claude, Llama 등) 에게 이 시험을 치르게 했습니다. 결과는 매우 흥미로웠습니다.

A. 객관식 시험 (Multiple Choice) 📝

  • 상황: 정답이 A, B, C, D 중에 하나라고 알려주고 고르게 하는 방식입니다.
  • 결과: 최신 AI 모델들은 90% 이상의 압도적인 점수를 받았습니다. 심지어 일반인 (검색 엔진을 사용하는 사람) 보다 훨씬 잘 풀었습니다.
  • 비유: 마치 **"정답지가 있는 시험"**을 치는 상황입니다. AI 는 기억력도 좋고, 보기 중에서 가장 그럴듯한 답을 골라내는 능력이 탁월합니다.

B. 주관식 시험 (Free Form) 💬

  • 상황: 보기가 없습니다. "감기에 걸렸을 때 어떻게 해야 하나요?"라고 물으면 AI 가 직접 설명을 해야 합니다.
  • 결과: 점수가 급격히 떨어졌습니다. 최고의 모델도 75% 를 넘지 못했습니다.
  • 비유: **"정답지 없이, 내 기억만으로 설명하는 상황"**입니다.
    • AI 는 때로는 없는 정보를 지어내거나 (할루시네이션),
    • 중요한 정보를 빼먹거나,
    • 혹은 시기를 잘못 말해 (예: "지금 백신을 맞으세요"라고 하지만 실제로는 2 주 뒤여야 함) 위험한 상황을 만들기도 했습니다.

4. 핵심 발견: "누가 더 잘할까?"

  • 최고 모델 vs 일반 모델: 가장 최신이고 비싼 AI 모델 (GPT-4.5, o1 등) 은 객관식에서 인간을 압도했지만, 주관식에서는 여전히 실수가 많았습니다. 반면, 작고 저렴한 AI 모델들은 두 방식 모두에서 큰 실수를 했습니다.
  • 대상별 차이: AI 는 일반 시민을 위한 정보는 잘 알고 있었지만, 의사나 전문가를 위한 복잡한 임상 지침은 상대적으로 잘 모르고 있었습니다.
    • 왜 중요할까요? 일반인들이 AI 챗봇을 가장 많이 쓰는데, 이 부분에서 실수가 나면 가장 큰 피해가 발생할 수 있기 때문입니다. 다행히 일반인용 정보는 비교적 잘 알고 있었습니다.

5. 결론: "AI 는 훌륭한 조수지만, 의사는 아니다"

이 연구는 두 가지 중요한 메시지를 줍니다.

  1. 기대: 최신 AI 는 영국 보건 지침에 대해 놀라울 정도로 많은 지식을 가지고 있습니다. 객관식 퀴즈에서는 인간 전문가 못지않게 훌륭합니다.
  2. 경고: 하지만 **자유롭게 대화할 때 (주관식)**는 여전히 **환각 (거짓말)**을 하거나 정보를 잘못 전달할 위험이 큽니다.

마무리 비유:
AI 는 **"방대한 도서관을 모두 읽은 초지능 사서"**와 같습니다. 책에서 정보를 찾아내는 능력 (객관식) 은 천재적이지만, 그 정보를 바탕으로 실제 환자를 치료하거나 복잡한 상황을 판단할 때 (주관식) 는 아직 인간 전문가의 도움을 받아야 합니다.

따라서, 우리 건강과 직결된 정보를 AI 에게 물어볼 때는 **"AI 가 말한 내용을 반드시 공식 웹사이트나 전문가와 다시 한번 확인하는 습관"**이 필요합니다.