Medical errors in large language models revealed using 1,000 synthetic clinical transcripts

이 논문은 1,000 건의 합성 임상 기록을 활용한 대규모 시뮬레이션을 통해, 높은 진단 정확도에도 불구하고 불완전한 정보 입력 시 필수 검사를 누락하거나 위험한 triage 결정을 내리는 등 대형 언어 모델의 치명적인 안전성 결함과 성별 편향이 드러났음을 보고합니다.

원저자: Auger, S. D., Scott, G.

게시일 2026-03-25
📖 3 분 읽기☕ 가벼운 읽기

원저자: Auger, S. D., Scott, G.

원본 논문은 CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ⚕️ 이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

1. 실험실의 비유: "교과서 vs. 실제 병원"

기존의 AI 평가 방식은 마치 교과서 속의 완벽한 환자를 보는 것과 같았습니다.

  • 기존 방식: "머리가 아파요. 3 일째 지속되고, 빛을 보면 더 아파요. 진단은 편두통입니다."처럼 정보가 딱딱 정리된 짧은 문장만 주고 AI 가 답을 맞히게 했습니다.
  • 이 연구의 방식: 연구팀은 1,000 명의 가짜 환자를 만들어냈습니다. 이들은 실제 병원에 오는 사람처럼 말도 안 되는 이야기를 하거나, 기억이 안 나거나, 말을 너무 많이 하거나, 영어를 서툴게 하는 등 정말 '지저분하고' 불완전한 정보를 제공했습니다.

비유: 기존 시험은 "완벽하게 정리된 레시피"를 보고 요리를 시켰다면, 이 연구는 "재료가 반만 있고, 요리사가 말을 잘 못 하고, 요리 도구가 고장 난 상황"에서 요리를 시킨 것입니다.

2. AI 의 실수: "정보 부족할 때 오히려 더 자신 있게?"

가장 무서운 발견은 AI 가 정보가 부족할 때 오히려 더 자신 있게 위험한 조언을 했다는 점입니다.

  • 사람 의사의 반응: 환자가 "머리가 아픈데 언제부터인지 모르겠어요"라고 말하면, 의사는 "정보를 더 알아야겠네. 뇌수술이나 척추 천자를 해봐야겠다"라고 생각합니다. (위험을 감수하고 더 확인하려는 태도)
  • AI 의 반응: 같은 말을 들으면 AI 는 "아, 정보가 없으니 그냥 편두통이겠지. 집에서 쉬세요"라고 확신에 차서 말합니다.

비유: AI 는 정보의 빈 공간을 '아무것도 없음'으로 해석합니다. 하지만 의사는 "정보가 없다는 건 '아직 위험할 수도 있음'을 의미한다"고 생각합니다.

  • 치명적인 예시: 뇌출혈 (지주막하 출혈) 이 의심되는 환자가 정보를 제대로 주지 않았을 때, AI 는 100% 의 확률로 "척추 천자 (진단 시술) 를 하지 마세요"라고 답했습니다. 이는 환자를 죽음으로 몰고 갈 수 있는 조언입니다.

3. 성별 편견과 '미니' 모델의 위험

연구는 AI 가 성별에 따라 다르게 행동하기도 한다고 밝혔습니다.

  • 여성 환자: 같은 위험한 증상이라도 여성 환자에게는 "집에서 쉬세요"라고 말해버리는 경우가 남성보다 훨씬 많았습니다. (특히 30~50 대 여성)
  • 모델의 차이: 최신 고성능 모델 (GPT-5.2) 은 꽤 잘했지만, 우리가 흔히 쓰는 **가벼운 버전 (GPT-5-mini)**은 훨씬 더 위험했습니다.
    • 비유: 고성능 모델은 '숙련된 주치 의사'라면, 가벼운 버전은 '의대 1 학년 학생'이면서 **자신감은 100%**인 것과 같습니다. 정보가 부족할 때 가벼운 버전은 오히려 위험한 진통제 (코데인) 를 처방하거나, 필요한 검사를 안 하라고 조언했습니다.

📝 한 줄 요약

이 연구는 **"AI 가 교과서 문제에서는 천재일지 몰라도, 실제처럼 정보가 부족하고 messy 한 상황에서는 오히려 사람을 죽일 수 있는 위험한 조언을 자신 있게 내뱉는다"**는 것을 1,000 개의 가짜 환자를 통해 증명했습니다.

💡 우리가 배워야 할 교훈

  1. AI 를 맹신하지 마세요: 특히 정보가 불완전한 상황에서는 AI 가 "모른다"고 말하기보다 "잘못된 확신"을 가질 수 있습니다.
  2. 모델을 가려서 써야 합니다: 모든 AI 가 똑같은 것이 아닙니다. 의료 같은 중요한 분야에서는 성능이 떨어지는 '가벼운' 모델을 쓰면 안 됩니다.
  3. 새로운 검증이 필요합니다: 이제부터는 AI 를 평가할 때 "정답을 몇 개 맞췄나?"가 아니라 **"위험한 상황에서 얼마나 안전하게 행동하는가?"**를 테스트해야 합니다.

이 연구는 AI 가 의사가 되기 전에, 인간처럼 '위험을 감지하고 조심하는' 태도를 배워야 함을 강력하게 경고하고 있습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →