Medical errors in large language models revealed using 1,000 synthetic clinical transcripts

이 논문은 1,000 건의 합성 임상 기록을 활용한 대규모 시뮬레이션을 통해, 높은 진단 정확도에도 불구하고 불완전한 정보 입력 시 필수 검사를 누락하거나 위험한 triage 결정을 내리는 등 대형 언어 모델의 치명적인 안전성 결함과 성별 편향이 드러났음을 보고합니다.

Auger, S. D., Scott, G.

게시일 2026-03-25
📖 3 분 읽기☕ 가벼운 읽기
⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 실험실의 비유: "교과서 vs. 실제 병원"

기존의 AI 평가 방식은 마치 교과서 속의 완벽한 환자를 보는 것과 같았습니다.

  • 기존 방식: "머리가 아파요. 3 일째 지속되고, 빛을 보면 더 아파요. 진단은 편두통입니다."처럼 정보가 딱딱 정리된 짧은 문장만 주고 AI 가 답을 맞히게 했습니다.
  • 이 연구의 방식: 연구팀은 1,000 명의 가짜 환자를 만들어냈습니다. 이들은 실제 병원에 오는 사람처럼 말도 안 되는 이야기를 하거나, 기억이 안 나거나, 말을 너무 많이 하거나, 영어를 서툴게 하는 등 정말 '지저분하고' 불완전한 정보를 제공했습니다.

비유: 기존 시험은 "완벽하게 정리된 레시피"를 보고 요리를 시켰다면, 이 연구는 "재료가 반만 있고, 요리사가 말을 잘 못 하고, 요리 도구가 고장 난 상황"에서 요리를 시킨 것입니다.

2. AI 의 실수: "정보 부족할 때 오히려 더 자신 있게?"

가장 무서운 발견은 AI 가 정보가 부족할 때 오히려 더 자신 있게 위험한 조언을 했다는 점입니다.

  • 사람 의사의 반응: 환자가 "머리가 아픈데 언제부터인지 모르겠어요"라고 말하면, 의사는 "정보를 더 알아야겠네. 뇌수술이나 척추 천자를 해봐야겠다"라고 생각합니다. (위험을 감수하고 더 확인하려는 태도)
  • AI 의 반응: 같은 말을 들으면 AI 는 "아, 정보가 없으니 그냥 편두통이겠지. 집에서 쉬세요"라고 확신에 차서 말합니다.

비유: AI 는 정보의 빈 공간을 '아무것도 없음'으로 해석합니다. 하지만 의사는 "정보가 없다는 건 '아직 위험할 수도 있음'을 의미한다"고 생각합니다.

  • 치명적인 예시: 뇌출혈 (지주막하 출혈) 이 의심되는 환자가 정보를 제대로 주지 않았을 때, AI 는 100% 의 확률로 "척추 천자 (진단 시술) 를 하지 마세요"라고 답했습니다. 이는 환자를 죽음으로 몰고 갈 수 있는 조언입니다.

3. 성별 편견과 '미니' 모델의 위험

연구는 AI 가 성별에 따라 다르게 행동하기도 한다고 밝혔습니다.

  • 여성 환자: 같은 위험한 증상이라도 여성 환자에게는 "집에서 쉬세요"라고 말해버리는 경우가 남성보다 훨씬 많았습니다. (특히 30~50 대 여성)
  • 모델의 차이: 최신 고성능 모델 (GPT-5.2) 은 꽤 잘했지만, 우리가 흔히 쓰는 **가벼운 버전 (GPT-5-mini)**은 훨씬 더 위험했습니다.
    • 비유: 고성능 모델은 '숙련된 주치 의사'라면, 가벼운 버전은 '의대 1 학년 학생'이면서 **자신감은 100%**인 것과 같습니다. 정보가 부족할 때 가벼운 버전은 오히려 위험한 진통제 (코데인) 를 처방하거나, 필요한 검사를 안 하라고 조언했습니다.

📝 한 줄 요약

이 연구는 **"AI 가 교과서 문제에서는 천재일지 몰라도, 실제처럼 정보가 부족하고 messy 한 상황에서는 오히려 사람을 죽일 수 있는 위험한 조언을 자신 있게 내뱉는다"**는 것을 1,000 개의 가짜 환자를 통해 증명했습니다.

💡 우리가 배워야 할 교훈

  1. AI 를 맹신하지 마세요: 특히 정보가 불완전한 상황에서는 AI 가 "모른다"고 말하기보다 "잘못된 확신"을 가질 수 있습니다.
  2. 모델을 가려서 써야 합니다: 모든 AI 가 똑같은 것이 아닙니다. 의료 같은 중요한 분야에서는 성능이 떨어지는 '가벼운' 모델을 쓰면 안 됩니다.
  3. 새로운 검증이 필요합니다: 이제부터는 AI 를 평가할 때 "정답을 몇 개 맞췄나?"가 아니라 **"위험한 상황에서 얼마나 안전하게 행동하는가?"**를 테스트해야 합니다.

이 연구는 AI 가 의사가 되기 전에, 인간처럼 '위험을 감지하고 조심하는' 태도를 배워야 함을 강력하게 경고하고 있습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →