A Systematic Performance Evaluation of Three Large Language Models in Answering Questions on moderate Hyperthermia

본 연구는 19 명의 국제 전문가가 평가한 결과, 중등도 고열에 대한 3 가지 대형 언어 모델 (DeepSeek-V3, Llama-3.3-70B-Instruct, GPT-4o) 의 답변 품질이 전반적으로 '허용 가능' 수준이었으나, 약 25% 의 답변이 불량하고 15~19% 는 임상적 결정에 해로울 수 있어 전문 지식 없이 사용할 경우 위험이 크다고 결론 내렸습니다.

Dennstaedt, F., Cihoric, N., Bachmann, N., Filchenko, I., Berclaz, L., Crezee, H., Curto, S., Ghadjar, P., Huebenthal, B., Hurwitz, M. D., Kok, P., Lindner, L. H., Marder, D., Molitoris, J., Notter, M., Rahman, S., Riesterer, O., Spalek, M., Trefna, H., Zilli, T., Rodrigues, D., Fuerstner, M., Stutz, E.

게시일 2026-03-26
📖 4 분 읽기☕ 가벼운 읽기
⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

🏥 시나리오: AI 의사들의 '고열요법' 시험

1. 배경: 왜 이 시험을 치렀을까요?
요즘 AI 는 의학 지식을 많이 가지고 있어서, 일반인이나 의사들이 "암 치료에 어떤 게 좋을까?"라고 물으면 아주 잘 대답해 줍니다. 하지만 **'고열요법'**이라는 아주 특수한 분야는 어떨까요?

  • 고열요법이란? 암 세포를 40~43 도의 따뜻한 열로 데워 방사선이나 항암제의 효과를 높이는 치료법입니다.
  • 문제점: 이 분야는 데이터가 많지 않고, 인터넷에는 과학적 근거가 없는 정보도 섞여 있습니다. 마치 작은 마을의 특수한 전통 요리 레시피처럼, 잘 정리된 책보다는 구전으로 전해지는 정보가 많을 수 있습니다.

연구팀은 "이처럼 데이터가 희박하고 전문적인 분야에서 AI 가 얼마나 똑똑할까?"를 확인하기 위해 시험을 만들었습니다.

2. 시험 내용: 3 명의 AI 지원자
연구팀은 최신 AI 모델 3 개를 시험에 출석시켰습니다.

  • DeepSeek-V3: 중국에서 만든 효율적인 AI.
  • Llama-3.3: 메타 (Facebook) 가 만든 오픈소스 AI.
  • GPT-4o: OpenAI 가 만든 다재다능한 AI.

이들에게 **22 개의 임상 질문 (환자 치료 관련)**과 18 개의 물리 질문 (장비 및 기술 관련) 총 40 문제를 냈습니다.

3. 채점: 세계적 전문가들이 감점
이 시험의 채점관은 스위스, 독일, 미국 등 전 세계의 고열요법 전문가 19 명이었습니다.

  • 채점 기준: 1 점 (매우 나쁨) ~ 5 점 (매우 좋음).
  • 추가 체크: "이 대답을 환자에게 적용하면 위험할까?" (위험성 평가)

📊 시험 결과: "그럭저럭 (Acceptable)"이지만, 위험하다

1. 평균 점수는 '보통' 수준
세 AI 모두 평균 점수가 3 점 (5 점 만점) 정도였습니다. 채점관들은 "그럭저럭 쓸만하다 (Acceptable)"고 평가했습니다.

  • DeepSeek: 3.26 점 (가장 높음)
  • Llama: 3.18 점
  • GPT-4o: 3.07 점

2. 하지만, '나쁜 점수'가 너무 많았다!
평균이 3 점이라도, 자세히 보니 **약 25% 의 답변은 '나쁨 (1~2 점)'**으로 평가받았습니다.

  • 비유: 만약 AI 가 4 번 중 1 번은 "당신은 병이 없어요"라고 말하는데, 사실은 "암이 진행 중"이라고 말해버리는 상황과 같습니다.

3. 가장 무서운 점: '위험한 답변'
전문가들은 약 15~19% 의 답변을 "임상적으로 적용하면 환자에게 해로울 수 있다"고 판단했습니다.

  • 예시: 어떤 AI 는 "이 환자에게 고열요법을 매일 해야 한다"고 잘못 말했지만, 실제로는 "일주일에 한 번"이 정답인 경우였습니다.
  • 결과: 전문가가 옆에 없다면, 일반인이나 초보 의사는 AI 의 잘못된 말을 믿고 치명적인 실수를 할 수 있습니다.

🔍 구체적인 사례: AI 가 어떻게 망쳤나?

사례 1: "거짓된 근거"를 들어와서 (할루시네이션)

  • 질문: "자궁경부암 환자에게 고열요법을 일주일에 몇 번 해야 할까?"
  • AI 의 답변: DeepSeek 는 "일주일에 한 번이 맞습니다"라고 정답을 말했지만, 그 근거로 **"실제 존재하지 않는 연구 (HYPO 연구)"**를 인용했습니다. 마치 없는 책을 인용해서 논문을 쓰는 것과 같습니다.
  • 결과: 결론은 맞았지만, 근거가 거짓이라 전문가들은 "위험하다"고 평가했습니다.

사례 2: "장비 이름"을 못 외움

  • 질문: "시판 중인 고열요법 장비 이름을 나열해 줘."
  • AI 의 답변: 세 AI 모두 제대로 된 리스트를 못 뽑았습니다.
  • 비유: 마치 요리사에게 "한국에 있는 모든 국수 가게 이름"을 말해보라고 했을 때, 아무도 제대로 못 외우는 상황입니다. 전문가는 몇 분 만에 다 외우는데 AI 는 망쳤습니다.

💡 결론 및 교훈

1. 결론: 아직은 전문가의 도움이 필수입니다.
현재의 AI 는 고열요법 같은 아주 전문적이고 데이터가 부족한 분야에서는 "그럭저럭" 수준입니다.

  • 비유: AI 는 **의학 지식을 많이 읽은 '열정적인 의대생'**과 같습니다. 하지만 아직 실무 경험 (전문가) 이 부족해서, 가끔은 엉뚱한 조언을 하거나 위험한 실수를 할 수 있습니다.

2. 경고

  • 전문가 없는 상태에서는 절대 믿지 마세요. 환자가나 일반인이 AI 의 답변만 믿고 치료를 결정하면 큰일 날 수 있습니다.
  • 데이터의 문제: AI 가 못 한 이유는 지능이 부족해서가 아니라, 학습할 수 있는 '정리된 전문 데이터'가 부족해서입니다.

3. 미래 전망
이 분야에 대한 연구가 더 많이 쌓이고, 데이터가 잘 정리되면 AI 도 더 똑똑해질 것입니다. 하지만 지금은 AI 를 '참고용'으로만 쓰고, 최종 결정은 반드시 인간 전문가에게 맡겨야 합니다.


한 줄 요약:

"최신 AI 가 암 치료의 특수 분야인 '고열요법' 시험을 봤는데, 평균 점수는 '보통'이었지만 약 20% 는 환자에게 해로울 수 있는 위험한 오답을 냈습니다. AI 는 아직 '보조 도구'일 뿐, 의사 대신 할 수 없습니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →