A Systematic Performance Evaluation of Three Large Language Models in Answering Questions on moderate Hyperthermia

⚕️

이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

🏥 시나리오: AI 의사들의 '고열요법' 시험

1. 배경: 왜 이 시험을 치렀을까요?
요즘 AI 는 의학 지식을 많이 가지고 있어서, 일반인이나 의사들이 "암 치료에 어떤 게 좋을까?"라고 물으면 아주 잘 대답해 줍니다. 하지만 **'고열요법'**이라는 아주 특수한 분야는 어떨까요?

고열요법이란? 암 세포를 40~43 도의 따뜻한 열로 데워 방사선이나 항암제의 효과를 높이는 치료법입니다.
문제점: 이 분야는 데이터가 많지 않고, 인터넷에는 과학적 근거가 없는 정보도 섞여 있습니다. 마치 작은 마을의 특수한 전통 요리 레시피처럼, 잘 정리된 책보다는 구전으로 전해지는 정보가 많을 수 있습니다.

연구팀은 "이처럼 데이터가 희박하고 전문적인 분야에서 AI 가 얼마나 똑똑할까?"를 확인하기 위해 시험을 만들었습니다.

2. 시험 내용: 3 명의 AI 지원자
연구팀은 최신 AI 모델 3 개를 시험에 출석시켰습니다.

DeepSeek-V3: 중국에서 만든 효율적인 AI.
Llama-3.3: 메타 (Facebook) 가 만든 오픈소스 AI.
GPT-4o: OpenAI 가 만든 다재다능한 AI.

이들에게 **22 개의 임상 질문 (환자 치료 관련)**과 18 개의 물리 질문 (장비 및 기술 관련) 총 40 문제를 냈습니다.

3. 채점: 세계적 전문가들이 감점
이 시험의 채점관은 스위스, 독일, 미국 등 전 세계의 고열요법 전문가 19 명이었습니다.

채점 기준: 1 점 (매우 나쁨) ~ 5 점 (매우 좋음).
추가 체크: "이 대답을 환자에게 적용하면 위험할까?" (위험성 평가)

📊 시험 결과: "그럭저럭 (Acceptable)"이지만, 위험하다

1. 평균 점수는 '보통' 수준
세 AI 모두 평균 점수가 3 점 (5 점 만점) 정도였습니다. 채점관들은 "그럭저럭 쓸만하다 (Acceptable)"고 평가했습니다.

DeepSeek: 3.26 점 (가장 높음)
Llama: 3.18 점
GPT-4o: 3.07 점

2. 하지만, '나쁜 점수'가 너무 많았다!
평균이 3 점이라도, 자세히 보니 **약 25% 의 답변은 '나쁨 (1~2 점)'**으로 평가받았습니다.

비유: 만약 AI 가 4 번 중 1 번은 "당신은 병이 없어요"라고 말하는데, 사실은 "암이 진행 중"이라고 말해버리는 상황과 같습니다.

3. 가장 무서운 점: '위험한 답변'
전문가들은 약 15~19% 의 답변을 "임상적으로 적용하면 환자에게 해로울 수 있다"고 판단했습니다.

예시: 어떤 AI 는 "이 환자에게 고열요법을 매일 해야 한다"고 잘못 말했지만, 실제로는 "일주일에 한 번"이 정답인 경우였습니다.
결과: 전문가가 옆에 없다면, 일반인이나 초보 의사는 AI 의 잘못된 말을 믿고 치명적인 실수를 할 수 있습니다.

🔍 구체적인 사례: AI 가 어떻게 망쳤나?

사례 1: "거짓된 근거"를 들어와서 (할루시네이션)

질문: "자궁경부암 환자에게 고열요법을 일주일에 몇 번 해야 할까?"
AI 의 답변: DeepSeek 는 "일주일에 한 번이 맞습니다"라고 정답을 말했지만, 그 근거로 **"실제 존재하지 않는 연구 (HYPO 연구)"**를 인용했습니다. 마치 없는 책을 인용해서 논문을 쓰는 것과 같습니다.
결과: 결론은 맞았지만, 근거가 거짓이라 전문가들은 "위험하다"고 평가했습니다.

사례 2: "장비 이름"을 못 외움

질문: "시판 중인 고열요법 장비 이름을 나열해 줘."
AI 의 답변: 세 AI 모두 제대로 된 리스트를 못 뽑았습니다.
비유: 마치 요리사에게 "한국에 있는 모든 국수 가게 이름"을 말해보라고 했을 때, 아무도 제대로 못 외우는 상황입니다. 전문가는 몇 분 만에 다 외우는데 AI 는 망쳤습니다.

💡 결론 및 교훈

1. 결론: 아직은 전문가의 도움이 필수입니다.
현재의 AI 는 고열요법 같은 아주 전문적이고 데이터가 부족한 분야에서는 "그럭저럭" 수준입니다.

비유: AI 는 **의학 지식을 많이 읽은 '열정적인 의대생'**과 같습니다. 하지만 아직 실무 경험 (전문가) 이 부족해서, 가끔은 엉뚱한 조언을 하거나 위험한 실수를 할 수 있습니다.

2. 경고

전문가 없는 상태에서는 절대 믿지 마세요. 환자가나 일반인이 AI 의 답변만 믿고 치료를 결정하면 큰일 날 수 있습니다.
데이터의 문제: AI 가 못 한 이유는 지능이 부족해서가 아니라, 학습할 수 있는 '정리된 전문 데이터'가 부족해서입니다.

3. 미래 전망
이 분야에 대한 연구가 더 많이 쌓이고, 데이터가 잘 정리되면 AI 도 더 똑똑해질 것입니다. 하지만 지금은 AI 를 '참고용'으로만 쓰고, 최종 결정은 반드시 인간 전문가에게 맡겨야 합니다.

한 줄 요약:

"최신 AI 가 암 치료의 특수 분야인 '고열요법' 시험을 봤는데, 평균 점수는 '보통'이었지만 약 20% 는 환자에게 해로울 수 있는 위험한 오답을 냈습니다. AI 는 아직 '보조 도구'일 뿐, 의사 대신 할 수 없습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

배경: 대규모 언어 모델 (LLM) 은 다양한 의료 분야에서 전문가 수준의 성능을 보여주며 임상 보조 도구로서의 잠재력을 인정받고 있습니다. 그러나 고열요법 (Hyperthermia, HT) 과 같이 매우 특수하고 전문적인 하위 분야에서의 LLM 성능과 신뢰성은 아직 평가되지 않았습니다.
문제점:
- 고열요법은 종양을 40~43°C 로 가열하여 방사선 치료 (RT) 나 화학요법 (ChT) 의 효과를 증강시키는 치료법으로, 유럽 고열종양학회 (ESHO) 등 가이드라인이 존재하지만, 전체적인 임상 데이터가 다른 암 치료에 비해 상대적으로 부족합니다.
- 인터넷에는 과학적 근거가 없는 대체 의학 정보가 혼재되어 있어, LLM 의 학습 데이터에 노이즈가 섞일 가능성이 높습니다.
- 이로 인해 LLM 이 사실 오류 (Hallucination) 나 부정확한 정보를 생성할 위험이 있으며, 임상 의사결정에 사용될 경우 환자에게 해를 끼칠 수 있습니다.
연구 목적: 현재 이용 가능한 최신 LLM 들이 중등도 고열요법 (Moderate HT) 관련 질문에 대해 얼마나 정확하고 안전한 답변을 제공하는지 체계적으로 평가하는 것입니다.

2. 연구 방법론 (Methodology)

평가 대상 모델 (3 개):
1. DeepSeek-V3: 혼합 전문가 (MoE) 아키텍처를 가진 오픈 소스 모델 (2360 억 파라미터).
2. Llama-3.3-70B-Instruct: Meta 에서 개발한 오픈 가중치 모델 (700 억 파라미터).
3. GPT-4o: OpenAI 의 멀티모달 모델.
데이터 생성 (Phase 1 & 2):
- 연구 조정자들이 고열요법의 임상적 측면 (22 개) 과 물리/기술적 측면 (18 개) 을 모두 아우르는 총 40 개의 개방형 질문을 개발했습니다.
- 질문은 단순한 사실 확인뿐만 아니라 현장의 논쟁적 주제와 복잡한 임상 시나리오를 포함하도록 설계되었습니다.
- 세 모델은 2025 년 4 월 기준 최신 버전으로 모든 질문에 대해 답변을 생성했습니다.
전문가 평가 (Phase 3):
- 평가자: 유럽과 미국의 6 개 국가, 13 개 기관에서 활동하는 19 명의 국제 고열요법 전문가 (11 명 임상, 8 명 물리) 가 참여했습니다.
- 평가 방식:
  - 블라인드 및 무작위화: LLM 의 정체성을 숨기고 답변 순서를 무작위화하여 평가했습니다.
  - 품질 평가: 5 점 리커트 척도 (1=매우 나쁨, 5=매우 좋음) 로 답변의 질을 평가했습니다.
  - 유해성 평가: 임상 의사결정에 사용될 경우 잠재적으로 해로울 수 있는지 (Yes/No) 를 판별했습니다.
- 통계 분석: R 을 사용하여 모델 간 평균 점수 비교 (Wilcoxon 부호 순위 검정), 전문가 간 일치도 (ICC, $r_{wg}$ ) 등을 분석했습니다.

3. 주요 결과 (Key Results)

전체 품질 점수:
- 세 모델의 평균 품질 점수는 모두 "수용 가능 (Acceptable, 3 점)" 수준이었으나, 차이가 미미했습니다.
  - DeepSeek: 3.26
  - Llama: 3.18
  - GPT-4o: 3.07
- 중요한 발견: 평균 점수가 3 점대였음에도 불구하고, 모든 모델의 답변 중 약 **25% 가 "나쁨 (Bad)" 또는 "매우 나쁨 (Very Bad)"**으로 평가되었습니다.
잠재적 유해성 (Potential Harmfulness):
- 전문가들이 "임상적 의사결정에 사용 시 잠재적으로 해로울 수 있다"고 판단한 비율은 다음과 같습니다.
  - Llama: 19.3%
  - DeepSeek: 17.8%
  - GPT-4o: 15.3%
- 특히 물리/기술 관련 질문에서 유해성 판정 비율이 매우 높았습니다 (DeepSeek 77.8%, Llama 100%, GPT-4o 83.3%).
구체적 사례 분석:
- 우수한 사례: 일부 질문 (예: 골격계 단일 형질세포종에 대한 HT 적용 여부) 에서는 DeepSeek 과 Llama 가 근거가 부족함을 정확히 인지하고 적절한 조언을 제공하여 높은 점수를 받았습니다.
- 부족한 사례:
  - 상업용 장비 목록 (질문 30): 세 모델 모두 상용 고열요법 기기의 정확한 목록을 제공하지 못해 "나쁨" 평가를 받았습니다.
  - 허위 정보 생성 (질문 8): DeepSeek 은 존재하지 않는 가이드라인을 인용하거나, 실제 임상 시험 결과와 반대되는 내용 (주 2 회 고열요법의 독성 증가 등) 을 포함하여 "유해"하다고 판정받았습니다.
모델 간 차이: 통계적으로 유의미한 차이는 거의 없었으나, DeepSeek 이 물리 관련 질문에서 Llama 보다 약간 높은 점수를 보였습니다.

4. 주요 기여 및 시사점 (Contributions & Significance)

최초의 체계적 평가: 중등도 고열요법이라는 매우 특수한 의료 분야에서 LLM 의 성능을 평가한 최초의 연구입니다.
데이터 희소성의 영향: 고열요법은 대규모 구조화된 데이터가 부족하고 가이드라인이 제한적이어서, LLM 이 훈련 데이터의 부족으로 인해 "사실과 같은 허위 정보 (Hallucination)"를 생성할 위험이 높음을 확인했습니다.
임상 적용의 위험성 경고:
- 평균적으로 "수용 가능한" 점수를 받았지만, 약 25% 의 답변이 질이 낮거나 유해할 수 있다는 점은 임상 현장에서 전문가의 감독 없이 LLM 을 사용하는 것은 위험할 수 있음을 시사합니다.
- 비전문가 사용자는 LLM 이 생성한 오류나 유해한 정보를 식별하기 어렵습니다.
평가 방법론적 통찰: 개방형 질문에 대한 전문가 간 일치도 (Interrater Agreement) 가 "보통 (Moderate)" 수준에 그쳤으며, 이는 LLM 답변의 복잡성과 평가의 주관성으로 인한 어려움이 있음을 보여줍니다.

5. 결론 (Conclusion)

현재 이용 가능한 일반 목적의 LLM (DeepSeek, Llama, GPT-4o) 은 중등도 고열요법 관련 질문에 대해 임상적으로 신뢰할 수 있는 수준으로 사용될 수 없습니다.

권고 사항: 고열요법 분야에서는 LLM 을 초기 탐색이나 광범위한 개요 파악에만 제한적으로 사용해야 하며, 구체적인 임상 결정이나 기술적 질문에는 반드시 해당 분야 전문가의 검증이 필수적입니다.
미래 전망: 고열요법 분야의 증거 기반 데이터가 더 체계화되고 표준화된 가이드라인이 확대되면, 향후 LLM 의 훈련 데이터 품질이 향상되어 신뢰도가 높아질 것으로 기대됩니다.

이 연구는 AI 가 의료의 특정 하위 분야에서 어떻게 작동하는지, 그리고 그 한계가 어디에 있는지를 명확히 보여주는 중요한 지표가 되었습니다.

A Systematic Performance Evaluation of Three Large Language Models in Answering Questions on moderate Hyperthermia

🏥 시나리오: AI 의사들의 '고열요법' 시험

📊 시험 결과: "그럭저럭 (Acceptable)"이지만, 위험하다

🔍 구체적인 사례: AI 가 어떻게 망쳤나?

💡 결론 및 교훈

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 주요 기여 및 시사점 (Contributions & Significance)

5. 결론 (Conclusion)

유사한 논문

A feasibility study on combining Ayurvedic dietary knowledge and modern nutrition to personalise diets for cancer patients

A Real-World Retrospective Study of Sintilimab in Combination with Neoadjuvant Chemotherapy for Triple-Negative Breast Cancer

Backfill Bayesian Ordered Lattice Design for Phase I Clinical Trials

Cell-free chromatin epigenomic profiling enables non-invasive pancreatic cancer cell-state identification

Clinical and pathological characteristics of thin cutaneous melanomas with rapid recurrence.