MedCalc-Bench Doesn't Measure What You Think: A Benchmark Audit and the Case for Open-Book Evaluation

이 논문은 MedCalc-Bench 벤치마크에 존재하는 20 개 이상의 오류를 수정하고, 계산기 명세를 제공하는 '오픈북' 프롬프팅 방식을 통해 기존 RL 기반 모델의 성능을 압도하는 결과를 도출함으로써, 해당 벤치마크가 임상 추론이 아닌 공식 암기 및 도구 사용 능력을 측정하는 것임을 규명했습니다.

Artus Krohn-Grimberghe

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏥 1. 문제의 시작: "공식 암기"라는 함정

지금까지 의료 AI 를 평가할 때, "의사처럼 복잡한 의학 공식을 머릿속으로 외워서, 주어진 환자 정보를 보고 직접 계산해 내는 능력" 을 시험했습니다.

  • 비유: 마치 "주어진 재료 (환자 정보) 로 요리를 하라"고 하면서, "레시피 (의학 공식) 는 절대 보고 안 된다. 무조건 머릿속에 외운 레시피대로 해라" 라고 하는 것과 같습니다.
  • 현실: 실제 병원에서는 어떤 의사도 APACHE-II 같은 복잡한 공식을 외워서 계산하지 않습니다. 모두 계산기나 앱을 켜고 숫자를 입력합니다.
  • 결과: AI 들은 이 '암기 시험'에서 매우 낮은 점수 (약 35%~50%) 를 받았습니다. AI 가 멍청해서가 아니라, 시험 방식이 현실과 동떨어져 있었기 때문입니다.

🔍 2. 저자의 첫 번째 발견: "시험지 자체가 엉망이었다"

저자는 먼저 이 시험을 내는 데 사용된 계산기 프로그램 (데이터) 자체를 꼼꼼히 점검했습니다. 그랬더니 놀라운 사실이 드러났습니다.

  • 발견: 공식에 숫자가 틀렸거나, 계산 로직에 버그가 있는 경우가 20 개 이상이나 있었습니다.
  • 비유: "수학 문제를 풀 때, 정답지 (계산기) 에 이미 오답이 적혀 있거나, 계산기가 고장 난 상태" 에서 시험을 본 것과 같습니다. AI 가 아무리 잘해도 정답을 맞출 수 없었던 것입니다.
  • 조치: 저자는 이 오류들을 모두 수정했습니다.

📖 3. 두 번째 발견: "책 보고 풀면 (Open-Book) 점수가 폭등"

저자는 가장 중요한 실험을 했습니다. AI 에게 "공식을 외우지 말고, 문제지 옆에 공식 (계산기 설명서) 을 보여주고 풀어라" 라고 지시한 것입니다. 이를 '오픈북 (Open-Book) 방식' 이라고 부릅니다.

  • 실험 결과:
    • 공식 암기 (Closed-Book): 점수 약 36% ~ 52% (엉망)
    • 공식 제공 (Open-Book): 점수 81% ~ 85% (급상승!)
  • 비유: "공식을 외우지 않아도, 옆에 있는 참고서 (공식) 를 보며 문제를 풀면 AI 는 거의 만점을 맞는다" 는 뜻입니다.
  • 의미: AI 가 의학을 못 하는 게 아니라, 공식을 외우라는 시험 방식이 틀렸던 것입니다. AI 는 공식을 보고 계산하는 '도구 사용 능력'은 이미 매우 뛰어납니다.

🏆 4. 결론: AI 는 "계산기"를 잘 다룰 줄 안다

이 논문의 결론은 매우 명확합니다.

  1. 지금의 시험은 잘못됐다: MedCalc-Bench 라는 시험은 AI 의 '임상적 추론 능력 (환자를 진단하는 능력)'을 재는 게 아니라, '공식 암기 능력'과 '소수점 계산 정확도' 를 재는 시험이었다.
  2. 해결책: AI 를 평가할 때는 공식을 외우게 하지 말고, 공식 (계산기) 을 제공한 채로 '환자 정보를 잘 추출해서 계산기에 넣는 능력'을 평가해야 한다.
  3. 최고 점수: 만약 가장 똑똑한 AI (GPT-5.2 등) 가 이 방식 (오픈북 + 도구 사용) 으로 시험을 본다면, 95% 이상의 점수를 받을 수 있다.

💡 한 줄 요약

"의사들은 공식을 외우지 않고 계산기를 쓰는데, 왜 AI 에게는 공식을 외우라고 시험을 보는가? AI 가 계산기를 잘 쓰는 능력을 제대로 평가하려면, 공식 (참고서) 을 보여주고 문제를 풀게 해야 한다."

이 연구는 AI 가 의료 현장에서 실제로 어떻게 쓰여야 하는지 (도구 사용), 그리고 어떻게 평가해야 하는지에 대한 새로운 기준을 제시합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →