MedCalc-Bench Doesn't Measure What You Think: A Benchmark Audit and the Case for Open-Book Evaluation

本文通过审计发现 MedCalc-Bench 基准存在 20 余项错误,并证明采用“开卷”提示策略即可使模型准确率从约 52% 跃升至 85% 以上,从而揭示该基准主要衡量的是公式记忆与计算精度而非临床推理能力,主张将其重新定位为工具使用评估。

Artus Krohn-Grimberghe

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次对“医学考试”的大体检,作者发现这场考试考偏了,而且试卷本身还有不少印刷错误。

简单来说,这篇论文讲了三个核心故事:

1. 试卷本身“烂”了:20 多个隐形陷阱

作者首先像一位挑剔的校对员,把 MedCalc-Bench(一个用来测试 AI 医生能力的医学计算器数据集)里的 55 种计算器公式全部检查了一遍。

  • 发现了什么? 居然找到了20 多个错误
    • 有的公式系数写错了(比如把 0.7 写成了 0.9)。
    • 有的关键信息漏掉了(比如少了一个评分标准)。
    • 有的甚至因为一个拼写错误(把 liver_disease 拼成 liver_diease),导致所有肝病患者在考试中都得了 0 分。
  • 比喻: 这就像是一场数学考试,试卷上把"π"印成了"3",或者把"1+1"印成了"3"。如果学生算错了,可能不是因为他们笨,而是因为题目本身就是错的。

2. 考试方式“偏”了:考的是“背公式”而不是“当医生”

目前的考试规则是:给 AI 一个病人的病例,让它自己回忆公式,然后自己计算出结果。

  • 问题在哪? 在现实医院里,医生从来不会把复杂的公式背在脑子里。医生手里都有现成的计算器或手机 App,他们只需要输入数据,机器就会算出结果。
  • 作者的做法(开卷考试): 作者给 AI 来了一场“开卷考试”。他们直接把公式说明书(就像把计算器说明书贴在试卷旁边)发给 AI,让 AI 照着说明书填数据、算数。
  • 结果惊人:
    • 闭卷考(死记硬背): AI 的得分只有 36% - 52%,惨不忍睹。
    • 开卷考(给说明书): AI 的得分瞬间飙升到 81% - 85%,直接超过了所有之前最厉害的“特训”过的 AI 模型。
  • 比喻: 这就像考一个司机“如何发动汽车”。
    • 闭卷考: 要求司机背下发动机原理图,然后徒手组装并发动汽车。这很难,而且不是司机的核心技能。
    • 开卷考: 给司机一辆车,让他把钥匙插进去,踩油门。这才是司机该做的事。
    • 结论: 现在的考试考的是“记忆力”和“算术精度”,而不是“临床判断力”。

3. 天花板其实很高:只要给工具,AI 能拿 95 分

作者还用了最强的 AI(GPT-5.2)去检查那些即使“开卷”也没做对的题目。

  • 发现: 剩下的错误里,大部分是因为题目本身有歧义,或者之前的“标准答案”印错了。
  • 结论: 如果修正了所有错误,并且允许 AI 使用工具,这个任务的满分率其实可以达到 95% - 97%
  • 比喻: 就像给一个小学生一本完美的数学书和计算器,他几乎能算对所有的题。如果他还算错,那大概率是题目出得太模糊,而不是孩子笨。

这篇论文想告诉我们什么?

  1. 别被分数骗了: 以前大家觉得 AI 在医学计算上很弱(只有 30-40 分),其实是因为考试方式不对(逼着 AI 背公式)。
  2. 重新定义考试: 未来的 AI 医学测试,不应该考“背公式”,而应该考"查资料"和"用工具"的能力。就像医生一样,重点是你能不能从病历里提取正确的数据,然后正确地使用计算器,而不是让你背公式。
  3. 小成本大智慧: 作者只用了一个人,利用各种 AI 工具(有的负责查资料,有的负责写代码,有的负责当“挑刺”的编辑),就在几个周末内完成了这项大规模审计。这说明现在的 AI 工具已经强大到可以让个人研究者完成以前需要整个团队才能做的工作。

一句话总结:
MedCalc-Bench 这个考试以前考的是“谁能背下最复杂的公式”,作者把它改成了“谁能正确使用计算器”。结果发现,只要给 AI 说明书,它们就是满分学霸;而之前的低分,是因为我们逼着 AI 去干它不擅长(也不需要)的“死记硬背”的活儿。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →