MedCalc-Bench Doesn't Measure What You Think: A Benchmark Audit and the Case for Open-Book Evaluation

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次对“医学考试”的大体检，作者发现这场考试考偏了，而且试卷本身还有不少印刷错误。

简单来说，这篇论文讲了三个核心故事：

作者首先像一位挑剔的校对员，把 MedCalc-Bench（一个用来测试 AI 医生能力的医学计算器数据集）里的 55 种计算器公式全部检查了一遍。

发现了什么？ 居然找到了20 多个错误！
- 有的公式系数写错了（比如把 0.7 写成了 0.9）。
- 有的关键信息漏掉了（比如少了一个评分标准）。
- 有的甚至因为一个拼写错误（把 liver_disease 拼成 liver_diease），导致所有肝病患者在考试中都得了 0 分。
比喻： 这就像是一场数学考试，试卷上把"π"印成了"3"，或者把"1+1"印成了"3"。如果学生算错了，可能不是因为他们笨，而是因为题目本身就是错的。

目前的考试规则是：给 AI 一个病人的病例，让它自己回忆公式，然后自己计算出结果。

问题在哪？ 在现实医院里，医生从来不会把复杂的公式背在脑子里。医生手里都有现成的计算器或手机 App，他们只需要输入数据，机器就会算出结果。
作者的做法（开卷考试）： 作者给 AI 来了一场“开卷考试”。他们直接把公式说明书（就像把计算器说明书贴在试卷旁边）发给 AI，让 AI 照着说明书填数据、算数。
结果惊人：
- 闭卷考（死记硬背）： AI 的得分只有 36% - 52%，惨不忍睹。
- 开卷考（给说明书）： AI 的得分瞬间飙升到 81% - 85%，直接超过了所有之前最厉害的“特训”过的 AI 模型。
比喻： 这就像考一个司机“如何发动汽车”。
- 闭卷考： 要求司机背下发动机原理图，然后徒手组装并发动汽车。这很难，而且不是司机的核心技能。
- 开卷考： 给司机一辆车，让他把钥匙插进去，踩油门。这才是司机该做的事。
- 结论： 现在的考试考的是“记忆力”和“算术精度”，而不是“临床判断力”。

作者还用了最强的 AI（GPT-5.2）去检查那些即使“开卷”也没做对的题目。

别被分数骗了： 以前大家觉得 AI 在医学计算上很弱（只有 30-40 分），其实是因为考试方式不对（逼着 AI 背公式）。
重新定义考试： 未来的 AI 医学测试，不应该考“背公式”，而应该考"查资料"和"用工具"的能力。就像医生一样，重点是你能不能从病历里提取正确的数据，然后正确地使用计算器，而不是让你背公式。
小成本大智慧： 作者只用了一个人，利用各种 AI 工具（有的负责查资料，有的负责写代码，有的负责当“挑刺”的编辑），就在几个周末内完成了这项大规模审计。这说明现在的 AI 工具已经强大到可以让个人研究者完成以前需要整个团队才能做的工作。

一句话总结：
MedCalc-Bench 这个考试以前考的是“谁能背下最复杂的公式”，作者把它改成了“谁能正确使用计算器”。结果发现，只要给 AI 说明书，它们就是满分学霸；而之前的低分，是因为我们逼着 AI 去干它不擅长（也不需要）的“死记硬背”的活儿。

类似论文