Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

本文提出了名为 CFE-Bench 的多模态基准测试,该测试基于 20 多个 STEM 领域的真实大学考题与教师参考答案,旨在评估大语言模型的推理能力,研究发现尽管前沿模型表现尚可,但在多步推理中仍难以维持中间状态的正确性且步骤效率较低。

Chongyang Gao, Diji Yang, Shuyan Zhou, Xichen Yan, Luchuan Song, Shuo Li, Kezhen Chen

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于如何真正测试 AI 数学和科学能力的论文。为了让你轻松理解,我们可以把这篇论文想象成一场**“大学期末考”,而主角是那些号称无所不知的AI 大模型**。

📝 核心故事:AI 真的懂“大学物理”吗?

想象一下,你给一个超级聪明的 AI 学生(比如最新的 Gemini 或 GPT)发了一份真实的大学期末考试卷。这些题目不是网上随便找的,而是来自教授们真正在课堂上用过的、经过千锤百炼的作业和考题。

这篇论文的作者们(来自西北大学、杜克大学等名校的研究团队)就是这场考试的“监考老师”。他们发现了一个有趣的现象:

AI 虽然能背下很多公式,但在做复杂的、多步骤的理科大题时,经常“翻车”。


🧩 1. 为什么以前的考试不够用?(旧地图 vs 新大陆)

以前的 AI 考试(比如一些简单的数学题或选择题),就像是在**“练级打怪”**。AI 练得太熟了,看到题目就能直接猜出答案,或者靠死记硬背就能拿高分。这就像让一个背熟了所有菜谱的厨师,去考“如何炒一盘完美的宫保鸡丁”,他可能背得滚瓜烂熟,但真让他下锅,火候掌握得就不一定好了。

CFE-BENCH(课堂期末考基准) 就是为了解决这个问题而生的:

  • 题目更真:全是教授们亲自出题、批改过的真实考题。
  • 题目更难:不能只选 A/B/C/D,必须写出完整的解题过程,还要算出精确的数值或公式。
  • 题目更多样:涵盖了物理、数学、工程、化学等 20 多个领域,既有纯文字题,也有需要看图(电路图、图表)的题。

比喻:以前的考试是**“开卷考”,AI 只要翻书就能找到答案;现在的 CFE-BENCH 是“闭卷考 + 现场实验”**,AI 必须自己推导,不能作弊。


🔍 2. 我们怎么给 AI 打分?(不再只看“最终答案”)

以前给 AI 打分,通常是把 AI 写的一大段话和标准答案对比。如果 AI 写得文采飞扬,但最后算错了数,以前的系统可能会因为“看起来很像”而给它高分。

这篇论文发明了一种**“抓关键变量”**的打分法:

  • 旧方法(L2L):像老师改作文,看整体感觉。AI 写了一万字,只要中间有几句话是对的,老师可能就给分。
  • 新方法(S2S,变量验证):像**“查账”。老师不看你写了多少废话,只盯着几个关键数字公式**(比如“最终距离是多少?”)。
    • 如果 AI 在长篇大论中把关键数字算错了,哪怕它前面的推导写得再漂亮,也是零分
    • 这就像你让 AI 算账,它写了 10 页的财务报表分析,最后“总利润”算错了,那前面的分析再精彩也没用。

结果:在这种严格的“查账”模式下,即使是目前最强的 AI(Gemini-3.1),正确率也只有 60% 左右。这意味着还有 40% 的题目它做错了,还有很大的进步空间。


🕵️‍♂️ 3. AI 到底哪里“卡”住了?(诊断报告)

作者们像医生一样,把 AI 的解题过程拆解开来看,发现了三个惊人的秘密:

🚫 秘密一:单步能力其实很强(“单兵作战”没问题)

如果把一道复杂的物理题拆成 10 个小问题,让 AI 只做其中一步(比如“算出碰撞后的速度”),AI 通常能答对。

比喻:让 AI 做“加法”或“乘法”,它很厉害;让它做“应用题”,它就开始晕了。

📉 秘密二:中间状态容易“迷路”(“接力赛”掉棒了)

AI 的问题出在多步骤的衔接上。它能在第一步做对,第二步做对,但到了第三步,它可能忘了第一步算出的结果,或者在中间推导时“漂移”了,导致最后一步全盘皆输。

比喻:这就像传接力棒。AI 每一棒跑得都很快,但它在交接棒的时候经常把棒子弄丢了,或者跑偏了方向。它很难在脑子里长期保持一个正确的中间状态。

🐢 秘密三:废话太多,效率太低(“绕远路”)

人类教授解题通常很精炼,步骤少而精。但 AI 解题时,喜欢绕弯路,步骤比人类多很多。

比喻:人类走直线去超市,只要 5 分钟;AI 非要绕着公园跑三圈,还要在路边看风景,结果走了 20 分钟,还因为路太长,中间不小心摔了一跤(算错数)。
数据:AI 的解题步骤平均比人类多了 14%~18%。步骤越多,出错的机会就越大。


💡 4. 这对未来意味着什么?(给 AI 的“补习建议”)

这篇论文给未来的 AI 发展指了一条明路:

  1. 别只盯着最终答案:训练 AI 时,要奖励它**“中间步骤的正确性”**。如果它中间算对了,哪怕最后没做完,也要给分。
  2. 学会“查账”:让 AI 在解题过程中,自己检查关键数字对不对,不要一口气写到头。
  3. 学会“走直线”:训练 AI 更简洁地思考,减少不必要的废话和步骤,降低出错率。

🏁 总结

这篇论文就像给 AI 行业泼了一盆**“清醒的冷水”
虽然现在的 AI 看起来很聪明,能写诗、能聊天,但在
真正的理科硬核推理**(像大学期末考那样)面前,它们还像个**“偏科严重的天才”——单点能力很强,但缺乏长期专注精准执行**的能力。

CFE-BENCH 就是那个**“照妖镜”**,它告诉我们:AI 要想真正像人类专家一样思考,不仅要“算得对”,还要“想得稳”和“走得快”。