How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions

该研究评估了四种主流大语言模型在 2015 至 2025 年 AP 物理自由响应题上的表现,发现尽管它们在结构化代数解题方面得分较高,但在空间推理、图表解读及概念整合等任务上仍存在显著局限和系统性错误。

Bilas Paul, Jashandeep Kaur, Shantanu Chakraborty, Shruti Shrestha

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一场**“超级 AI 学生”的期末考试大比拼**。

研究人员找了四位目前最厉害的 AI 模型(ChatGPT 4.1 mini、Gemini 2.5 Flash、Claude 4.0 Sonnet 和 DeepSeek R1),让它们像高中生一样,去解答美国大学先修课程(AP)物理考试的**“自由问答题”**。这些题目不是简单的选择题,而是需要画图、解释原理、做计算和画图表的复杂大题。

为了公平起见,研究人员给它们设定了严格的规则:

  • 角色设定:它们必须假装自己是参加考试的普通高中生,不能暴露自己是 AI。
  • 评分标准:由三位真正的物理专家,拿着官方的评分标准,像批改学生试卷一样给 AI 的答案打分。
  • 时间跨度:题目来自 2015 年到 2025 年的十年间。

以下是这场“考试”的趣味解读:

1. 总体成绩:AI 是个“优等生”,但有点“偏科”

如果把所有题目加起来算平均分,这四名 AI 学生都考得相当不错,平均分都在 82% 到 92% 之间。

  • 比喻:这就像四个学霸,只要题目是纯数学计算或者背公式,它们几乎都能拿满分。它们处理代数题的能力非常强,就像一台精密的计算器,只要给对公式,就能算出完美答案。

2. 物理 1 vs 物理 2:不同的“战场”

  • AP 物理 1(主要是力学):一场“乱战”

    • 在这门课上,四个 AI 的表现忽高忽低,谁也压不住谁。今年 A 模型第一,明年 B 模型第一,排名经常互换。
    • 比喻:这就像四个运动员在跑不同地形的障碍赛。有的模型擅长跑平路(简单题),有的擅长跑上坡(难题),但没人能稳定地拿冠军。这说明目前的 AI 在面对力学问题时,还没有形成绝对的“统治力”。
  • AP 物理 2(热学、电学、光学等):实力分出了高下

    • 在这门课上,Gemini 和 DeepSeek 表现非常稳定,就像两个状态极佳的运动员,每次都能稳定发挥在 90 分以上。
    • ClaudeChatGPT 则表现得稍微逊色一些,且波动较大。
    • 比喻:物理 2 的题目更像是一场“综合格斗”,需要把图形、电路图和抽象概念结合起来。Gemini 和 DeepSeek 就像是有“超级大脑”的选手,能更好地把这些零散的信息拼凑起来;而另外两个选手则容易在复杂的战术中迷路。

3. AI 的“致命弱点”:它们不是真的“懂”物理

虽然分数很高,但研究人员仔细检查了 AI 的“错题本”,发现它们犯了一些非常典型的、人类学生不会犯的**“低级错误”**。这揭示了 AI 目前的局限性:

  • 看图像“瞎子”
    • 比喻:如果题目给了一张图,画着两个小球在斜坡上滚,AI 经常看错图。比如,它可能没看出斜坡的坡度不同,就以为两个球会同时落地。它像是在“猜”图里有什么,而不是真的“看”懂了图。
  • 画图表像“涂鸦”
    • 比喻:当题目要求画一个波形图或电路图时,AI 经常画得张冠李戴。它知道要画个波浪,但波峰波谷的位置、坐标轴的刻度全是乱的。它知道“大概长什么样”,但不知道“具体怎么画”。
  • 方向感“迷路”
    • 比喻:物理里有很多方向(比如力的方向、电流方向、磁场方向)。AI 经常搞反方向,就像一个人拿着指南针,把“北”当成了“南”。一旦方向错了,后面算得再对,结果也是错的。
  • 电路分析“短路”
    • 比喻:在分析复杂的电路(谁和谁串联、谁和谁并联)时,AI 经常把线路接错,就像把家里的电线乱接一通,导致整个逻辑崩塌。
  • 三维空间“晕头转向”
    • 比喻:物理里有个“右手定则”(用来判断磁场方向),需要在脑子里把三维空间转来转去。AI 在这方面特别弱,经常把三维空间想成二维平面,导致判断完全错误。

4. 总结与启示:AI 是“好助手”,但不是“好老师”

这篇论文告诉我们一个重要的道理:

  • AI 擅长什么?
    它擅长**“做算术题”“套公式”**。如果你需要它帮你快速算出结果,或者解释一个定义明确的物理概念,它非常棒,像个不知疲倦的超级助教。

  • AI 不擅长什么?
    它不擅长**“看图说话”“空间想象”“逻辑推理的连贯性”**。它容易在第一步看图时就理解错了,然后基于这个错误的理解,自信满满地算出一堆看似正确但完全错误的答案(就像一个人戴着墨镜开车,开得再快也到不了目的地)。

给老师和学生的建议:

  • 可以用 AI:用来练习计算、检查公式、复习基础概念。
  • 不能全信 AI:特别是遇到需要看图、画图、分析复杂电路或三维空间的题目时,一定要自己动脑筋。
  • 教学新招:老师可以把 AI 犯的这些“看图错误”和“方向错误”拿出来,当作**“找茬游戏”**教给学生。让学生看看 AI 哪里想错了,反而能帮学生更好地理解物理原理。

一句话总结:
现在的 AI 物理模型就像是一个**“记忆力超群但视力有点近视的学霸”**。它背公式很溜,算数极快,但一旦题目需要它“看清图画”或“在脑子里转三维空间”,它就会犯迷糊。在完全解决这些问题之前,人类老师的指导依然是不可或缺的。