Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks

该研究评估了 11 种通用及教育专用 AI 工具对数学任务认知需求的分类能力,发现其平均准确率仅为 63%,且普遍存在倾向于中间类别、过度依赖表面文本特征而忽视深层认知过程的系统性偏差,表明当前 AI 工具尚不足以直接替代教师进行此类专业判断。

Danielle S. Fox, Brenda L. Robles, Elizabeth DiPietro Brovey, Christian D. Schunn

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次**“给 AI 老师做的数学体检”**。

想象一下,现在的老师们忙得脚不沾地,他们手里有一堆数学题,需要知道哪些题是“动动笔头就能算出来的”(低认知需求),哪些题是“需要动脑筋、甚至有点烧脑的”(高认知需求)。以前,这得靠经验丰富的老师一个个去分析。现在,大家想:“能不能让 AI 来帮这个忙?”

于是,研究人员找了11 个 AI 工具(包括大家熟悉的 ChatGPT、Claude,还有一些专门给教育用的 AI),让它们给12 道数学题打分,看看它们能不能准确判断这些题的“烧脑程度”。

结果怎么样?简单来说:AI 能猜对,但经常“和稀泥”,而且有时候会一本正经地胡说八道。

下面我用几个生动的比喻来拆解这篇论文的核心发现:

1. 总体表现:像个“及格生”,但离“优等生”还差得远

如果把完全随机瞎猜(25% 的准确率)比作蒙答案,那么这些 AI 的平均准确率是 63%

  • 比喻:这就像是一个刚毕业的大学生,做数学题分类时,大概能蒙对六成多。虽然比瞎蒙强,但如果老师完全依赖它来备课,那风险太大了,因为每 3 道题里就有 1 道会被分错

2. 最大的毛病:喜欢“走中间路线”(中间倾向偏差)

这是论文里最有趣也最让人头疼的发现。

  • 现象:数学题其实分四个等级:
    1. 死记硬背(比如背乘法表)
    2. 按部就班(比如套用公式,不需要理解原理)
    3. 理解应用(用公式解决实际问题,需要理解)
    4. 烧脑挑战(没有固定套路,需要自己探索)
  • AI 的行为:不管题目是“死记硬背”还是“烧脑挑战”,AI 总是倾向于把它们归类为中间的两个等级(按部就班或理解应用)。
  • 比喻:这就好比一个**“老好人”评委**。面对一个特别简单的题,它不敢说是“简单”,怕显得自己没水平;面对一个特别难的题,它也不敢说是“难”,怕显得自己太苛刻。于是,它把所有题都往“中等难度”上靠。
    • 结果:那些真正需要“死记硬背”的题,被它误判为“需要计算”;那些真正需要“烧脑”的题,也被它降级为“普通计算”。

3. 为什么 AI 会犯错?它是个“看表面”的选手

研究人员发现,AI 并不是在真正理解题目背后的思维过程,它更像是一个**“关键词搜索员”**。

  • 现象:如果题目里出现了“算法”、“步骤”、“公式”这些词,AI 就立刻觉得:“哦,这肯定是按部就班的题。”哪怕这道题其实需要很深的思考。
  • 比喻:这就像你让 AI 去判断一个人是“新手司机”还是“赛车手”。
    • 新手司机:手里紧紧握着方向盘,不敢踩油门。
    • 赛车手:在赛道上飞驰,但手里也握着方向盘。
    • AI 的判断:只要看到“手里握着方向盘”(表面文字特征),它就说是“新手司机”。它完全忽略了赛车手脚下踩油门的力度和速度(深层认知过程)。
    • 后果:AI 经常把那些需要深度思考的题,误判为只需要机械操作的题。

4. 专用工具 vs. 通用工具:并没有“亲儿子”优势

大家可能会想:“专门给老师用的 AI(比如 Khanmigo, Magic School)肯定比通用的 ChatGPT 更懂行吧?”

  • 结果并没有。 专门给教育用的 AI 和通用的 AI 在准确率上差不多,甚至有的通用 AI(如 DeepSeek)表现更好。
  • 比喻:这就像问“专门给厨师用的手机”和“普通手机”谁拍照更好。结果发现,只要硬件(底层大模型)差不多,专门给厨师用的手机并没有因为加了几个“菜谱滤镜”就突然变得能拍出米其林级别的照片。

5. 最危险的陷阱:AI 会“一本正经地胡说八道”

这是论文里最让人警惕的一点。

  • 现象:当 AI 分错类时,它给出的理由听起来非常专业、逻辑严密,甚至还会引用教育理论。
  • 比喻:就像一个**“自信满满的假专家”**。如果你问它:“为什么这道题是中等难度?”它会给你列出一二三点,引用各种术语,让你觉得“哇,它分析得好透彻”。但实际上,它的核心判断是错的。
  • 风险:对于新手老师来说,这种“看起来很有道理”的错误解释,比直接给个错误答案更可怕,因为它会误导老师,让他们以为自己的判断(或者 AI 的判断)是对的。

总结:AI 现在能做什么?不能做什么?

  • ❌ 不能做什么:目前不能让 AI 独立去给数学题分类,然后直接拿来用。因为它太容易“和稀泥”,而且经常看表面不看本质。如果完全依赖它,可能会把简单的题教复杂,或者把难的题教简单了。
  • ✅ 能做什么:它可以作为一个**“初筛助手”。比如,老师可以先把题丢给 AI,让它打个草稿,然后老师自己再复核一遍**。或者,用它来生成一些解释,但老师必须像“主编”一样去检查它的逻辑。

一句话总结:
现在的 AI 就像一个**“有点聪明但缺乏经验的实习生”**。它能帮你分担一部分工作,但它还没学会真正理解数学题的“灵魂”。在老师还没学会如何更好地“调教”(提示词工程)它之前,老师手中的那把尺子(专业判断),依然是不可替代的。