Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次**“给 AI 老师做的数学体检”**。

想象一下，现在的老师们忙得脚不沾地，他们手里有一堆数学题，需要知道哪些题是“动动笔头就能算出来的”（低认知需求），哪些题是“需要动脑筋、甚至有点烧脑的”（高认知需求）。以前，这得靠经验丰富的老师一个个去分析。现在，大家想：“能不能让 AI 来帮这个忙？”

于是，研究人员找了11 个 AI 工具（包括大家熟悉的 ChatGPT、Claude，还有一些专门给教育用的 AI），让它们给12 道数学题打分，看看它们能不能准确判断这些题的“烧脑程度”。

结果怎么样？简单来说：AI 能猜对，但经常“和稀泥”，而且有时候会一本正经地胡说八道。

下面我用几个生动的比喻来拆解这篇论文的核心发现：

1. 总体表现：像个“及格生”，但离“优等生”还差得远

如果把完全随机瞎猜（25% 的准确率）比作蒙答案，那么这些 AI 的平均准确率是 63%。

比喻：这就像是一个刚毕业的大学生，做数学题分类时，大概能蒙对六成多。虽然比瞎蒙强，但如果老师完全依赖它来备课，那风险太大了，因为每 3 道题里就有 1 道会被分错。

2. 最大的毛病：喜欢“走中间路线”（中间倾向偏差）

这是论文里最有趣也最让人头疼的发现。

现象：数学题其实分四个等级：
1. 死记硬背（比如背乘法表）
2. 按部就班（比如套用公式，不需要理解原理）
3. 理解应用（用公式解决实际问题，需要理解）
4. 烧脑挑战（没有固定套路，需要自己探索）
AI 的行为：不管题目是“死记硬背”还是“烧脑挑战”，AI 总是倾向于把它们归类为中间的两个等级（按部就班或理解应用）。
比喻：这就好比一个**“老好人”评委**。面对一个特别简单的题，它不敢说是“简单”，怕显得自己没水平；面对一个特别难的题，它也不敢说是“难”，怕显得自己太苛刻。于是，它把所有题都往“中等难度”上靠。
- 结果：那些真正需要“死记硬背”的题，被它误判为“需要计算”；那些真正需要“烧脑”的题，也被它降级为“普通计算”。

3. 为什么 AI 会犯错？它是个“看表面”的选手

研究人员发现，AI 并不是在真正理解题目背后的思维过程，它更像是一个**“关键词搜索员”**。

现象：如果题目里出现了“算法”、“步骤”、“公式”这些词，AI 就立刻觉得：“哦，这肯定是按部就班的题。”哪怕这道题其实需要很深的思考。
比喻：这就像你让 AI 去判断一个人是“新手司机”还是“赛车手”。
- 新手司机：手里紧紧握着方向盘，不敢踩油门。
- 赛车手：在赛道上飞驰，但手里也握着方向盘。
- AI 的判断：只要看到“手里握着方向盘”（表面文字特征），它就说是“新手司机”。它完全忽略了赛车手脚下踩油门的力度和速度（深层认知过程）。
- 后果：AI 经常把那些需要深度思考的题，误判为只需要机械操作的题。

4. 专用工具 vs. 通用工具：并没有“亲儿子”优势

大家可能会想：“专门给老师用的 AI（比如 Khanmigo, Magic School）肯定比通用的 ChatGPT 更懂行吧？”

结果：并没有。 专门给教育用的 AI 和通用的 AI 在准确率上差不多，甚至有的通用 AI（如 DeepSeek）表现更好。
比喻：这就像问“专门给厨师用的手机”和“普通手机”谁拍照更好。结果发现，只要硬件（底层大模型）差不多，专门给厨师用的手机并没有因为加了几个“菜谱滤镜”就突然变得能拍出米其林级别的照片。

5. 最危险的陷阱：AI 会“一本正经地胡说八道”

这是论文里最让人警惕的一点。

现象：当 AI 分错类时，它给出的理由听起来非常专业、逻辑严密，甚至还会引用教育理论。
比喻：就像一个**“自信满满的假专家”**。如果你问它：“为什么这道题是中等难度？”它会给你列出一二三点，引用各种术语，让你觉得“哇，它分析得好透彻”。但实际上，它的核心判断是错的。
风险：对于新手老师来说，这种“看起来很有道理”的错误解释，比直接给个错误答案更可怕，因为它会误导老师，让他们以为自己的判断（或者 AI 的判断）是对的。

总结：AI 现在能做什么？不能做什么？

❌ 不能做什么：目前不能让 AI 独立去给数学题分类，然后直接拿来用。因为它太容易“和稀泥”，而且经常看表面不看本质。如果完全依赖它，可能会把简单的题教复杂，或者把难的题教简单了。
✅ 能做什么：它可以作为一个**“初筛助手”。比如，老师可以先把题丢给 AI，让它打个草稿，然后老师自己再复核一遍**。或者，用它来生成一些解释，但老师必须像“主编”一样去检查它的逻辑。

一句话总结：
现在的 AI 就像一个**“有点聪明但缺乏经验的实习生”**。它能帮你分担一部分工作，但它还没学会真正理解数学题的“灵魂”。在老师还没学会如何更好地“调教”（提示词工程）它之前，老师手中的那把尺子（专业判断），依然是不可替代的。

Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks

1. 总体表现：像个“及格生”，但离“优等生”还差得远

2. 最大的毛病：喜欢“走中间路线”（中间倾向偏差）

3. 为什么 AI 会犯错？它是个“看表面”的选手

4. 专用工具 vs. 通用工具：并没有“亲儿子”优势

5. 最危险的陷阱：AI 会“一本正经地胡说八道”

总结：AI 现在能做什么？不能做什么？

论文技术总结：AI 工具在数学任务认知需求分类中的基线表现

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 主要结果 (Results)

4. 关键贡献 (Key Contributions)

5. 意义与启示 (Significance)

Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks

1. 总体表现：像个“及格生”，但离“优等生”还差得远

2. 最大的毛病：喜欢“走中间路线”（中间倾向偏差）

3. 为什么 AI 会犯错？它是个“看表面”的选手

4. 专用工具 vs. 通用工具：并没有“亲儿子”优势

5. 最危险的陷阱：AI 会“一本正经地胡说八道”

总结：AI 现在能做什么？不能做什么？

论文技术总结：AI 工具在数学任务认知需求分类中的基线表现

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 主要结果 (Results)

4. 关键贡献 (Key Contributions)

5. 意义与启示 (Significance)

类似论文

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

Online Monitoring of Metric Temporal Logic using Sequential Networks

Homotopy type theory as a language for diagrams of $\infty$ -logoses