Can LLMs Model Incorrect Student Reasoning? A Case Study on Distractor Generation

该研究通过构建分类法分析发现,大语言模型在生成干扰项时通常遵循“先求解正确答案、再模拟错误认知、最后筛选”的合理流程,且提供正确答案作为提示能显著提升其生成结果与人类编写干扰项的一致性。

Yanick Zengaffinen, Andreas Opedal, Donya Rooein, Kv Aditya Srivatsa, Shashank Sonkar, Mrinmaya Sachan

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在做一场**“侦探游戏”,主角是现在的超级人工智能(大语言模型,LLM),任务是看它们能不能“扮演”犯错的学生**,并帮老师想出那些**“看起来很像正确答案,但其实是错的”**的干扰项(Distractors)。

为了让你更容易理解,我们可以把整个过程想象成**“制造假钞”或者“扮演一个笨拙的学徒”**。

1. 核心任务:为什么要“制造错误”?

在教育里,老师出选择题时,除了一个正确答案,还需要几个干扰项

  • 好的干扰项:不是随便乱写的,而是基于学生真实的错误想法(比如“忘记除以分母”或“把加号看成乘号”)。
  • 坏干扰项:只是把正确答案改个数字,或者写得乱七八糟,学生一眼就能看出是错的。

这篇论文想问:现在的 AI 能不能像人类专家一样,先理解题目,然后故意“装傻”,模拟出学生可能会犯的错,从而造出高质量的干扰项?

2. 研究方法:给 AI 做“思想 X 光”

研究人员没有只看 AI 最后给出的答案(就像只看考试卷子的分数),而是给 AI 戴上了**“思想 X 光眼镜”**(分析 AI 的推理过程/思维链)。

他们发明了一套**“思维分类法”**(就像给侦探的线索贴标签),看看 AI 在思考时到底经历了哪些步骤:

  • 先解对题:AI 是不是先像个学霸一样,把正确答案算出来了?
  • 找茬:AI 有没有列出学生可能会犯的错误(比如“忘记约分”)?
  • 演戏:AI 有没有顺着那个错误,一步步算出一个错误的结果?
  • 挑刺:AI 有没有检查这个错误答案“像不像”学生写的?

3. 惊人的发现:AI 其实是个“先学后犯”的聪明孩子

研究结果非常有趣,甚至有点让人意外:

  • AI 的套路和人类专家很像
    以前我们以为 AI 可能会像“随机生成器”一样瞎编。但研究发现,AI 通常遵循一个**“先正后误”**的流程:

    1. 先当学霸:先把题目正确地解出来(这是它的“锚点”)。
    2. 再当笨蛋:在正确的步骤里,故意“踩坑”(比如故意算错一步)。
    3. 最后筛选:从一堆算错的結果里,挑出最像学生会犯的错。

    比喻:这就像是一个魔术师。他先完美地表演了魔术(算出正确答案),然后故意在某个环节“手抖”一下,制造出一个看似合理但其实是假的结局。

  • AI 哪里容易翻车?
    虽然 AI 的“演戏”能力(模拟错误过程)很强,但它翻车的地方主要在于:

    1. 算错正题:有时候它连正确答案都算不对,那后面的“故意犯错”也就没意义了。
    2. 挑不出好戏:它算出了很多错误答案,但有时候挑不出哪个最像学生会选的。

4. 关键技巧:给 AI 一个“作弊条”

研究发现了一个超级简单的提升方法:
如果在给 AI 的提示里,直接把正确答案告诉它,它的表现会提升 8%。

  • 比喻:这就好比让 AI 扮演一个“笨学生”。如果你只说“请算错这道题”,AI 可能会懵。但如果你说“这道题正确答案是 10,现在请你假装算错了,给出一个像 9 或 11 这样的错误答案”,AI 就能立刻进入角色,演得更像。
  • 结论:AI 需要一个**“正确的基准”**作为参照,才能精准地模拟出“偏离”这个基准的错误。

5. 总结:这对我们意味着什么?

这篇论文告诉我们:

  1. AI 很懂教育心理学:它们生成干扰项的方式,竟然和人类教育专家设计的“基于错误概念”的方法不谋而合。
  2. AI 不是乱猜:它们是有逻辑地在“模拟人类思维”,而不是随机乱填。
  3. 未来可期:只要给 AI 提供正确的引导(比如告诉它正确答案),它就能成为老师的好帮手,自动批量生成高质量的考试题,甚至能帮老师诊断学生到底哪里没学会。

一句话总结
现在的 AI 不仅能做学霸,还能**“完美地扮演笨学生”**。只要给它们一个正确的“靶子”,它们就能精准地射出那些看起来很像真的“错误箭矢”,帮老师把考试出得更专业。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →