Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

该研究证实,利用大语言模型提取认知与语言特征并结合树集成机器学习算法,比直接让模型评分更能准确预测 K-5 数学和阅读题目的难度,从而为减少大规模实地测试提供了高效可行的替代方案。

Pooya Razavi, Sonya Powers

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何不用让学生实际做题,就能猜出题目难易程度”**的有趣故事。

想象一下,你是一位出题老师。在把新题目放进考试之前,你通常得先找一群学生来“试做”(这叫“田野测试”),看看大家做得怎么样,才能知道题目是太难还是太简单。但这很麻烦:既花钱又花时间,而且试做过的题目容易泄露,下次考试就不能用了。

这篇论文的研究者(来自 Edmentum 公司)想出了一个新点子:能不能让超级聪明的“人工智能(AI)”直接读题目,然后告诉我们这道题有多难?

他们用了两种不同的“魔法”来测试这个想法:

魔法一:直接问 AI(“直觉派”)

做法: 研究者直接把题目发给 AI(GPT-4o),就像问一位经验丰富的老教师:“嘿,你觉得这道题对小学生来说难不难?请给个分数(1 到 100 分)。”
结果:

  • 总体不错: AI 的直觉挺准的,尤其是对于高年级(3-5 年级)的题目,它猜出来的难度和真实情况很接近。
  • 小学生的难题: 对于幼儿园和一年级的题目,AI 就有点“晕”了。它猜得不太准,甚至不如直接猜“所有题目平均难度”来得准。
  • 原因: 就像让一个成年人去猜幼儿园小朋友的烦恼,成年人很难理解那些细微的、看似简单但对小孩来说很复杂的点。

魔法二:拆解分析 + 数学模型(“拆解派”)

做法: 这次,研究者不直接问 AI“难不难”,而是让它当一名**“题目解剖师”**。

  1. 拆解: 研究者列出了一张详细的清单(比如:这道题需要几步思考?词汇难不难?有没有陷阱选项?需要看图吗?)。
  2. 打分: AI 根据这张清单,给每一道题的每个特征打分。
  3. 组合: 然后,研究者把这些 AI 打的分,喂给另一个更擅长算数的“机器学习模型”(像随机森林和梯度提升树)。这个模型会学习:“哦,原来当‘词汇难’和‘需要多步思考’同时出现时,题目就会变难。”
    结果:
  • 大获全胜! 这种方法比直接问 AI 准得多,甚至比传统的猜题方法(只靠题目字数、年级等表面信息)也要准得多。
  • 准确率: 对于数学和阅读题,这种方法的预测准确率非常高(相关性高达 0.87),几乎能完美预测出题目的真实难度。

核心发现与比喻

  1. 为什么“拆解派”赢了?

    • 比喻: 直接问 AI 难度,就像让一个厨师尝一口菜,直接说“咸淡如何”。这很依赖厨师的个人感觉,容易出错。
    • 拆解派则是让厨师先分析:盐放了多少?火候到了吗?食材新鲜吗?最后再由一个数据分析师把这些数据综合起来得出结论。这样更科学、更稳定。
  2. 为什么低年级(幼儿园/一年级)难猜?

    • 比喻: 低年级的题目就像“微缩景观”,难度差异非常细微。就像在一张白纸上画两条几乎一样的线,让人分辨哪条长一点很难。而高年级的题目像“高山和深谷”,差异巨大,AI 很容易分辨。
  3. 这对我们意味着什么?

    • 省钱省时: 以后出题,可能不需要找几千个学生来试做了。AI 可以先“预演”一遍,告诉出题人:“这道题太难了,改简单点”或者“这道题太简单了,加点陷阱”。
    • 保护题目: 减少了题目泄露的风险,因为不需要大规模试做。

给出题人的“七步指南”

论文最后还给了一个“操作手册”,教其他专家怎么复制这个成功:

  1. 选题目: 挑足够多的题目(既有简单的也有难的)。
  2. 找专家: 问问真正的出题老师,哪些因素决定题目难易(比如:是不是要画图?是不是要推理?)。
  3. 选 AI: 挑一个聪明的 AI 模型。
  4. 写指令: 教 AI 怎么按上面的因素给题目打分(就像给 AI 发一张详细的评分表)。
  5. 检查 AI: 看看 AI 有没有乱打分(比如所有题都打一样的分)。
  6. 训练模型: 用数学模型把 AI 的打分和真实难度对应起来。
  7. 验证: 拿一批新题目试试,看准不准。

总结

这篇论文告诉我们:AI 已经非常聪明,能读懂题目的“灵魂”了。 但如果我们只是让它“凭感觉”猜,它偶尔会翻车;如果我们教它**“拆解分析”**,再配合数学模型,它就能成为出题人的超级助手,让考试变得更公平、更高效,也能少花很多冤枉钱。

不过,对于幼儿园和一年级的题目,AI 还需要再“磨练”一下,毕竟理解小孩子的思维世界,对 AI 来说还是个挑战。