Human-in-the-Loop LLM Grading for Handwritten Mathematics Assessments

该论文提出并验证了一种结合自动扫描、多轮大模型评分与强制人工复核的人机协同工作流程,用于手写数学作业评估,在显著减少 23% 评分时间的同时保持了与人工评分相当甚至更优的公平性与准确性。

Arne Vanhoyweghen, Vincent Holst, Melika Mobini, Lukas Van de Voorde, Tibo Vanleke, Bert Verbruggen, Brecht Verbeken, Andres Algaba, Sam Verboven, Marie-Anne Guerry, Filip Van Droogenbroeck, Vincent Ginis

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何用人工智能(AI)辅助老师批改手写数学作业的故事。

想象一下,你是一位数学老师,面对全班几十个学生交上来的手写试卷。以前,你需要熬夜一笔一划地看,还要担心自己是不是太累了导致打分不公,或者因为太忙而没法及时把分数和评语发给学生。

现在,这篇论文提出了一套"人机协作"的新方案,就像给老师配了一位超级得力的“AI 助教”。

以下是用通俗语言和比喻对这篇论文的解读:

1. 背景:为什么我们需要这个?

  • 手写作业的困境:现在的考试越来越倾向于让学生在课堂上手写解题(因为 AI 能帮学生在家做作业,所以老师更看重课堂上的真实表现)。但手写作业批改起来非常慢,而且很难给每个学生提供个性化的反馈。
  • AI 的双刃剑:一方面,AI 能帮老师批改;另一方面,AI 也能帮学生作弊。所以,我们需要一种既能利用 AI 提高效率,又能保证公平和准确的方法。

2. 核心方案:像“流水线”一样的智能批改系统

作者设计了一套完整的流程,把批改工作变成了三个步骤:

第一步:制定“评分地图” (Solution Keys & Rubrics)

这是最关键的一步。

  • 比喻:想象你要教一个机器人怎么切蛋糕。你不能只说“切得均匀点”,你得说:“先切两刀,每刀之间留 2 厘米,切到第三层时停一下”。
  • 做法:老师不能只给 AI 一个标准答案,必须写一份极其详细的“评分指南”。比如:“认出分子分母都是 0 得 2 分,正确因式分解得 4 分,约分得 2 分……"
  • 教训:研究发现,如果指南写得太模糊(比如只说“部分给分”),AI 就会像没头苍蝇一样乱打分。只有把步骤拆解得细之又细,AI 才能稳定工作。

第二步:AI 的“五重天” (Multi-pass Grading)

  • 比喻:就像让同一个厨师做五次同样的菜,然后取最好的味道,或者让五个裁判同时打分。
  • 做法:系统把学生的作业图片(隐去了名字)发给 AI,让 AI 对同一份作业独立打分 5 次
  • 目的:AI 有时候会“抽风”(随机性),比如第一次觉得这题值 8 分,第二次觉得值 3 分。通过打 5 次,系统可以检查这 5 次结果是否一致。如果差异太大,系统就会报警。

第三步:人类老师的“最终拍板” (Human-in-the-Loop)

  • 比喻:AI 是“预审员”,老师是“终审法官”。
  • 做法:系统会把 AI 算出的最高分(为了对学生有利,取 5 次里的最高分)和那 5 次打分的理由展示给老师看。
    • 如果老师觉得“嗯,AI 说得对”,那就直接通过。
    • 如果老师觉得“不对,AI 看走眼了”,老师可以手动修改。
  • 关键点:AI 负责处理 95% 的常规作业,老师只需要花精力去检查那 5% 的“异常”情况。

3. 实验结果:真的好用吗?

作者在两门大学数学课上试用了这套系统,用了 6 次小测验。结果令人惊喜:

  • 速度变快了:批改时间减少了约 23%
    • 比喻:以前批改一份作业要 5 分钟,现在只要 3 分 40 秒。虽然看起来不多,但面对几百份作业,省下的时间足够老师去备课或休息了。
  • 打分更准了
    • 通常,两个老师批改同一份卷子,分数可能会有出入(比如一个给 8 分,一个给 6 分)。
    • 但在引入 AI 后,“老师 vs AI"的打分一致性,竟然比“老师 vs 老师”还要高,或者至少一样好。
    • 比喻:AI 就像一把“定海神针”,它给出的分数往往在两个老师打分的中间,起到了稳定作用,减少了人为的情绪波动或疲劳导致的偏差。
  • 公平性:虽然 AI 偶尔会犯傻(比如把无关的公式也算分),但因为有人类老师最后把关,这些错误都被拦截了。

4. 总结与启示

这篇论文告诉我们一个重要的道理:不要试图用 AI 完全取代老师,而是要让 AI 成为老师的“超级助手”

  • 以前的想法:AI 能不能自己全权负责批改?(答案:不行,它会犯错,也不够灵活。)
  • 现在的做法:AI 负责“粗活”和“标准化”,老师负责“把关”和“处理特殊情况”。

一句话总结
这就好比在繁忙的机场,AI 是自动安检机,能快速筛查绝大多数旅客;而人类安检员则专注于处理那些机器报警的少数情况。这样既保证了效率,又确保了安全。

这套系统不仅让老师少加班,还能让学生更快收到反馈,真正实现了“大规模”下的“个性化教育”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →