Human-in-the-Loop LLM Grading for Handwritten Mathematics Assessments

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何用人工智能（AI）辅助老师批改手写数学作业的故事。

想象一下，你是一位数学老师，面对全班几十个学生交上来的手写试卷。以前，你需要熬夜一笔一划地看，还要担心自己是不是太累了导致打分不公，或者因为太忙而没法及时把分数和评语发给学生。

现在，这篇论文提出了一套"人机协作"的新方案，就像给老师配了一位超级得力的“AI 助教”。

以下是用通俗语言和比喻对这篇论文的解读：

1. 背景：为什么我们需要这个？

手写作业的困境：现在的考试越来越倾向于让学生在课堂上手写解题（因为 AI 能帮学生在家做作业，所以老师更看重课堂上的真实表现）。但手写作业批改起来非常慢，而且很难给每个学生提供个性化的反馈。
AI 的双刃剑：一方面，AI 能帮老师批改；另一方面，AI 也能帮学生作弊。所以，我们需要一种既能利用 AI 提高效率，又能保证公平和准确的方法。

2. 核心方案：像“流水线”一样的智能批改系统

作者设计了一套完整的流程，把批改工作变成了三个步骤：

第一步：制定“评分地图” (Solution Keys & Rubrics)

这是最关键的一步。

比喻：想象你要教一个机器人怎么切蛋糕。你不能只说“切得均匀点”，你得说：“先切两刀，每刀之间留 2 厘米，切到第三层时停一下”。
做法：老师不能只给 AI 一个标准答案，必须写一份极其详细的“评分指南”。比如：“认出分子分母都是 0 得 2 分，正确因式分解得 4 分，约分得 2 分……"
教训：研究发现，如果指南写得太模糊（比如只说“部分给分”），AI 就会像没头苍蝇一样乱打分。只有把步骤拆解得细之又细，AI 才能稳定工作。

第二步：AI 的“五重天” (Multi-pass Grading)

比喻：就像让同一个厨师做五次同样的菜，然后取最好的味道，或者让五个裁判同时打分。
做法：系统把学生的作业图片（隐去了名字）发给 AI，让 AI 对同一份作业独立打分 5 次。
目的：AI 有时候会“抽风”（随机性），比如第一次觉得这题值 8 分，第二次觉得值 3 分。通过打 5 次，系统可以检查这 5 次结果是否一致。如果差异太大，系统就会报警。

第三步：人类老师的“最终拍板” (Human-in-the-Loop)

比喻：AI 是“预审员”，老师是“终审法官”。
做法：系统会把 AI 算出的最高分（为了对学生有利，取 5 次里的最高分）和那 5 次打分的理由展示给老师看。
- 如果老师觉得“嗯，AI 说得对”，那就直接通过。
- 如果老师觉得“不对，AI 看走眼了”，老师可以手动修改。
关键点：AI 负责处理 95% 的常规作业，老师只需要花精力去检查那 5% 的“异常”情况。

3. 实验结果：真的好用吗？

作者在两门大学数学课上试用了这套系统，用了 6 次小测验。结果令人惊喜：

速度变快了：批改时间减少了约 23%。
- 比喻：以前批改一份作业要 5 分钟，现在只要 3 分 40 秒。虽然看起来不多，但面对几百份作业，省下的时间足够老师去备课或休息了。
打分更准了：
- 通常，两个老师批改同一份卷子，分数可能会有出入（比如一个给 8 分，一个给 6 分）。
- 但在引入 AI 后，“老师 vs AI"的打分一致性，竟然比“老师 vs 老师”还要高，或者至少一样好。
- 比喻：AI 就像一把“定海神针”，它给出的分数往往在两个老师打分的中间，起到了稳定作用，减少了人为的情绪波动或疲劳导致的偏差。
公平性：虽然 AI 偶尔会犯傻（比如把无关的公式也算分），但因为有人类老师最后把关，这些错误都被拦截了。

4. 总结与启示

这篇论文告诉我们一个重要的道理：不要试图用 AI 完全取代老师，而是要让 AI 成为老师的“超级助手”。

以前的想法：AI 能不能自己全权负责批改？（答案：不行，它会犯错，也不够灵活。）
现在的做法：AI 负责“粗活”和“标准化”，老师负责“把关”和“处理特殊情况”。

一句话总结：
这就好比在繁忙的机场，AI 是自动安检机，能快速筛查绝大多数旅客；而人类安检员则专注于处理那些机器报警的少数情况。这样既保证了效率，又确保了安全。

这套系统不仅让老师少加班，还能让学生更快收到反馈，真正实现了“大规模”下的“个性化教育”。

Each language version is independently generated for its own context, not a direct translation.

以下是基于论文《HUMAN-IN-THE-LOOP LLM GRADING FOR HANDWRITTEN MATHEMATICS ASSESSMENTS》（人机回环 LLM 在手写数学评估中的评分应用）的详细技术总结：

1. 研究背景与问题 (Problem)

核心痛点：在大规模教育环境中，提供及时、个性化且一致的反馈对于学习至关重要，但对手写作业（特别是开放式数学题）进行评分和数字化处理极其耗时，导致教师难以在繁重的教学任务中实现这一点。
生成式 AI 的双重影响：
- 挑战：生成式 AI 能够生成高质量的手写数学解题过程，使得传统的家庭作业（Take-home assessments）难以真实反映学生的独立理解能力，迫使评估转向 supervised（受控的）、课堂内的笔试。
- 机遇：多模态大语言模型（LLM）具备光学字符识别（OCR）和上下文分析能力，理论上可以辅助评分，但现有研究多局限于受控环境，缺乏在真实课堂中兼顾隐私、随机性和重复使用的端到端部署方案。
目标：开发一种可扩展的、人机回环（Human-in-the-Loop）的工作流，利用 LLM 辅助评分简短的、纸笔形式的数学测试，在减少工作量的同时保持评分的公平性和准确性。

2. 方法论 (Methodology)

研究在布鲁塞尔自由大学（Vrije Universiteit Brussel）的两门本科数学课程中部署了该系统，包含 6 次低风险的课堂“加分测试”（每次 10 分钟，2 道手写题）。

2.1 数据预处理与隐私保护

标准化答题纸：使用带有气泡码（Bubble-coded）学生 ID 的标准化答题纸，便于 OCR 解析。
自动化处理流程：
1. 批量扫描答题纸为 PDF。
2. 利用 OCR 和模板识别提取固定结构元素（ID、组别、两个答题框坐标）。
3. 裁剪与匿名化：自动裁剪出答题框图像，并移除所有包含身份信息的区域，仅保留手写数学推理内容。
4. 人工核对：OCR 提取的 ID 需人工核对以确保正确分配。

2.2 评分工作流设计

工作流包含三个核心组件：

构建标准答案 (Solution Keys)：为每道题编写详细的 LaTeX 标准解答，作为 LLM 的参考基准。
开发评分细则 (Grading Keys)：这是最关键的环节。
- 细粒度分解：将解题过程分解为具体的、枚举的步骤，每个步骤分配固定且较低的分数（通常 2-3 分/步）。
- 明确替代方案：显式允许不同的有效解题路径，避免模型因未匹配预设路径而扣分。
- 消除歧义：避免“部分给分”等模糊术语，明确说明哪些偏差不应扣分。
- 防幻觉指令：提示模型仅依据学生明确写出的步骤给分，严禁根据正确答案反推推理过程。
LLM 评分与人工验证：
- 模型：使用 GPT-5.1。
- 多次评估：每个学生的回答被独立评估5 次，以应对 LLM 输出的随机性。
- 聚合策略：采用**最大值（Maximum）**作为暂定分数（出于对学生有利的保守策略），防止意外低分。
- 一致性检查：计算 5 次评分的方差和异常值。若出现显著分歧，自动标记供人工复核。
- 人工回环 (Human-in-the-Loop)：教师查看 LLM 生成的 5 个分数、一致性指标及推理过程，最终决定采纳或推翻 LLM 的暂定分数。

2.3 实验设计

对比组：6 名经验丰富的评分员参与，采用交叉设计（部分先人工后数字，部分先数字后人工），以消除学习效应。
指标：
- 时间效率：比较人工评分与 LLM 辅助评分的时间比率。
- 评分一致性：使用二次加权 Cohen's $\kappa$ 系数，比较“人工 vs 人工”与“人工 vs LLM"的一致性，并将人工间差异作为可接受变异的基准。

3. 关键贡献 (Key Contributions)

端到端工作流：提出并验证了一个完整的、可扩展的 LLM 辅助评分管道，涵盖从试卷扫描、匿名化、多轮 LLM 评分到人工最终确认的全过程。
评分细则（Grading Key）的工程化原则：通过迭代测试，确立了构建 LLM 友好型评分细则的关键原则（细粒度步骤、显式替代路径、具体化标准），解决了 LLM 对模糊指令过度字面化执行的问题。
人机回环的实证研究：证明了在真实课堂环境中，通过“多轮评估 + 最大值聚合 + 人工复核”的混合设计，可以有效控制 LLM 的随机性和幻觉错误。
开源实现：公开了包含试卷处理、匿名化、评分及反馈生成的完整代码库。

4. 实验结果 (Results)

时间效率提升：
- LLM 辅助评分使平均评分时间减少了约 23.3%（几何平均比率 D/M = 0.767）。
- 即使考虑到人工评分员已熟悉流程且数字化评分避免了手动转录 ID 的开销，这一提升依然显著。
评分一致性 (Alignment)：
- 人机一致性 $\ge$ 人人一致性：在大多数题目中，人工评分员与 LLM 的一致性（ $\kappa$ 值）与两名人工评分员之间的一致性相当，甚至在某些情况下（如 Bonus 3 Q2B）更高。
- 分布特征：数字工作流下的评分偏差分布更集中在零附近（中位数绝对偏差更低），表明 LLM 起到了“稳定锚点”的作用，减少了常规情况下的评分波动。
- 异常值处理：虽然存在少量（约 3%）较大的异常偏差（Outliers），但这正是人工复核步骤旨在捕捉和修正的情况。
鲁棒性：使用 5 次评估的最大值作为暂定分，既保护了学生免受偶然低分影响，又通过一致性检查有效识别了模型的不稳定输出。

5. 意义与结论 (Significance)

重新定位 LLM 的角色：研究指出，不应试图用 LLM 完全替代人类评分员，而应将其作为增强人类判断的工具。在明确设计的工作流中，LLM 能承担大部分常规评分工作，提供稳定的基准，而人类则专注于处理边缘案例和最终决策。
解决评估悖论：该方案成功解决了生成式 AI 带来的评估挑战（家庭作业不可信）与评估需求（需要个性化反馈）之间的矛盾。通过受控的纸笔测试结合 LLM 辅助，既能保证评估的独立性，又能实现大规模、及时的反馈。
可扩展性：虽然研究基于数学课程，但该工作流（特别是细粒度评分细则的设计原则）可推广至其他 STEM 领域的结构化任务（如编程评估）。
未来方向：未来的改进方向包括优化学生 ID 识别（使用纠错码代替气泡码）以及探索在更开放、缺乏严格评分细则的评估场景中的应用。

总结：该论文证明了，通过精心设计的“人机回环”工作流，LLM 可以显著降低手写数学评估的负担（约 23%），同时维持甚至提高评分的一致性和公平性，为生成式 AI 时代的教育评估提供了可行的实践范式。