From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

该论文在雅思写作任务上首次统一比较了包括提示、指令微调、RAG 及偏好优化在内的多种大语言模型自动作文评分范式,发现结合监督微调与 RAG 的配置能以 93% 的 F1 分数实现最佳的整体性能。

Minh Hoang Nguyen, Vu Hoang Pham, Xuan Thanh Huynh, Phuc Hong Mai, Vinh The Nguyen, Quang Nhut Huynh, Huy Tien Nguyen, Tung Le

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给“人工智能批改英语作文”这件事做了一次全面的“大比武”

想象一下,你开了一家超级英语补习班,但学生太多,老师(人类考官)根本改不过来。于是,你决定请一群不同背景的“机器助教”来帮忙批改雅思(IELTS)作文。

这篇论文就是作者们把这几类助教请到了同一个考场,看看谁改得最准、谁最省钱、谁最像真人老师。

🏆 参赛的四大“机器助教”流派

作者们测试了四种不同的“批改策略”,我们可以把它们想象成四种不同性格的助教:

1. 传统学霸派(Discriminative Fine-Tuning)

  • 形象:这是一个死记硬背的“做题机器”。它被喂了大量的作文和标准答案,学会了看到什么词就对应什么分数。
  • 特点:它很老实,改得比较稳,但有点“死板”。它只能给你一个冷冰冰的分数,很难写出像人话一样的评语。就像是一个只会打分的计算器,虽然快,但不懂作文的“灵魂”。
  • 结果:表现中等,不够灵活。

2. 天才聊天派(Zero/Few-shot Prompting)

  • 形象:这是像 GPT-4 或 Llama 3 这样的“超级聊天机器人”。你不需要训练它,只要给它发个指令:“嘿,你现在的角色是雅思考官,请给这篇作文打分并写评语。”
  • 特点:它非常聪明,反应快,不需要你花钱训练。但它有点像“天才但情绪不稳定”的学生:有时候改得神准,有时候又因为没理解你的暗示而乱打分。而且,用这种“超级大脑”每次都要花很多钱(算力成本)。
  • 结果:分数忽高忽低,成本太高,不够稳定。

3. 专业特训派(Instruction Tuning + RAG)

  • 形象:这是经过“魔鬼特训”的助教。作者不仅给它看了很多作文(指令微调),还给它配了一个**“随身小抄本”**(检索增强生成,RAG)。
  • 核心玩法
    • 特训:专门教它雅思的四个评分标准(任务回应、连贯性、词汇、语法)。
    • 小抄本:当它批改一篇作文时,它会先去“小抄本”里找几篇类似的范文和评分标准,照着学。
  • 特点:这就像是一个既懂理论又有实战经验的专家。它不会瞎编乱造,因为它时刻参考着标准答案。
  • 结果🏆 冠军! 它的打分最准(准确率高达 99%),而且非常稳定。

4. 人本关怀派(SFT + DPO + RAG)

  • 形象:这是在“专业特训派”的基础上,又给它请了一位“人类导师”进行**“价值观对齐”**。
  • 核心玩法:除了让它学标准,还让它看人类老师是怎么写评语的。如果它写的评语太生硬,人类导师就告诉它:“这样写不好,要这样写才像人话。”(这叫直接偏好优化,DPO)。
  • 特点:它的打分可能稍微有一点点偏差(比如该打 7 分打了 6.5 分),但它写出来的评语特别像真人老师,温暖、有逻辑、能真正帮助学生进步。
  • 结果:打分非常准,但写评语的能力最强

🥊 比赛结果与“性价比”分析

作者们发现了一个有趣的**“不可能三角”**:

  1. 最省钱但效果一般:直接用聊天机器人(流派 2),不用训练,但改得忽好忽坏,而且每次调用都要花大钱。
  2. 最精准但成本适中“专业特训派”(流派 3) 是最佳平衡点。它通过“特训 + 查小抄”,用合理的成本换来了最高的打分准确率(F1 分数 93%)。
  3. 最像人但成本最高“人本关怀派”(流派 4) 改得最像真人老师,评语写得最好,但训练它最花时间、最烧钱。

💡 论文的核心启示(给普通人的大白话)

这篇论文告诉我们,如果你想用 AI 来批改英语作文:

  • 如果你是为了考试(比如雅思模拟考),需要极其精准的分数
    请选择**“专业特训派”**(流派 3)。给它看标准,让它查资料,这样它打分最准,最不容易出错。

  • 如果你是为了学习(比如日常练习),需要老师给建议
    请选择**“人本关怀派”**(流派 4)。虽然分数可能差 0.5 分,但它写出的评语能真正告诉你哪里写得不好,怎么改,读起来更像真人老师在和你对话。

  • 不要只靠“直接问”
    直接让大模型去改(流派 2),虽然方便,但就像让一个没经过培训的实习生去监考,容易出乱子。

🎯 总结

这就好比选老师

  • 流派 1 是只会算分的计算器。
  • 流派 2 是聪明但随性的天才,偶尔神准偶尔离谱。
  • 流派 3最靠谱的阅卷组长,拿着标准答案和范文,打分最准。
  • 流派 4最懂学生的金牌导师,虽然偶尔手抖打错分,但讲道理讲得最透彻。

作者们最终发现,把“标准答案(RAG)”和“人类偏好(DPO)”结合起来,才是未来自动批改作文的终极形态。