From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给“人工智能批改英语作文”这件事做了一次全面的“大比武”。

想象一下，你开了一家超级英语补习班，但学生太多，老师（人类考官）根本改不过来。于是，你决定请一群不同背景的“机器助教”来帮忙批改雅思（IELTS）作文。

这篇论文就是作者们把这几类助教请到了同一个考场，看看谁改得最准、谁最省钱、谁最像真人老师。

🏆 参赛的四大“机器助教”流派

作者们测试了四种不同的“批改策略”，我们可以把它们想象成四种不同性格的助教：

1. 传统学霸派（Discriminative Fine-Tuning）

形象：这是一个死记硬背的“做题机器”。它被喂了大量的作文和标准答案，学会了看到什么词就对应什么分数。
特点：它很老实，改得比较稳，但有点“死板”。它只能给你一个冷冰冰的分数，很难写出像人话一样的评语。就像是一个只会打分的计算器，虽然快，但不懂作文的“灵魂”。
结果：表现中等，不够灵活。

2. 天才聊天派（Zero/Few-shot Prompting）

形象：这是像 GPT-4 或 Llama 3 这样的“超级聊天机器人”。你不需要训练它，只要给它发个指令：“嘿，你现在的角色是雅思考官，请给这篇作文打分并写评语。”
特点：它非常聪明，反应快，不需要你花钱训练。但它有点像“天才但情绪不稳定”的学生：有时候改得神准，有时候又因为没理解你的暗示而乱打分。而且，用这种“超级大脑”每次都要花很多钱（算力成本）。
结果：分数忽高忽低，成本太高，不够稳定。

3. 专业特训派（Instruction Tuning + RAG）

形象：这是经过“魔鬼特训”的助教。作者不仅给它看了很多作文（指令微调），还给它配了一个**“随身小抄本”**（检索增强生成，RAG）。
核心玩法：
- 特训：专门教它雅思的四个评分标准（任务回应、连贯性、词汇、语法）。
- 小抄本：当它批改一篇作文时，它会先去“小抄本”里找几篇类似的范文和评分标准，照着学。
特点：这就像是一个既懂理论又有实战经验的专家。它不会瞎编乱造，因为它时刻参考着标准答案。
结果：🏆 冠军！ 它的打分最准（准确率高达 99%），而且非常稳定。

4. 人本关怀派（SFT + DPO + RAG）

形象：这是在“专业特训派”的基础上，又给它请了一位“人类导师”进行**“价值观对齐”**。
核心玩法：除了让它学标准，还让它看人类老师是怎么写评语的。如果它写的评语太生硬，人类导师就告诉它：“这样写不好，要这样写才像人话。”（这叫直接偏好优化，DPO）。
特点：它的打分可能稍微有一点点偏差（比如该打 7 分打了 6.5 分），但它写出来的评语特别像真人老师，温暖、有逻辑、能真正帮助学生进步。
结果：打分非常准，但写评语的能力最强。

🥊 比赛结果与“性价比”分析

作者们发现了一个有趣的**“不可能三角”**：

最省钱但效果一般：直接用聊天机器人（流派 2），不用训练，但改得忽好忽坏，而且每次调用都要花大钱。
最精准但成本适中：“专业特训派”（流派 3） 是最佳平衡点。它通过“特训 + 查小抄”，用合理的成本换来了最高的打分准确率（F1 分数 93%）。
最像人但成本最高：“人本关怀派”（流派 4） 改得最像真人老师，评语写得最好，但训练它最花时间、最烧钱。

💡 论文的核心启示（给普通人的大白话）

这篇论文告诉我们，如果你想用 AI 来批改英语作文：

如果你是为了考试（比如雅思模拟考），需要极其精准的分数：
请选择**“专业特训派”**（流派 3）。给它看标准，让它查资料，这样它打分最准，最不容易出错。
如果你是为了学习（比如日常练习），需要老师给建议：
请选择**“人本关怀派”**（流派 4）。虽然分数可能差 0.5 分，但它写出的评语能真正告诉你哪里写得不好，怎么改，读起来更像真人老师在和你对话。
不要只靠“直接问”：
直接让大模型去改（流派 2），虽然方便，但就像让一个没经过培训的实习生去监考，容易出乱子。

🎯 总结

这就好比选老师：

流派 1 是只会算分的计算器。
流派 2 是聪明但随性的天才，偶尔神准偶尔离谱。
流派 3 是最靠谱的阅卷组长，拿着标准答案和范文，打分最准。
流派 4 是最懂学生的金牌导师，虽然偶尔手抖打错分，但讲道理讲得最透彻。

作者们最终发现，把“标准答案（RAG）”和“人类偏好（DPO）”结合起来，才是未来自动批改作文的终极形态。

From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

🏆 参赛的四大“机器助教”流派

1. 传统学霸派（Discriminative Fine-Tuning）

2. 天才聊天派（Zero/Few-shot Prompting）

3. 专业特训派（Instruction Tuning + RAG）

4. 人本关怀派（SFT + DPO + RAG）

🥊 比赛结果与“性价比”分析

💡 论文的核心启示（给普通人的大白话）

🎯 总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

四种评估范式：

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 研究意义 (Significance)

From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

🏆 参赛的四大“机器助教”流派

1. 传统学霸派（Discriminative Fine-Tuning）

2. 天才聊天派（Zero/Few-shot Prompting）

3. 专业特训派（Instruction Tuning + RAG）

4. 人本关怀派（SFT + DPO + RAG）

🥊 比赛结果与“性价比”分析

💡 论文的核心启示（给普通人的大白话）

🎯 总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

四种评估范式：

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 研究意义 (Significance)

类似论文

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models