Large language model scoring of medical student reflection essays: Accuracy and reproducibility of prompt-model variations

该研究评估了多种提示策略和模型变体对医学生反思作文的评分表现,发现大多数大语言模型配置均能达到近乎完美的人机评分一致性与可重复性,其中微调模型和包含示例的提示在精度上更优,而 GPT-4.1-mini 则在低成本下提供了良好的评分效果。

Cook, D. A., Laack, T. A., Pankratz, V. S.

发布于 2026-03-24
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一场**“人工智能阅卷员大比拼”**。

想象一下,医学院的学生们写了一篇篇关于“临床经历感悟”的反思作文。以前,这些作文必须由真人老师(阅卷人)一篇篇仔细阅读、打分,还要写评语。但这就像让一群老师每天加班批改几千份试卷,既累人又贵,而且不同老师打分标准还容易不一致(有的手松,有的手紧)。

于是,研究者想:能不能让大语言模型(LLM,比如现在的 GPT-4)来当“阅卷机器人”?为了找到最好的“阅卷方法”,他们设计了一场29 种不同策略的“选秀大赛”

🏆 比赛规则:29 种“阅卷姿势”

研究者给 AI 设定了不同的“人设”和“指令”,看看哪种方式打分最准、最稳、最省钱。这就像给阅卷机器人换了不同的“装备”:

  1. 换模型(换大脑): 有的用最新的“超级大脑”(GPT-4.1),有的用“迷你大脑”(GPT-4.1-mini),有的用“老款大脑”(GPT-3.5)。
  2. 给提示词(给说明书):
    • 给满分范文(Few-shot): 就像给机器人看几篇“满分作文”和“不及格作文”作为参考,让它照着学。
    • 给详细评分表(Rubric): 是给它一本厚厚的 6 页评分细则,还是只给个大概,甚至不给?
    • 让机器人“先思考”(Chain-of-thought): 让它在打分前先写一段“思考过程”,像老师打草稿一样。
    • 微调(Fine-tuning): 这相当于给机器人“开小灶”,用 18 篇标准范文专门训练它,让它变成该领域的“专家”。
  3. 调整参数(调性格): 让机器人打分时是“严谨刻板”(低温度),还是“随性发挥”(高温度)。

📊 比赛结果:谁赢了?

1. 准确度:机器人真的能像人一样打分吗?

结论:大部分情况下,简直神了!

  • 在 29 种策略中,有 28 种(97%)的打分准确度与真人老师达到了“几乎完美”的一致。
  • 冠军策略:
    • 开小灶(微调): 经过专门训练的机器人,打分最准。
    • 看范文(Few-shot): 给机器人看几个例子,它也能打得非常准。
    • 给详细规则: 评分细则给得越全(比如把 1-6 分的标准都写清楚),打分越准。如果只给个大概,机器人就容易“瞎蒙”。

2. 稳定性:机器人会“心情不好”乱打分吗?

结论:非常稳定。

  • 让同一个机器人对同一篇文章重复打分 6 次,结果几乎一模一样。这说明它不会像人一样因为累了或心情不好而手抖。

3. 成本与速度:谁最划算?

这里有个有趣的**“规模效应”**:

  • 如果你只有 100 篇作文(小批量):

    • 最省钱: 用“迷你大脑”(GPT-4.1-mini),成本极低,每 100 篇只要 4 美分(约 3 毛钱人民币)。虽然比“超级大脑”稍微差一点点,但依然非常准。
    • 性价比之王: 直接用最新的“超级大脑”(GPT-4.1),不训练、不看范文,每 100 篇只要 21 美分。既准又快,还不用付昂贵的“开小灶”培训费。
  • 如果你有 10,000 篇作文(大批量):

    • 最省钱: 必须**“开小灶”(微调)**。虽然一开始训练要花钱,但分摊到 1 万篇作文上,每篇的成本反而降到了最低。这时候,专门训练的机器人比直接用的机器人更便宜。

💡 几个意想不到的发现(打破常识)

  1. “先思考”并不总是更好: 以前大家都觉得让 AI“先写思考过程再打分”会更准。但这次发现,对于这种任务,直接打分反而更快,而且“先思考”并没有显著提高准确度,反而让机器人变慢了。
  2. “人设”不重要: 告诉机器人“你是一个资深研究员”还是“你是一个写作老师”,对打分结果几乎没有影响。
  3. 范文数量: 给 3 篇范文和给 1 篇范文,效果差不多。给多了反而浪费钱(因为要消耗更多算力)。

🍎 总结:给教育者的“购物指南”

这篇论文就像给学校和教育者提供了一份**“智能阅卷购买指南”**:

  • 如果你只是偶尔改改几十篇作文: 别折腾了,直接用最新的 GPT-4.1 模型,给个详细的评分标准,既准又便宜,完全不需要专门训练。
  • 如果你要改成千上万篇作文: 值得花点钱和时间去**“微调”(开小灶)**模型,这样长期来看最省钱,而且最准。
  • 如果你预算非常紧张: 试试“迷你版”模型(GPT-4.1-mini),虽然稍微便宜一点点,但准确度依然高得惊人。

一句话总结:
现在的 AI 阅卷员已经非常成熟,只要给它们一本清晰的“评分说明书”,它们就能像最严谨的老师一样,又快又准又便宜地批改学生作文。以前那些复杂的“提示词技巧”(比如让它先思考、换各种人设),在最新的模型面前,反而没那么重要了。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →