Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

该研究评估了四种开源大语言模型在基于评分标准自动批改奥地利德语 A 级作文中的表现,结果显示尽管模型能利用标准化标准进行评分,但其与人类专家评分的一致性(最高仅 40.6%)远未达到实际教学评估的应用要求。

Jonas Kubesch, Lena Huber, Clemens Havas

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在探讨:能不能请一位“超级 AI 助教”来帮奥地利的高中老师批改德语作文?

想象一下,奥地利的高中毕业考试(A-Level)就像是一场盛大的“语言马拉松”。学生们要写不同类型的文章(比如评论、书信、文学分析等),而老师们则需要像马拉松裁判一样,拿着严格的评分规则(Rubric),一篇篇地仔细打分。这工作既耗时又累人,而且难免会有主观偏差(比如今天心情好,给分就高一点)。

为了解决这个问题,研究人员找来了四位“超级 AI 选手”(四种不同的大型语言模型:LLama3.3, DeepSeek, Qwen, Mixtral),想看看它们能不能代替老师,或者至少帮老师分担工作。

下面是用通俗的语言和比喻对这篇论文核心内容的解读:

1. 比赛规则:AI 怎么“学”评分?

研究人员没有让 AI 死记硬背(微调模型),而是尝试了两种“教学策略”:

  • 策略一:RAG(检索增强生成)——“参考书策略”

    • 比喻:就像考试时允许学生带“小抄”或“参考书”。AI 在评分前,先去数据库里找几篇范文(比如一篇满分作文、一篇不及格作文、一篇中等作文)作为参考,然后照着标准给新作文打分。
    • 结果:这比完全瞎猜要好,但 AI 有时候还是抓不住重点,或者参考书给多了反而让它“晕头转向”。
  • 策略二:Few-shot Prompting(少样本提示)——“师徒带教策略”

    • 比喻:这就像老师带着学生改作业。老师先给 AI 看几篇已经改好的范文(比如:“看,这篇写得很好,所以给 1 分;这篇写得不好,所以给 5 分”),然后让 AI 模仿这个思路去改新的作文。
    • 进阶版(CoT):还让 AI 在打分前“大声说出它的思考过程”(Chain-of-Thought),就像让学生先写解题步骤再写答案。

2. 选手表现:谁赢了?

研究人员测试了四位 AI 选手,结果大相径庭:

  • Mixtral 和 DeepSeek:这两位“选手”有点掉链子
    • Mixtral 像个只会打“中庸”的裁判,不管作文写得怎么样,它几乎全给"3 分”(及格分),完全失去了区分度。
    • DeepSeek 则像个过于严厉且有点混乱的裁判,打分太严,甚至有时候还会在评语里冒出中文(因为它训练数据里混入了中文),而且经常输出乱码。
  • Qwen:表现尚可,但打分太死板,缺乏灵活性。
  • LLama3.3 (70b):这是唯一的“优等生”
    • 它是最接近人类老师水平的模型。它能理解复杂的德语,能区分不同档次的作文。
    • 缺点:它是个“慢吞吞的学霸”。改一篇作文需要几分钟甚至十几分钟,而且非常消耗电脑算力(就像跑一辆法拉利,油耗极高)。

3. 最终成绩:AI 能完全取代老师吗?

答案是:还不能。

  • 准确率:即使是最强的 LLama3.3,它的打分和人类专家完全一致的概率只有 32.8%。也就是说,每改 10 篇作文,大概有 7 篇的分数跟老师给的不一样。
  • 细节表现:在“内容”和“结构”这种硬指标上,AI 表现还行;但在“语言风格”和“表达”这种需要细腻感知的地方,AI 还是差点火候。
  • 最大的问题:AI 有时候会“一本正经地胡说八道”,或者因为计算太慢,老师等个 10 分钟才拿到一个“中等偏下”的评分,这在实际教学中是不现实的。

4. 论文的核心启示

这篇论文就像是一次**“压力测试”**,告诉我们:

  1. AI 是个好助手,但不是好替身:目前的 AI 还不能完全取代人类老师去给毕业考打分。它太慢、太贵,而且偶尔会犯糊涂。
  2. 提示词(Prompt)很重要:怎么跟 AI 说话(给什么参考范文、怎么引导它思考)直接决定了它的成绩。
  3. 未来的方向:未来的 AI 评分系统,应该是**“人机协作”**。AI 负责初筛、指出明显的语法错误、提供初步建议,然后由人类老师来做最终的把关和决策。

总结一下:
这就好比我们想造一辆自动驾驶汽车来代替司机。现在的技术(LLM)已经能让车在高速公路上开一段了,也能识别红绿灯,但让它完全独立地、安全地、快速地穿过复杂的城市街道(批改各种风格的德语作文),还差得远。我们需要更多的数据、更强的电脑,以及更聪明的“驾驶规则”,才能让它真正上路。