Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

オーストリアのドイツ語 A レベルの記述式答案を評価する大規模言語モデル(LLM)を用いた自動採点の研究において、Rubric に基づく評価は可能であるものの、人間の採点者との一致率が低く、現時点では実用化には至らないことが示されました。

Jonas Kubesch, Lena Huber, Clemens Havas

公開日 2026-03-09
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI(人工知能)に、オーストリアの高校の国語の試験答案を採点させられるか?」**という実験について書かれたものです。

まるで**「AI という新人教師」を雇って、ベテランの人間の先生に代わって採点させる実験**だと想像してみてください。

以下に、専門用語を避け、身近な例え話を使って分かりやすく解説します。


🎓 実験の舞台:オーストリアの「国語の試験」

オーストリアの高校卒業試験(A-level)では、生徒が「評論文」「手紙」「文学の解釈」など、7 種類の異なる文章を書く課題があります。
これらを採点するのは、人間です。しかし、先生方は採点に膨大な時間を費やし、疲れ果ててしまいます。「もし AI が代わりに採点してくれたら、先生はもっと生徒と向き合えるのに!」というのが、この研究のスタート地点です。

🤖 登場する「AI 教師たち」

研究者は、最新の AI モデル(LLM)4 体を「AI 教師」として選びました。

  1. LLama3.3 70b(一番頭が良く、一番時間がかかる大物)
  2. DeepSeek-R1 32b
  3. Qwen3 30b
  4. Mixtral 8x7b

これらに、人間が作った**「採点のルールブック(ルーブリック)」**を与えて、答案を評価させました。

🔍 試した「教え方」3 つ

AI にどうやって採点させるか、3 つの異なる方法を試しました。

  1. ルールだけ渡す(ゼロショット)

    • 「ルールブックだけ見て、採点してね」と言うだけ。
    • 結果: AI はルールは理解しますが、実際の「どれくらい良い文章か」の感覚が掴めず、採点がバラバラでした。
  2. 参考例を渡す(RAG:検索拡張生成)

    • 「これ(良い例)、これ(平均的な例)、これ(悪い例)」という過去の答案を AI の横に置いておき、「これと比べて採点して」と頼みました。
    • 結果: 少し良くなりましたが、AI は「極端な良い例」や「極端な悪い例」に引きずられすぎて、バランスを崩すことがありました。
  3. 会話形式で教える(Few-shot:数ショット)

    • 「まずこの文章を見て、私が『A』と採点したよ。じゃあ、次はこの文章を採点してみて」と、AI と人間が会話しながら、採点の感覚をすり合わせていく方法です。
    • 結果: これが最も効果的でした。AI が「あ、こういう文章は A なんだ」という感覚を掴み始めました。

📊 実験の結果:AI は「完全な採点者」になれるか?

残念ながら、「AI だけで人間と全く同じ採点ができる」状態にはまだ届きませんでした。

  • 一致率: 人間の先生と AI の採点が完全に一致したのは、全体の 32.8% だけでした(4 割強の項目で一致したのが最高記録)。
  • AI たちの性格:
    • Mixtral: ほぼ全ての答案を「3 点(真ん中)」と採点してしまい、個性がありませんでした。
    • DeepSeek: 採点が厳しすぎて、時には中国語で「ダメな理由」を書き出してしまいました。
    • Qwen: 採点は厳しめですが、理由の説明は上手でした。
    • LLama3.3: 唯一、まともな結果を出した「優等生」でした。ただし、採点するスピードが遅く、1 枚の答案を採点するのに4 分〜12 分もかかってしまいました。

💡 この研究からわかったこと(結論)

  1. AI は「完全な代役」にはなれない
    今のところ、AI 単独で試験の採点をするのは危険です。人間と AI の採点が一致するのは 3 割程度で、まだ「先生が最終確認をする」必要があります。

  2. AI は「優秀なアシスタント」にはなれる
    適切な「教え方(プロンプト)」と「参考例」を与えれば、AI はルールに基づいて採点できます。特に、**「会話形式で感覚を共有する」**方法が有効でした。

  3. 課題は「時間」と「計算パワー」
    一番良い結果を出した AI は、採点に時間がかかりすぎます。10 分待って、まだ完璧ではない採点結果が出るのは、先生も生徒も待ちきれません。

🌟 まとめ:未来へのメッセージ

この論文は、「AI が人間の先生を完全に置き換える日」はまだ遠いと伝えています。

しかし、**「AI が先生の『採点の助手』になり、先生がより生徒の指導や計画に時間を割けるようになる」**という未来は、もうすぐそこに来ています。

まるで、**「AI という新人助手が、採点の素地をまとめてくれるので、ベテランの先生が最後のチェックと、生徒への温かいアドバイスに集中できる」**ようなイメージです。

この研究は、その「理想的なチームワーク」を作るための、重要な第一歩となりました。