Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Each language version is independently generated for its own context, not a direct translation.

🇦🇹 Wenn Computer die Matura korrigieren: Ein Versuch mit KI

Stellt euch vor, ihr seid Lehrer an einer österreichischen Schule. Ihr habt 100 Aufsätze von Schülern vor euch liegen. Jeder Aufsatz ist anders: manche sind Kommentare, andere sind Buchbesprechungen oder Leserbriefe. Um diese zu bewerten, gibt es einen strengen Bewertungszettel (Rubrik). Das ist wie eine Landkarte, die genau sagt: „Wenn der Schüler hier einen guten Punkt macht, gibt es 1, wenn er hier einen Fehler macht, gibt es 4."

Normalerweise braucht ein Lehrer dafür Stunden und Stunden. Die Frage der Forscher Jonas, Lena und Clemens war: Kann eine Künstliche Intelligenz (KI) das schneller und genauso fair machen?

Sie haben sich vier verschiedene „Super-Computer-Gehirne" (Large Language Models) ausgesucht und sie getestet. Hier ist, was dabei herauskam, erklärt mit einfachen Bildern:

1. Die Kandidaten: Vier verschiedene Gehirne

Die Forscher haben vier KI-Modelle getestet, die wie vier verschiedene Schüler mit unterschiedlichen Stärken waren:

Mixtral: Wie ein Schüler, der sehr schnell ist, aber die Aufgabe gar nicht versteht. Er hat fast allen Aufsätzen die gleiche Note (eine 3) gegeben – egal ob der Text gut oder schlecht war. Ein „Einheitsbrei"-Korrigierer.
DeepSeek: Wie ein sehr strenger Lehrer, der manchmal sogar auf Chinesisch kommentiert (was bei deutschen Aufsätzen nicht hilft) und oft die Regeln vergisst.
Qwen: Ein sehr genauer, aber extrem strenger Korrektor. Er erklärt seine Noten gut, ist aber oft zu hart.
LLama3.3 (Der Gewinner): Das war der „Klassenbeste". Er verstand die Aufgabe am besten, gab unterschiedliche Noten und hielt sich an die Regeln. Aber er war auch langsam – wie ein Schüler, der jeden Satz dreimal überdenkt, bevor er schreibt.

2. Der Trick: Wie man der KI hilft (RAG und Few-Shot)

Die KI allein war am Anfang noch etwas verloren. Sie wusste nicht, was eine „gute" Note ist. Also haben die Forscher ihr zwei Tricks beigebracht:

Trick A: Der „Beste-Durchschnitt-Schlechteste"-Koffer (RAG)
Stellt euch vor, ihr gebt der KI vor jedem Aufsatz drei Beispiele mit: einen perfekten Aufsatz (Note 1), einen Durchschnitts-Aufsatz (Note 3) und einen katastrophalen Aufsatz (Note 5).
- Ergebnis: Das half der KI, ein Gefühl für die Skala zu bekommen. Aber sie war immer noch etwas unsicher.
Trick B: Das Gespräch (Few-Shot Prompting)
Hier haben die Forscher mit der KI „gesprochen". Sie sagten: „Hier ist ein Aufsatz, was denkst du? Okay, deine Antwort war falsch, die richtige Note wäre X gewesen. Hier ist der nächste..."
- Ergebnis: Das war wie ein Nachhilfeunterricht. Die KI lernte aus ihren Fehlern und wurde viel besser. Besonders gut funktionierte es, wenn man für lange Texte andere Beispiele gab als für kurze Texte.

3. Das Endergebnis: Noch nicht fertig, aber vielversprechend

Am Ende haben die Forscher die Noten der KI mit den echten Noten eines menschlichen Lehrers verglichen.

Die harte Wahrheit: Die KI war nicht perfekt. Nur bei etwa 33 % der Fälle gab sie exakt die gleiche Note wie der Mensch. Bei den Details (wie „Inhalt" oder „Stil") lag die Übereinstimmung manchmal nur bei 40 %.
Die gute Nachricht: Die KI war in der Lage, die Regeln zu verstehen und zu nutzen. Sie ist kein Zufallsgenerator mehr.

4. Warum wir noch nicht alle Lehrer durch Roboter ersetzen können

Stellt euch vor, die KI müsste einen Aufsatz in 10 Minuten korrigieren. Aktuell dauert es mit dem besten Modell (LLama) oft 10 Minuten pro Aufsatzpaar.

Das Problem: Wenn ein Lehrer 50 Aufsätze hat, würde er 500 Minuten warten. Das ist für den Schulalltag viel zu langsam.
Das andere Problem: Die KI ist manchmal noch zu streng oder zu nachsichtig, je nachdem, wie sie „angefüttert" wurde.

🎯 Das Fazit in einem Satz

Die KI ist wie ein sehr fleißiger, aber noch etwas langsamer und manchmal etwas verwirrter Praktikant. Sie kann die Regeln lernen und hilft dem Lehrer, die Arbeit zu strukturieren, aber sie ist noch nicht reif genug, um den Lehrer komplett zu ersetzen.

Die Zukunft liegt nicht darin, den Lehrer zu feuern, sondern ihm einen intelligenten Assistenten an die Seite zu stellen, der die erste Bewertung macht, damit der Lehrer sich auf das Wichtigste konzentrieren kann: das echte Lernen der Schüler.

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

🇦🇹 Wenn Computer die Matura korrigieren: Ein Versuch mit KI

1. Die Kandidaten: Vier verschiedene Gehirne

2. Der Trick: Wie man der KI hilft (RAG und Few-Shot)

3. Das Endergebnis: Noch nicht fertig, aber vielversprechend

4. Warum wir noch nicht alle Lehrer durch Roboter ersetzen können

🎯 Das Fazit in einem Satz

1. Problemstellung

2. Methodik

Datengrundlage

Modelle

Experimentelle Ansätze

Evaluationsmetriken

3. Wichtige Ergebnisse

Modellleistung

Strategie-Vergleich

Quantitative Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Fazit

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

🇦🇹 Wenn Computer die Matura korrigieren: Ein Versuch mit KI

1. Die Kandidaten: Vier verschiedene Gehirne

2. Der Trick: Wie man der KI hilft (RAG und Few-Shot)

3. Das Endergebnis: Noch nicht fertig, aber vielversprechend

4. Warum wir noch nicht alle Lehrer durch Roboter ersetzen können

🎯 Das Fazit in einem Satz

1. Problemstellung

2. Methodik

Datengrundlage

Modelle

Experimentelle Ansätze

Evaluationsmetriken

3. Wichtige Ergebnisse

Modellleistung

Strategie-Vergleich

Quantitative Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Fazit

Mehr davon

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA