Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een leraar bent in Oostenrijk. Je hebt honderden leerlingen die een proefwerk Duits moeten maken. Het is niet zomaar een dictaat; het zijn essays, commentaren en brieven. Nu, als leraar, moet je al die teksten lezen, beoordelen en een cijfer geven. Dat kost enorm veel tijd en energie. Soms ben je moe, soms heb je een slechte dag, en dat kan je eerlijkheid beïnvloeden.

De auteurs van dit paper, Jonas, Lena en Clemens, dachten: "Zouden we dit niet kunnen laten doen door slimme computers?" Ze wilden weten of Grote Taalmodellen (LLMs) – de technologie achter slimme chatbots – goed genoeg zijn om deze Oostenrijkse proefwerken te beoordelen.

Hier is wat ze hebben gedaan, vertaald in een simpel verhaal:

1. De Proef: De "Slimme Hulp"

Ze namen 101 echte, anonieme proefwerken van leerlingen. Ze gaven deze teksten aan vier verschillende "slimme computers" (de modellen LLama3.3, DeepSeek, Qwen en Mixtral).

De computer moest niet alleen een cijfer geven, maar ook kijken naar specifieke regels (een rooster of rubric):

Is de inhoud goed?
Is de structuur logisch?
Is de taal correct?
Is de stijl goed?

2. De Uitdaging: De "Blinde" Computer

In het begin probeerden ze de computer simpelweg de regels te geven en te zeggen: "Beoordeel dit." Dit noemen ze zero-shot.

Het probleem: De computer was als een student die net de regels heeft gelezen, maar nog nooit een proefwerk heeft zien nakijken. Hij wist niet hoe streng of hoe makkelijk de menselijke leraar was. Hij gaf vaak willekeurige cijfers of bleef hangen in het midden (altijd een 3).

3. De Oplossing: De "Voorbeeldmap" (RAG)

Om de computer te helpen, gaven ze hem een voorbeeldmap (in het vakjargon: Retrieval Augmented Generation of RAG).

De analogie: Stel je voor dat je een nieuwe leraar bent. Je krijgt niet alleen de regels, maar ook een map met drie voorbeeldproefwerken: één waar een 1 op staat (perfect), één met een 3 (gemiddeld) en één met een 5 (slecht).
De computer kon nu kijken: "Oh, dit proefwerk lijkt op dat voorbeeld met de 3, dus ik geef ook een 3."
Ze probeerden verschillende manieren om deze voorbeelden te kiezen: alleen de beste/slechtste, of de meest vergelijkbare teksten.

4. De "Gesprekjes" (Few-Shot Prompting)

Ze ontdekten dat het nog beter werkte als ze de computer een gesprek lieten voeren.

De analogie: In plaats van alleen een map te geven, zeggen ze tegen de computer: "Kijk, hier is een tekst. Wat denk jij dat het cijfer is?" De computer zegt: "Een 2." De leraar zegt: "Nee, dat is een 4, want hier heb je de structuur verkeerd gebruikt." De computer denkt na en probeert het opnieuw.
Dit noemen ze few-shot prompting. Het is alsof je de computer een korte training geeft terwijl je het doet.

5. De Resultaten: De "Nog-Niet-Klaar" Status

Hoe goed was het?

De winnaar: Het model LLama3.3 was de beste. De andere drie modellen waren te dom of te verwarrend (ze gaven soms Chinese karakters voor fouten of bleven steken in één cijfer).
De score: Zelfs met de beste trucjes (de voorbeeldmap en het gesprekjes) kwam de computer maar in 32,8% van de gevallen op exact hetzelfde eindcijfer als de menselijke leraar.
Bij de onderdelen (zoals "taalgebruik") was het iets beter (maximaal 40,6% overeenstemming), maar nog steeds niet perfect.

6. De Conclusie: Een Hulp, geen Vervanger

De auteurs concluderen dat deze slimme computers nog niet klaar zijn om de leraar volledig te vervangen.

Waarom? Het kost te veel tijd (soms 10 minuten per proefwerk!) en de computer is nog niet betrouwbaar genoeg voor een echt examen.
Maar... Het is wel een veelbelovende hulp. Als je de computer gebruikt om een eerste inschatting te geven, kan de leraar sneller werken.

Kort samengevat:
Stel je voor dat je een assistent hebt die heel snel kan lezen en de regels kent, maar die soms nog een beetje "dwaas" is en niet precies weet hoe streng je bent. Je kunt hem gebruiken om de stapel werk te verkleinen, maar je moet zelf nog steeds de pen vasthouden om het echte cijfer te geven. De technologie is op weg, maar voor nu is de menselijke leraar nog steeds de baas.

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

1. De Proef: De "Slimme Hulp"

2. De Uitdaging: De "Blinde" Computer

3. De Oplossing: De "Voorbeeldmap" (RAG)

4. De "Gesprekjes" (Few-Shot Prompting)

5. De Resultaten: De "Nog-Niet-Klaar" Status

6. De Conclusie: Een Hulp, geen Vervanger

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

1. De Proef: De "Slimme Hulp"

2. De Uitdaging: De "Blinde" Computer

3. De Oplossing: De "Voorbeeldmap" (RAG)

4. De "Gesprekjes" (Few-Shot Prompting)

5. De Resultaten: De "Nog-Niet-Klaar" Status

6. De Conclusie: Een Hulp, geen Vervanger

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA