Human-in-the-Loop LLM Grading for Handwritten Mathematics Assessments

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een leraar wiskunde bent. Je hebt een klas vol studenten die handgeschreven antwoorden op papier hebben gemaakt. Je moet ze nakijken, punten geven en uitleggen waar ze fout zaten. Dit is vaak een enorme klus: het kost veel tijd, het is saai, en als je 100 antwoorden moet nakijken, ben je na een paar uur moe en begin je misschien onnauwkeurig te worden.

Tegelijkertijd is er een nieuw probleem: kunstmatige intelligentie (AI) kan nu zelf ook wiskundige oplossingen schrijven, zelfs met de hand geschreven. Hierdoor zijn huiswerkopdrachten thuis minder betrouwbaar. Leraren moeten daarom weer terug naar de klas: korte, in de klas geschreven toetsen. Maar dat betekent weer meer nakijkwerk.

De oplossing uit dit papier: De "Slimme Assistent" met een Menselijke Controle

De auteurs van dit onderzoek hebben een manier bedacht om AI (specifiek een groot taalmodel, oftewel een "LLM") te gebruiken om dit nakijkwerk te versnellen, zonder dat de kwaliteit verslechtert. Ze noemen dit een "Human-in-the-Loop" systeem.

Hier is hoe het werkt, vertaald in een simpele analogie:

1. Het Recept (De Grading Key)

Stel je voor dat de AI een zeer gehoorzame, maar soms letterlijke kok is. Als je hem zegt "maak een taart", maakt hij misschien een taart, maar als je niet zegt "met aardbeien", doet hij dat misschien niet, of hij gebruikt per ongeluk zout in plaats van suiker.

Om dit te voorkomen, maken de leraren eerst een zeer gedetailleerd recept (een "grading key"). In plaats van te zeggen "geef punten voor een goede oplossing", zeggen ze precies:

"Geef 2 punten als de student ziet dat het getal 0 is."
"Geef 3 punten als ze de breuk correct hebben vereenvoudigd."
"Als ze een andere methode gebruiken die ook klopt, geef dan ook punten, maar meld dat."

Zonder dit recept zou de AI willekeurig punten geven. Met dit recept weet de AI precies wat hij moet zoeken.

2. De "Vijfvoudige Check" (De Jury)

De AI is niet perfect; soms droomt hij (in AI-taal: "hallucineren") of maakt hij een slordigheidsfout. Om dit op te vangen, laten ze de AI vijf keer hetzelfde antwoord nakijken.

Analogie: Stel je voor dat je een jury hebt van vijf experts. Als vier experts zeggen "dit is een 7" en één zegt "dit is een 10", dan is de 10 waarschijnlijk een foutje van die ene expert.
In dit systeem kijkt de AI vijf keer naar het antwoord. Als de scores erg verschillen, krijgt het antwoord een rood vlaggetje en moet een mens er naar kijken.

3. De Menselijke Controle (De Hoofdjury)

De AI doet het zware werk: hij leest de handgeschreven tekst (via een scanner), vergelijkt het met het recept en geeft een voorlopige score. Maar de menselijke leraar is de baas.

De leraar kijkt alleen naar de antwoorden waar de AI twijfelde of waar de AI een heel hoge score gaf die verdacht lijkt.
Voor de meeste antwoorden (ongeveer 97%) accepteert de leraar de score van de AI gewoon.

Wat leverde dit op?

De onderzoekers hebben dit getest op twee wiskundecursussen in Brussel. Hier zijn de resultaten, vertaald naar alledaags taal:

Tijdwinst: Het nakijken ging 23% sneller. Dat is alsof je een uur werk in 45 minuten doet. De leraar hoeft niet meer zelf te zoeken naar fouten; de AI heeft ze al gevonden en gemarkeerd.
Kwaliteit: De scores die de AI gaf, kwamen bijna perfect overeen met wat menselijke leraren zouden geven. Sterker nog: soms waren de AI-scores zelfs consistenter dan twee verschillende leraren onderling. Mensen kunnen moe worden of humeurig; de AI is altijd even streng (of mild) als je het recept goed schrijft.
Veiligheid: Omdat er altijd een mens de laatste controle doet, worden rare fouten van de AI opgevangen.

Waarom is dit belangrijk?

Vroeger dachten we: "Ofwel nakijken door mensen, ofwel volledig door een computer." Dit papier zegt: "Nee, we doen het samen."

De AI is als een super-snelle, onuitputtelijke assistent die het saaie werk doet. De mens is de chef die de kwaliteit bewaakt en zorgt dat het eerlijk blijft. Zo krijgen studenten sneller hun cijfers en feedback (wat essentieel is om te leren), en krijgen leraren meer tijd om echt te onderwijzen in plaats van urenlang te nakijken.

Kortom: Het is geen robot die leraren vervangt, maar een slimme hulpmiddel dat leraren helpt om hun werk sneller en eerlijker te doen, terwijl de mens de touwtjes in handen houdt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het verlenen van tijdige, consistente en gepersonaliseerde feedback op handgeschreven studentwerk is essentieel voor effectief leren, maar wordt bij grote klasgroottes operationeel onhaalbaar. De opkomst van generatieve AI heeft dit probleem verergerd:

Betrouwbaarheid van huiswerk: AI-systemen kunnen nu hoogwaardige handgeschreven wiskundige oplossingen genereren, waardoor take-home assessments hun waarde als maatstaf voor onafhankelijk begrip verliezen.
Verschuiving naar in-class toetsing: Dit dwingt onderwijsinstellingen om terug te grijpen naar gecontroleerde, in-class pen-en-papier toetsen. Hoewel dit de integriteit waarborgt, introduceert het een enorme werklast voor docenten: handgeschreven werk moet worden nagekeken, gedigitaliseerd en snel teruggekoppeld.
Beperkingen van bestaande oplossingen: Meerkeuzevragen (MC) zijn efficiënt maar geven geen inzicht in het oplossingsproces of redenering. Handgeschreven open vragen blijven noodzakelijk voor het beoordelen van generatief redeneren, maar zijn tijdrovend om te graden.

Methodologie

De auteurs presenteren een schaalbaar, end-to-end workflow voor LLM-ondersteund graden van korte, in-class wiskundetoetsen. De studie werd uitgevoerd in twee bachelorwiskundecursussen aan de Vrije Universiteit Brussel (VUB) met zes "bonus tests" (laag-risico, formatieve toetsen).

De Workflow bestaat uit drie hoofdfasen:

Constructie van Oplossings- en Graderingsleutels:
- Voor elke vraag werd een volledige LaTeX-oplossing opgesteld.
- Cruciaal was het ontwikkelen van gedetailleerde graderingsleutels (grading keys). Deze moeten zeer specifiek zijn om de "letterlijke interpretatie" van LLMs te sturen. De leutels decomponeren oplossingen in kleine, expliciete stappen met vaste puntenaantallen (bijv. 2-3 punten per stap) en vermijden vage termen zoals "deelscore". Ze moeten ook alternatieve, wiskundig correcte oplossingspaden expliciet toestaan.
Data-Verwerking en Anonymisatie:
- Antwoordbladen worden ingescand en verwerkt via OCR.
- Identificatiegegevens (studentnummers in bubble-vorm) worden geëxtraheerd en geverifieerd.
- De antwoorden worden geanonimiseerd: alleen de ingeknipte afbeeldingen van de antwoordvakken (zonder ID's) worden naar de LLM gestuurd om privacy te waarborgen.
LLM-Gradering en Menselijke Verificatie (Human-in-the-Loop):
- Model: GPT-5.1 werd gebruikt.
- Meervoudige Evaluatie: Elk antwoord wordt vijf keer onafhankelijk beoordeeld om de inherent stochasticiteit van LLMs te compenseren.
- Aggregatie: De voorlopige score is het maximum van de vijf scores (een conservatieve keuze ten gunste van de student).
- Consistentiechecks: Er worden automatische statistieken berekend (variantie, spreiding) om afwijkingen te detecteren.
- Menselijke Verificatie: Docenten bekijken een rapport met de vijf LLM-scores, de consistentiemetingen en de redenering. Ze kunnen de voorlopige score accepteren of overrulen. Een willekeurige subset werd ook onafhankelijk nagekeken door TAs die blind waren voor de LLM-uitkomsten.

Belangrijkste Bijdragen

End-to-End Implementatie: Het artikel biedt geen enkelvoudig experiment, maar een volledig operationeel systeem dat privacy, OCR, gradering en feedbackintegratie combineert in een echte klasomgeving.
Design van Graderingsleutels: Het identificeert dat de kwaliteit van de graderingsleutel de kritische factor is. Het biedt praktische richtlijnen voor het opstellen van leutels die robuust zijn tegen LLM-fouten (zoals over-optimisme of het toekennen van punten voor irrelevante stappen).
Hybride Architectuur: Het bewijst dat een "Human-in-the-Loop" design, waarbij de LLM fungeert als een stabiele basislijn en de mens de uiteindelijke autoriteit is voor uitschieters, de beste balans biedt tussen efficiëntie en nauwkeurigheid.
Open Source: De volledige code voor de pipeline (verwerking, anonymisatie, gradering) is beschikbaar gesteld.

Resultaten

De studie vergeleek de digitale (LLM-ondersteunde) workflow met traditioneel handmatig graden onder gecontroleerde omstandigheden (counterbalanced design).

Tijdsbesparing:
- LLM-ondersteund graden leidde tot een reductie in graderingstijd van ongeveer 23% vergeleken met volledig handmatig graden.
- Dit effect was consistent over verschillende graders, ongeacht hun basissnelheid.
Graderingsalignatie en Consistentie:
- De overeenstemming tussen menselijke graders en de LLM (gemeten met quadratisch gewogen Cohen's $\kappa$ ) was vergelijkbaar met, en in sommige gevallen zelfs hoger dan, de overeenstemming tussen twee menselijke graders onderling.
- De verdeling van afwijkingen toonde aan dat de LLM-scores zich vaak in het midden van het menselijke beoordelingsbereik bevinden, wat fungeert als een "anker" dat de variabiliteit tussen menselijke graders vermindert.
- Hoewel de mediane afwijking lager was bij LLM-ondersteuning, waren er een klein aantal (ca. 3%) grote uitschieters. Deze werden effectief opgevangen door de menselijke verificatiestap.
Robuustheid:
- De workflow bleek robuust tegen taalvariaties (Engelse vs. Nederlandse instructies hadden geen significant effect op de uitkomst).
- De gebruikte aggregatiestrategie (maximum van 5 runs) bleek veilig voor studenten, hoewel het risico op uitschieters iets verhoogde, wat door de menselijke controle werd opgevangen.

Betekenis en Conclusie

De studie concludeert dat LLMs niet bedoeld zijn om menselijke graders volledig te vervangen, maar wel als krachtige hulpmiddelen kunnen dienen om de werklast te verminderen en de consistentie te verhogen.

Pedagogische Impact: Het stelt docenten in staat om sneller, frequentere en kwalitatief betere feedback te geven op handgeschreven werk, wat essentieel is voor formatief leren.
Toekomstperspectief: De workflow is niet beperkt tot wiskunde en kan worden toegepast op andere STEM-vakken waar gestructureerde stappen nodig zijn (bijv. programmeren).
Paradigmaverschuiving: De focus verschuift van de vraag "Kan een LLM graden?" naar "Hoe kunnen we LLMs integreren in workflows die hun beperkingen expliciet mitigeren?". De combinatie van AI-snelheid en menselijk oordeel biedt een schaalbare oplossing voor de uitdagingen van de AI-tijdperk in het hoger onderwijs.

Human-in-the-Loop LLM Grading for Handwritten Mathematics Assessments

1. Het Recept (De Grading Key)

2. De "Vijfvoudige Check" (De Jury)

3. De Menselijke Controle (De Hoofdjury)

Wat leverde dit op?

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks