Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Each language version is independently generated for its own context, not a direct translation.

Hoe AI helpt om de moeilijkheidsgraad van schooltoetsen te voorspellen

Stel je voor dat je een nieuwe rij van schooltoetsen maakt voor kinderen van 5 tot 11 jaar. Je wilt weten: Is deze vraag te makkelijk? Is hij te moeilijk? Of zit hij precies goed?

Vroeger was dit een enorme klus. Je moest duizenden kinderen de toets laten maken, hun antwoorden analyseren en maanden wachten voordat je wist of de vragen goed waren. Dat kost veel geld, tijd en energie.

De auteurs van dit onderzoek (Pooya Razavi en Sonya Powers) hebben gekeken of we dit proces kunnen versnellen met Artificial Intelligence (AI), en dan specifiek met een slimme taalcomputer die we een "Grote Taalmodel" (LLM) noemen. Denk hierbij aan een super-intelligente robot die alles wat er op internet staat heeft gelezen en heel goed begrijpt hoe taal en logica werken.

Ze hebben twee manieren getest om deze robot te gebruiken. Laten we het uitleggen met een paar simpele analogieën.

Manier 1: De "Gokker" (Directe Schatting)

In de eerste methode vroegen ze de AI: "Kijk naar deze vraag en zeg me direct: hoe moeilijk is dit? Geef een cijfer van 1 tot 100."

Dit is alsof je een ervaren leraar vraagt om snel naar een vraag te kijken en een oordeel te vellen.

Het resultaat: De AI was best goed! Als je naar alle vragen samen keek, gaf ze een redelijk nauwkeurig antwoord.
Het probleem: Bij de kleinsten (kleuters en eerste klas) had de AI het vaak mis. Het was alsof de AI dacht dat een vraag over "tellen met appels" heel moeilijk was, terwijl dat voor een kleuter juist heel makkelijk is. De AI was soms te streng of te soepel voor de jongste kinderen.

Manier 2: De "Detective met een Checklist" (Feature-Based)

In de tweede methode deden ze het slimmer. Ze gaven de AI niet de opdracht om direct een cijfer te geven. In plaats daarvan zeiden ze: "Kijk naar deze vraag en vul deze specifieke lijst in:"

De lijst zag er zo uit:

Hoeveel stappen moet je doen om het antwoord te vinden?
Zijn er moeilijke woorden gebruikt?
Moet je een plaatje interpreteren?
Is het antwoordverkeerd (de 'distractors') slim vermomd?

De AI vulde deze lijst in voor elke vraag. Vervolgens gaven ze deze lijstjes aan een slimme rekenmachine (een computerprogramma genaamd 'Random Forest' of 'Gradient Boosting'). Deze rekenmachine leerde van de lijstjes: "Ah, als er veel stappen zijn én moeilijke woorden, dan is de vraag waarschijnlijk moeilijk."

Het resultaat: Deze methode was veel beter. De rekenmachine kon de patronen in de lijstjes veel nauwkeuriger vertalen naar een moeilijkheidsgraad dan de AI die direct een cijfer moest gokken.
De winst: De voorspellingen waren zo goed dat ze bijna net zo betrouwbaar waren als de echte toetsresultaten van duizenden kinderen, maar dan in een paar seconden berekend.

Waarom werkt de tweede methode beter?

Stel je voor dat je een kok bent die een gerecht moet beoordelen.

Methode 1 is alsof je de kok vraagt: "Proef dit en zeg me of het lekker is." Hij geeft een oordeel, maar dat kan subjectief zijn.
Methode 2 is alsof je de kok vraagt: "Noteer hoeveel zout erin zit, hoe groot de stukjes vlees zijn, en hoe heet het is." Vervolgens neemt een andere expert (de rekenmachine) deze notities en berekent op basis daarvan precies hoe lekker het gerecht is.

Door de taak op te splitsen in kleine, specifieke onderdelen (de checklist), maakt de AI minder fouten dan wanneer ze alles in één keer moet beoordelen.

Wat betekent dit voor de toekomst?

Dit onderzoek is een grote stap vooruit voor het onderwijs.

Snelheid: Schoolboekenmakers kunnen nu al tijdens het maken van vragen zien of ze te moeilijk of te makkelijk zijn. Ze hoeven niet meer maanden te wachten op testresultaten.
Kosten: Het bespaart duizenden euro's omdat er minder grote proefrondes nodig zijn.
Betrouwbaarheid: Voor de oudere kinderen (groep 3 t/m 8) werkt het bijna perfect. Voor de allerjongsten moet je nog wel even oppassen, want daar is de AI nog niet helemaal scherp genoeg.

Kortom: AI is niet de perfecte leraar die alles al weet, maar als we haar slim gebruiken als een "detective met een checklist" en die resultaten laten verwerken door een slimme rekenmachine, kunnen we toetsen maken die veel sneller, goedkoper en eerlijker zijn voor de kinderen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het onderzoekspaper "Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms" in het Nederlands.

Probleemstelling

Het bepalen van de moeilijkheidsgraad van toetsvragen (items) via veldtesten is een resource-intensief en tijdrovend proces. Dit leidt tot vertragingen tussen de ontwikkeling van items en hun daadwerkelijke gebruik, en verhoogt risico's op item-expositie en testveiligheid. Hoewel experts (SME's) soms handmatig moeilijkheidsgradaties geven, is dit proces eveneens tijdrovend en kan de consistentie ontbreken. Er is een sterke behoefte aan methoden die de moeilijkheidsgraad van items kunnen voorspellen op basis van de inhoud (tekst) alleen, zonder uitgebreide pilot-testen. Eerdere benaderingen met traditionele NLP-technieken (zoals leesbaarheidsformules of oppervlakkige tekstkenmerken) hebben vaak beperkte voorspellende kracht, vooral in complexe domeinen zoals wiskunde.

Methodologie

De studie onderzocht de haalbaarheid van het gebruik van Large Language Models (LLM's), specifiek GPT-4o, om de moeilijkheidsgraad van K-5 wiskunde- en leesitems te schatten. De dataset bestond uit 5.170 items (2.564 wiskunde, 2.606 lezen) afkomstig uit de Edmentum Exact Path Diagnostic, met als "ground truth" empirisch afgeleide Rasch-moeilijkheidsparameters ( $b$ -waarden).

De onderzoekers implementeerden twee verschillende benaderingen:

Directe LLM-schatting (Zero-shot):
- GPT-4o kreeg een gedetailleerde prompt om als expert op te treden en direct een moeilijkheidsrating (schaal 1-100) toe te kennen aan elk item op basis van de inhoud en metadata.
- Deze ruwe schattingen werden gestandaardiseerd en herschaald om overeen te komen met de Rasch-logit-schaal.
- Een lineaire regressiemodel werd getraind om de herschaalde LLM-schattingen af te stemmen op de werkelijke moeilijkheidsgraden.
Kenmerkgebaseerde benadering (Feature-based):
- Feature Extractie: GPT-4o werd gebruikt om specifieke cognitieve en linguïstische kenmerken uit de items te extraheren. Deze kenmerken (bijv. cognitieve belasting, diepte van kennis, woordenschatcomplexiteit, afleiders) werden gedefinieerd in samenwerking met vakexperts (SME's) via focusgroepen.
- Modeltraining: De door de LLM gegenereerde kenmerken, gecombineerd met item-metadata (zoals woordtelling, vakgebied, itemtype), werden gebruikt als input voor ensemble tree-based machine learning-algoritmen: Random Forests en Gradient Boosting Machines (GBM/XGBoost).
- De modellen werden getraind om de Rasch-moeilijkheidsparameters te voorspellen.

Validatie:
De dataset werd opgesplitst in een trainingsset (3.970 items) en een holdout-set (1.200 items) via gestratificeerde steekproefneming om de verdeling van moeilijkheidsgraden te behouden. De prestaties werden gemeten aan de hand van RMSE (Root Mean Square Error), MAE (Mean Absolute Error) en Pearson-correlatie ( $r$ ). Als benchmarks dienden:

Een dummy-regressor (voorspelling op basis van het gemiddelde per grade).
TF-IDF + Random Forest (traditionele NLP).
Metadata-only modellen.

Belangrijkste Bijdragen

Hybride Architectuur: De studie introduceert een workflow waarbij LLM's fungeren als geavanceerde kenmerkextractoren die worden gekoppeld aan krachtige machine learning-modellen, in plaats van alleen te vertrouwen op de directe oordelen van de LLM.
Expert-gebaseerde Prompt Engineering: Een gestructureerd proces waarbij SME's helpen bij het definiëren van relevante cognitieve en linguïstische kenmerken, wat zorgt voor een theoretisch onderbouwde feature-set.
Uitgebreide Vergelijking: Een robuuste evaluatie van twee verschillende LLM-paradigma's (directe schatting vs. kenmerkextractie) tegen meerdere benchmarks, inclusief traditionele NLP-methoden.
Praktische Workflow: Het paper biedt een gedetailleerd, zevenstaps protocol voor testprofessionals om soortgelijke modellen te implementeren.

Resultaten

1. Directe LLM-schatting:

Toonde een moderate tot sterke correlatie met de werkelijke moeilijkheidsgraden in de totale dataset ( $r = .83$ voor wiskunde, $r = .81$ voor lezen).
Beperkingen: De prestaties varieerden sterk per grade. Voor de lagere grades (K en 1) presteerde de directe LLM-schatting vaak slechter dan of gelijk aan de simpele dummy-regressor (gemiddelde per grade). De nauwkeurigheid verbeterde aanzienlijk voor grades 3 t/m 5.
Dit suggereert dat de LLM moeite heeft met het differentiëren binnen de beperkte moeilijkheidsverdeling van jonge leerlingen.

2. Kenmerkgebaseerde benadering (Feature-based):

Leverde superieure voorspellende nauwkeurigheid op.
Correlaties: De modellen bereikten correlaties tot $r = .87$ voor zowel wiskunde als lezen.
Foutmaten: De RMSE en MAE waren aanzienlijk lager dan bij de directe LLM-schatting en alle benchmarks.
- Voor lezen: De Random Forest en GBM modellen verlaagden de RMSE met ongeveer 31% ten opzichte van de dummy-regressor.
- Voor wiskunde: De verbetering was ook significant, met name voor grades 1 t/m 5.
Vergelijking met benchmarks: De kenmerkgebaseerde modellen overtroffen zowel de TF-IDF-baseline als de metadata-only modellen aanzienlijk. Dit bewijst dat de door de LLM geëxtraheerde semantische en cognitieve kenmerken waardevolle informatie toevoegen die niet in oppervlakkige tekstkenmerken of metadata zit.
Kenmerkbelangrijkheid:
- Voor wiskunde waren metadata (grade, woordtelling) en LLM-kenmerken zoals "Use of Visuals" en "Skill Challenge" cruciaal.
- Voor lezen bleek "Syntax Complexity" (geëxtraheerd door de LLM) zelfs de belangrijkste voorspeller, belangrijker dan grade of woordtelling.

Betekenis en Conclusie

De studie concludeert dat LLM's potentieel hebben om het proces van itemontwikkeling te stroomlijnen en de afhankelijkheid van uitgebreide veldtesten te verminderen.

Superioriteit van de hybride aanpak: De combinatie van LLM's voor diepgaande kenmerkextractie en tree-based modellen voor voorspelling is effectiever dan het laten "raden" van de moeilijkheidsgraad door de LLM zelf. De LLM fungeert hier als een expert die een rubric invult, terwijl het ML-model de optimale weging van deze rubric-criteria leert.
Toepassing: Deze methoden kunnen testontwikkelaars helpen bij het schatten van de moeilijkheidsgraad tijdens het creatieproces, waardoor items beter kunnen worden afgestemd op doelgroepen en de kalibratiecyclus kan worden verkort.
Beperkingen: De prestaties zijn minder sterk voor zeer jonge leerlingen (K-1), waarschijnlijk vanwege de beperkte spreiding in moeilijkheidsgraden. Ook is de huidige studie beperkt tot K-5 wiskunde en lezen; generalisatie naar andere vakken of hogere graden vereist verder onderzoek.

Kortom, de paper toont aan dat een gestructureerde, kenmerkgebaseerde benadering met LLM's een robuust, schaalbaar en kosteneffectief alternatief biedt voor traditionele methoden om itemmoeilijkheid te voorspellen.

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Manier 1: De "Gokker" (Directe Schatting)

Manier 2: De "Detective met een Checklist" (Feature-Based)

Waarom werkt de tweede methode beter?

Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models