Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Dit onderzoek toont aan dat het combineren van Large Language Models voor het extraheren van cognitieve en taalkundige kenmerken met boomgebaseerde machine learning-algoritmen een nauwkeuriger methode biedt om de moeilijkheidsgraad van K-5 wiskunde- en leesitems te voorspellen dan directe schattingen door LLM's, waardoor de afhankelijkheid van uitgebreide veldtests kan worden verminderd.

Pooya Razavi, Sonya Powers

Gepubliceerd Tue, 10 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Hoe AI helpt om de moeilijkheidsgraad van schooltoetsen te voorspellen

Stel je voor dat je een nieuwe rij van schooltoetsen maakt voor kinderen van 5 tot 11 jaar. Je wilt weten: Is deze vraag te makkelijk? Is hij te moeilijk? Of zit hij precies goed?

Vroeger was dit een enorme klus. Je moest duizenden kinderen de toets laten maken, hun antwoorden analyseren en maanden wachten voordat je wist of de vragen goed waren. Dat kost veel geld, tijd en energie.

De auteurs van dit onderzoek (Pooya Razavi en Sonya Powers) hebben gekeken of we dit proces kunnen versnellen met Artificial Intelligence (AI), en dan specifiek met een slimme taalcomputer die we een "Grote Taalmodel" (LLM) noemen. Denk hierbij aan een super-intelligente robot die alles wat er op internet staat heeft gelezen en heel goed begrijpt hoe taal en logica werken.

Ze hebben twee manieren getest om deze robot te gebruiken. Laten we het uitleggen met een paar simpele analogieën.

Manier 1: De "Gokker" (Directe Schatting)

In de eerste methode vroegen ze de AI: "Kijk naar deze vraag en zeg me direct: hoe moeilijk is dit? Geef een cijfer van 1 tot 100."

Dit is alsof je een ervaren leraar vraagt om snel naar een vraag te kijken en een oordeel te vellen.

  • Het resultaat: De AI was best goed! Als je naar alle vragen samen keek, gaf ze een redelijk nauwkeurig antwoord.
  • Het probleem: Bij de kleinsten (kleuters en eerste klas) had de AI het vaak mis. Het was alsof de AI dacht dat een vraag over "tellen met appels" heel moeilijk was, terwijl dat voor een kleuter juist heel makkelijk is. De AI was soms te streng of te soepel voor de jongste kinderen.

Manier 2: De "Detective met een Checklist" (Feature-Based)

In de tweede methode deden ze het slimmer. Ze gaven de AI niet de opdracht om direct een cijfer te geven. In plaats daarvan zeiden ze: "Kijk naar deze vraag en vul deze specifieke lijst in:"

De lijst zag er zo uit:

  • Hoeveel stappen moet je doen om het antwoord te vinden?
  • Zijn er moeilijke woorden gebruikt?
  • Moet je een plaatje interpreteren?
  • Is het antwoordverkeerd (de 'distractors') slim vermomd?

De AI vulde deze lijst in voor elke vraag. Vervolgens gaven ze deze lijstjes aan een slimme rekenmachine (een computerprogramma genaamd 'Random Forest' of 'Gradient Boosting'). Deze rekenmachine leerde van de lijstjes: "Ah, als er veel stappen zijn én moeilijke woorden, dan is de vraag waarschijnlijk moeilijk."

  • Het resultaat: Deze methode was veel beter. De rekenmachine kon de patronen in de lijstjes veel nauwkeuriger vertalen naar een moeilijkheidsgraad dan de AI die direct een cijfer moest gokken.
  • De winst: De voorspellingen waren zo goed dat ze bijna net zo betrouwbaar waren als de echte toetsresultaten van duizenden kinderen, maar dan in een paar seconden berekend.

Waarom werkt de tweede methode beter?

Stel je voor dat je een kok bent die een gerecht moet beoordelen.

  • Methode 1 is alsof je de kok vraagt: "Proef dit en zeg me of het lekker is." Hij geeft een oordeel, maar dat kan subjectief zijn.
  • Methode 2 is alsof je de kok vraagt: "Noteer hoeveel zout erin zit, hoe groot de stukjes vlees zijn, en hoe heet het is." Vervolgens neemt een andere expert (de rekenmachine) deze notities en berekent op basis daarvan precies hoe lekker het gerecht is.

Door de taak op te splitsen in kleine, specifieke onderdelen (de checklist), maakt de AI minder fouten dan wanneer ze alles in één keer moet beoordelen.

Wat betekent dit voor de toekomst?

Dit onderzoek is een grote stap vooruit voor het onderwijs.

  1. Snelheid: Schoolboekenmakers kunnen nu al tijdens het maken van vragen zien of ze te moeilijk of te makkelijk zijn. Ze hoeven niet meer maanden te wachten op testresultaten.
  2. Kosten: Het bespaart duizenden euro's omdat er minder grote proefrondes nodig zijn.
  3. Betrouwbaarheid: Voor de oudere kinderen (groep 3 t/m 8) werkt het bijna perfect. Voor de allerjongsten moet je nog wel even oppassen, want daar is de AI nog niet helemaal scherp genoeg.

Kortom: AI is niet de perfecte leraar die alles al weet, maar als we haar slim gebruiken als een "detective met een checklist" en die resultaten laten verwerken door een slimme rekenmachine, kunnen we toetsen maken die veel sneller, goedkoper en eerlijker zijn voor de kinderen.