Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform LLMs

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een schoolmeester bent die probeert te voorspellen of een leerling de volgende wiskundevraag goed zal beantwoorden. Je hebt twee opties om je bij te staan:

De Speciale Expert: Een slimme, maar kleine assistent die zich uitsluitend heeft gespecialiseerd in het patroon van jouw leerlingen. Hij kent elke fout die ze maken, weet precies waar ze vastlopen, en is razendsnel.
De Allesweter: Een gigantische, superintelligente robot die alles over de wereld weet, van de geschiedenis van Egypte tot de beste recepten voor pizza. Hij kan ook wiskunde, maar hij is niet specifiek getraind om jouw leerlingen te begrijpen.

Dit onderzoek van Eedi (een educatief platform) stelt de vraag: Wie doet het beter?

Het antwoord is verrassend duidelijk: De kleine, speciale expert wint het van de gigantische allesweter.

Hier is de uitleg, vertaald naar alledaagse taal:

1. De Wedstrijd: Snelheid, Kosten en Slimheid

De onderzoekers hebben deze twee types modellen tegen elkaar op laten staan in een test met 100.000 leerlingen. Ze keken naar drie dingen:

Hoe vaak hebben ze gelijk? (Nauwkeurigheid)
- De Speciale Expert (Knowledge Tracing of KT-modellen) had in 73% van de gevallen gelijk.
- De Allesweter (LLMs zoals GPT-4 of Gemini) had maar in 58% tot 66% van de gevallen gelijk.
- Vergelijking: Het is alsof de allesweter probeert een medische diagnose te stellen voor een specifieke ziekte door te googelen, terwijl de specialist die ziekte al 10 jaar elke dag behandelt. De specialist kent de nuances beter.
Hoe snel zijn ze? (Snelheid)
- De Speciale Expert doet er minder dan een seconde over om een voorspelling te doen voor een leerling. Het is alsof hij direct antwoord geeft.
- De Allesweter is traag. Voor sommige modellen duurt het minuten (soms wel 3000 seconden!) om één leerling te analyseren.
- Vergelijking: De specialist is een sprinter die in een flits een antwoord geeft. De allesweter is een olifant die eerst even moet denken, rondkijkt en dan pas langzaam antwoordt. Voor een school met duizenden leerlingen is die vertraging dodelijk.
Hoeveel kost het? (Kosten)
- De Speciale Expert kost bijna niets. Om 100.000 leerlingen een jaar lang te helpen, betaal je minder dan $2.
- De Allesweter is extreem duur. Voor hetzelfde werk moet je tussen de $1.200 en $25.000 per jaar betalen.
- Vergelijping: De specialist is als een fiets: goedkoop, onderhoudsvriendelijk en doet precies wat je nodig hebt. De allesweter is als een privé-jet: indrukwekkend, maar je kunt er niet mee naar de supermarkt voor een ei.

2. Waarom wint de "kleine" expert?

Je zou denken: "Maar die grote AI-modellen zijn toch slimmer? Ze kunnen toch alles?"

Ja, ze kunnen veel, maar ze zijn niet gespecialiseerd.

De Allesweter (LLM) is getraind om teksten te lezen en te schrijven over alles. Hij probeert wiskundevragen op te lossen door te "redeneren" zoals een mens. Maar hij mist de specifieke data over hoe jouw leerlingen leren en fouten maken. Hij is te algemeen.
De Specialist (KT-model) is gebouwd als een "patroonzoeker". Hij kijkt niet naar de tekst van de vraag, maar naar de geschiedenis van de leerling: "Ah, deze leerling maakt altijd fouten bij breuken als er een haakje in staat." Hij is getraind op de specifieke data van de school.

3. De Les voor de Wereld

De boodschap van dit papier is heel belangrijk voor de toekomst van onderwijs:

Gebruik niet altijd de grootste, duurste AI voor alles.

Soms is een "grote taalmodel" (zoals ChatGPT) geweldig voor creatief schrijven of het uitleggen van complexe concepten. Maar als je wilt voorspellen of een leerling een toets gaat halen, of welke hulp die leerling nu nodig heeft, dan is een klein, specifiek model veel beter.

Het is als het kiezen van een gereedschap:

Wil je een muur slopen? Gebruik een sloophamer (de grote AI).
Wil je een klein schroefje in een horloge zetten? Gebruik een kleine, precieze schroevendraaier (de KT-model).

Als je de sloophammer gebruikt om een schroefje vast te zetten, is het te duur, te langzaam en maak je waarschijnlijk de horloge kapot.

Kortom: Voor het voorspellen van leerlingresultaten zijn de kleine, snelle en goedkope specialisten de winnaars. De grote AI-modellen zijn indrukwekkend, maar voor deze specifieke taak zijn ze te traag, te duur en minder nauwkeurig.

Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform LLMs

1. De Wedstrijd: Snelheid, Kosten en Slimheid

2. Waarom wint de "kleine" expert?

3. De Les voor de Wereld

Titel: Sneller, Goedkoper, Nauwkeuriger: Gespecialiseerde Knowledge Tracing-modellen presteren beter dan LLM's

1. Probleemstelling

2. Methodologie

3. Belangrijkste Resultaten

4. Bijdragen en Significantie

Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform LLMs

1. De Wedstrijd: Snelheid, Kosten en Slimheid

2. Waarom wint de "kleine" expert?

3. De Les voor de Wereld

Titel: Sneller, Goedkoper, Nauwkeuriger: Gespecialiseerde Knowledge Tracing-modellen presteren beter dan LLM's

1. Probleemstelling

2. Methodologie

3. Belangrijkste Resultaten

4. Bijdragen en Significantie

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics