Can LLMs Model Incorrect Student Reasoning? A Case Study on Distractor Generation

Each language version is independently generated for its own context, not a direct translation.

Titel: Kunnen AI's de "domme" fouten van leerlingen nabootsen? Een kijkje in de keuken van een slimme rekenmachine.

Stel je voor dat je een leraar bent die een toets maakt. Je wilt niet alleen de juiste antwoorden hebben, maar ook valkuilen (in het Engels: distractors). Dit zijn de antwoorden die een leerling zou kiezen als hij een specifieke, logische fout maakt. Als een leerling denkt dat $2 + 2 = 5$ , moet die fout ook als antwoordoptie op de toets staan, zodat je kunt zien dat hij die specifieke verwarring heeft.

Maar het maken van zulke valkuilen is lastig. Je moet niet alleen weten wat het juiste antwoord is, maar ook in het hoofd van een leerling kruipen om te begrijpen waarom die fout gemaakt wordt.

Deze paper onderzoekt of moderne AI-modellen (zoals DeepSeek en GLM) dit kunnen. Kunnen ze niet alleen het juiste antwoord vinden, maar ook de "domme" redeneringen van een leerling nabootsen?

Hier is de samenvatting, vertaald naar begrijpelijke taal met een paar creatieve vergelijkingen.

1. De Opdracht: De "Fouten-Imitator"

De onderzoekers gaven de AI een taak: "Maak drie verkeerde antwoorden voor deze wiskundevraag, maar zorg dat ze slim genoeg zijn om een leerling in de val te lokken."

Het is alsof je een toneelspeler vraagt om een rol te spelen. De AI moet niet alleen de regisseur zijn (die het juiste antwoord weet), maar ook de acteur die de rol van een leerling met een specifieke misvatting speelt.

2. De Grote Verrassing: De AI werkt als een goede leraar

De onderzoekers dachten misschien dat AI's gewoon raden of oppervlakkige fouten zouden maken (zoals een getal veranderen van 4 naar 5). Maar wat ze zagen, was verrassend: De AI werkt precies zoals een ervaren leraar zou doen.

De AI volgt een soort recept dat ook in de pedagogie (leerwetenschap) wordt aangeraden:

Eerst het juiste antwoord vinden: De AI lost de som eerst perfect op. Dit is als een chef-kok die eerst het perfecte gerecht kookt.
Dan de fout bedenken: Vervolgens denkt de AI na: "Hoe zou een leerling hier fout gaan?" Misschien vergeet hij een stap, of deelt hij de verkeerde getallen.
De fout uitvoeren: De AI simuleert die fout stap voor stap.
Kiezen: Uiteindelijk kiest de AI de drie meest geloofwaardige fouten uit.

Het is alsof de AI eerst de juiste route op de kaart tekent, en dan zegt: "Oké, als ik hier per ongeluk linksaf sla in plaats van rechtsaf, kom ik uit bij een plek die eruitziet als een bestemming, maar dat niet is."

3. Waar gaat het mis? (De "Ziekte" van de AI)

Hoewel de AI het proces goed volgt, maakt hij soms nog fouten. De onderzoekers keken waar het misging:

Niet de fout simuleren: De AI is goed in het bedenken van fouten.
Het juiste antwoord vergeten: Soms vergeet de AI het juiste antwoord onderweg. Als je de basis niet kent, kun je geen goede valkuil maken.
De verkeerde keuze maken: De AI bedenkt soms een goede fout, maar kiest er een minder goede uit voor de uiteindelijke toets.

De oplossing?
Als je de AI het juiste antwoord al geeft in de opdracht (als een anker), wordt hij veel beter. Het is alsof je de chef-kok het perfecte gerecht laat proeven voordat hij de "verkeerde" versies moet bedenken. Dit verbeterde de resultaten met 8%.

4. De Conclusie: AI is een slimme, maar nog niet perfecte, leerling

De kernboodschap van dit onderzoek is:

Moderne AI's zijn niet alleen maar "zoekmachines" die antwoorden raden.
Ze kunnen systematisch redeneren over waarom leerlingen fouten maken.
Ze volgen een logisch proces: eerst goed doen, dan fouten bedenken, dan kiezen.
Ze hebben echter wel een hulpje nodig (het juiste antwoord) om hun beste prestatie te leveren.

Kortom:
Stel je voor dat je een detective bent die moet uitzoeken hoe een dader (de leerling) een fout heeft gemaakt. De AI is nu zo slim dat hij eerst de feiten (het juiste antwoord) verzamelt, en dan pas de mogelijke scenario's van de dader reconstrueert. Hij is nog niet perfect, maar hij denkt op een manier die heel dicht bij hoe een echte menselijke leraar denkt.

Dit is een grote stap vooruit voor het maken van slimme toetsen en digitale tutors die echt begrijpen waar leerlingen vastlopen.

Can LLMs Model Incorrect Student Reasoning? A Case Study on Distractor Generation

1. De Opdracht: De "Fouten-Imitator"

2. De Grote Verrassing: De AI werkt als een goede leraar

3. Waar gaat het mis? (De "Ziekte" van de AI)

4. De Conclusie: AI is een slimme, maar nog niet perfecte, leerling

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Significantie

Can LLMs Model Incorrect Student Reasoning? A Case Study on Distractor Generation

1. De Opdracht: De "Fouten-Imitator"

2. De Grote Verrassing: De AI werkt als een goede leraar

3. Waar gaat het mis? (De "Ziekte" van de AI)

4. De Conclusie: AI is een slimme, maar nog niet perfecte, leerling

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Significantie

Meer zoals dit

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Generating High Quality Synthetic Data for Dutch Medical Conversations

GIANTS: Generative Insight Anticipation from Scientific Literature