Using Vision + Language Models to Predict Item Difficulty

Dit onderzoek toont aan dat een multimodale aanpak met GPT-4.1-nano, die zowel tekst als visuele elementen van datavisualisaties combineert, de moeilijkheidsgraad van testvragen voor data-literacy nauwkeuriger voorspelt dan enkel tekst- of visuele modellen.

Samin Khan

Gepubliceerd 2026-03-06
📖 3 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuwe bordspellen-uitdaging aan het ontwerpen bent. Je hebt een kaart met een ingewikkelde grafiek en een vraag erbij. De grote vraag is: Is dit spelletje te makkelijk voor een kind, of te moeilijk voor een volwassene?

Normaal gesproken moet je dit spelletje duizenden keren spelen met echte mensen om te zien hoe moeilijk het is. Dat kost tijd, geld en geduld.

In dit onderzoek doet Samin Khan iets slims: hij vraagt een super-slimme computer (een "AI" genaamd GPT-4) om te voorspellen hoe moeilijk zo'n vraag is, voordat hij het aan één enkel mens laat zien.

Hier is hoe het werkt, vertaald in alledaags taal:

1. De Drie Detectives

De onderzoeker stuurde drie verschillende "detectives" (AI-modellen) naar de vragen om hun moeilijkheidsgraad te raden.

  • Detective Tekst: Deze kijkt alleen naar de woorden. Hij leest de vraag en de antwoordkeuzes. Hij denkt: "Hmm, deze zin is heel lang en vol moeilijke woorden, dus dit is vast lastig."
  • Detective Beeld: Deze kijkt alleen naar de plaatjes (de grafieken). Hij denkt: "Oei, deze grafiek is erg rommelig en de letters zijn klein, dus dit is vast lastig."
  • Detective Alles-in-Één (De Multimodale): Deze is de superheld. Hij kijkt tegelijkertijd naar het plaatje én de tekst. Hij ziet hoe ze samenwerken. Hij denkt: "Het plaatje is duidelijk, maar de vraag is zo raar gesteld dat het toch lastig wordt," of "De grafiek is ingewikkeld, maar de vraag helpt je er precies bij."

2. Het Experiment: Een Proefkeuken

De AI's kregen een proefkeuken (een dataset) met 154 vragen. Hun taak was om te raden welk percentage mensen het goed zou hebben.

  • De uitkomst: De "Alles-in-Één" detective won het met kop en schouders. Hij maakte de minste fouten.
  • De les: Je kunt de moeilijkheid van een vraag niet goed inschatten door alleen naar de tekst of alleen naar het plaatje te kijken. Het geheim zit in de combinatie. Het is alsof je een gerecht proeft: je moet weten hoe de smaak (tekst) en de presentatie (plaatje) samenwerken om te weten of het lekker (makkelijk) of te zout (moeilijk) is.

3. De Echte Proef: De "Blindtest"

Om te bewijzen dat de "Alles-in-Één" detective niet alleen in de proefkeuken goed was, stuurde hij naar een echte, onbekende test (een "held-out" set) met 46 nieuwe vragen.

  • Het resultaat was indrukwekkend. De AI voorspelde de moeilijkheid bijna perfect.
  • Een klein struikelblok: 6 vragen hadden plaatjes in een specifiek formaat (.svg) dat de AI niet kon "lezen" (net als een mens die geen Chinees kan lezen). Voor deze 6 vragen gaf de AI een gokje (50/50). Als deze niet hadden meegedaan, was het resultaat waarschijnlijk nog beter geweest.

Waarom is dit belangrijk?

Stel je voor dat je een schoolboek schrijft. Vroeger moest je wachten tot het boek in de klas lag en honderden leerlingen het hadden gemaakt om te zien welke vragen te moeilijk waren.
Met deze AI-techniek kun je direct zien: "Oeps, deze vraag over deze grafiek is waarschijnlijk te lastig, laten we de tekst iets duidelijker maken."

Kortom:
Deze studie toont aan dat we AI kunnen gebruiken als een slimme "proeflezer" voor toetsvragen. Door te kijken naar zowel de tekst als de plaatjes, kunnen we veel sneller en beter toetsen maken die precies op het juiste niveau zitten voor leerlingen. Het is alsof we een magische bril hebben gekregen die ons laat zien hoe moeilijk een vraag is, nog voordat iemand hem heeft beantwoord.