Criterion-referenceability determines LLM-as-a-judge validity… — Begrijpelijke uitleg

✨

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Titel: Kunnen AI's echt doceren? Een proef in de natuurkunde

Stel je voor dat je een grote klas natuurkunde hebt en je wilt de toetsen nakijken. Dat kost veel tijd en energie. Dus, je vraagt een slimme computer (een 'Large Language Model' of LLM) om te helpen. Maar kun je die computer wel vertrouwen?

Dit onderzoek van de universiteit van Durham in Engeland probeert precies dat antwoord te vinden. Ze hebben gekeken of AI's goed kunnen nakijken bij drie heel verschillende soorten natuurkundedoeken. Het resultaat is verrassend: het hangt helemaal af van hoe de vraag eruit ziet, niet van hoe slim de computer is.

Hier is de uitleg, vertaald naar alledaagse taal met een paar creatieve vergelijkingen.

1. De Drie Soorten "Vragen"

De onderzoekers keken naar drie soorten taken, alsof ze drie verschillende sporten bekeken:

De Wiskundige Puzzel (Gestructureerde vragen): Dit zijn vragen met een vast antwoord, zoals "Bereken de snelheid van deze auto". Er is één juiste uitkomst.
Het Opstel (Essays): Dit zijn vragen waar je moet uitleggen waarom iets zo is, met je eigen woorden. Denk aan een betoog over de geschiedenis van de natuurkunde. Er is geen één "juist" antwoord, maar wel een goede of slechte redenering.
De Grafiek (Wetenschappelijke plots): Dit zijn vragen waarbij studenten een computerprogramma schrijven om een grafiek te maken. Je kijkt of de lijn klopt en of de asjes goed zijn.

2. De Vergelijking: De "Recept-Check" vs. De "Smaaktest"

Het onderzoek laat zien dat AI's heel goed zijn in het eerste geval, maar heel slecht in het tweede. Waarom?

Geval A: De Wiskundige Puzzel (De Recept-Check)
Stel je voor dat je een cake bakt. Als je het recept hebt, kun je heel makkelijk controleren of de bakker de juiste hoeveelheid suiker en bloem heeft gebruikt.

Wat de AI doet: Als de AI het "recept" (het juiste antwoord) krijgt, kijkt hij precies of de student die stappen heeft gevolgd. Hij is dan net als een keurmeester die een lijstje afvinkt.
Het resultaat: De AI is hier uitstekend. Hij maakt weinig fouten en kan heel goed zien wie een goede cake heeft gebakken en wie een slechte. Zelfs als hij het recept niet heeft, doet hij het nog steeds redelijk goed, omdat de antwoorden vaak logisch zijn.

Geval B: De Grafiek (De Technische Controle)
Hier kijkt de AI naar een tekening die door code is gemaakt. Het is alsof je kijkt of een tekening van een brug wel stevig is.

Wat de AI doet: De AI kijkt naar duidelijke regels: zijn de asjes gelabeld? Is de eenheid correct? Is de lijn logisch?
Het resultaat: Ook hier is de AI zeer goed. Omdat er duidelijke regels zijn voor een goede grafiek, kan de AI deze perfect beoordelen.

Geval C: Het Opstel (De Smaaktest)
Nu wordt het lastig. Stel je voor dat je een kok vraagt om een gerecht te beoordelen op "smaak" en "creativiteit", zonder dat er een recept is.

Wat de AI doet: De AI probeert te raden wat een goede smaak is. Maar omdat "smaak" subjectief is, raakt de AI in de war.
Het probleem: De onderzoekers ontdekten iets heel raars. Als ze de AI een voorbeeld gaven van een "goede" en een "slechte" opstel (zodat hij wist wat hij moest zoeken), werd de AI niet beter in het onderscheid maken tussen goed en slecht.
De vergelijking: Het was alsof je de AI een lijstje gaf met "smaakpunten", maar hij bleef gewoon gokken. Hij gaf soms een 10 voor een slecht opstel en een 2 voor een goed opstel, zolang het maar leek op de voorbeelden. Hij kon de kwaliteit niet echt beoordelen, hij probeerde alleen te gokken wat de gemiddelde mens zou zeggen.

3. De Grootste Leerles: "Criterium-Referentie"

De kernboodschap van dit paper is een nieuw woord: Criterium-referentie.

Hoge criterium-referentie: De taak heeft duidelijke, zichtbare regels (zoals een wiskundig antwoord of een grafiek). Hier werkt de AI fantastisch. Hij is als een robot die een lijstje afvinkt.
Lage criterium-referentie: De taak is vaag en subjectief (zoals een opstel). Hier faalt de AI. Hij is als een robot die probeert kunst te beoordelen zonder te weten wat "kunst" is.

De valkuil:
Soms denkt een school: "Als we de AI gewoon wat voorbeelden geven, wordt hij wel goed." Dit onderzoek zegt: Nee.
Als je een AI voorbeelden geeft van goede opstellen, kan hij de cijfers wel beter laten lijken op die van mensen (hij geeft dan gemiddeld dezelfde cijfers), maar hij blijft niet in staat om te zien welke opstellen écht beter zijn dan andere. Hij "leert" niet echt, hij "gokt" alleen maar op de verdeling van de cijfers.

4. Wat betekent dit voor scholen en universiteiten?

Gebruik AI voor de "Recepten": Laat AI toetsen nakijken met vaste antwoorden, wiskundige berekeningen of grafieken. Daar is hij betrouwbaar, snel en eerlijk.
Gebruik AI niet voor de "Smaaktesten": Laat AI geen lange essays of creatieve teksten nakijken. Daar is hij nog niet slim genoeg om de echte kwaliteit te zien. Menselijke docenten zijn hier nog steeds onmisbaar.
Wees voorzichtig met "Voorbeelden": Als je een AI voorbeelden geeft van goede antwoorden, denk dan niet dat hij nu "slimmer" is geworden. Hij is misschien alleen maar beter gaan gokken wat jij wilt horen.

Kortom:
Een AI is een geweldige rekenmachine en een controleur van regels, maar nog geen kunstcriticus. Als je wilt dat een AI nakijkt, zorg er dan voor dat de taak zo duidelijk is dat er geen twijfel mogelijk is. Als de vraag "wat vind je ervan?" is, laat dan een mens het antwoord geven.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Naarmate Large Language Models (LLM's) steeds bekwaamer worden in het oplossen van natuurkundeproblemen, rijst de vraag of ze ook betrouwbaar kunnen worden ingezet voor het beoordelen van studentenwerk ("LLM-as-a-judge"). Hoewel eerdere studies de haalbaarheid voor gestructureerde vragen hebben aangetoond, is er onzekerheid over de geldigheid van AI-beoordeling bij verschillende assessmentformaten (zoals essays en grafieken) en onder verschillende omstandigheden (bijv. met of zonder oplossingsrichtlijnen).

De kern van het probleem is dat aggregatiemetrics (zoals gemiddelde fouten) misleidend kunnen zijn. Een model kan een lage gemiddelde fout hebben door simpelweg de verdeling van menselijke scores te imiteren, zonder daadwerkelijk onderscheid te kunnen maken tussen goed en slecht werk (geen discriminative validity). Er is behoefte aan een begrip dat bepaalt wanneer AI-beoordeling betrouwbaar is en wanneer het systematische bias introduceert die de eerlijkheid van het onderwijs ondermijnt.

Methodologie

De auteurs van Durham University hebben een uitgebreide evaluatie uitgevoerd van zes state-of-the-art LLM's (GPT-5.2, Grok 4.1, Claude Opus 4.5, DeepSeek-V3.2, Gemini Pro 3) en een "comité" (gemiddelde van alle modellen). De studie omvatte drie kwalitatief verschillende assessmentformaten uit een bacheloropleiding natuurkunde:

Gestructureerde vragen (Structured Questions):
- Dataset: 771 universiteitsexamenvragen (blind, zonder oplossingen) en 1151 curriculumvragen (GCSE, A-Level, leerboeken) met beschikbare oplossingen.
- Condities: Blind beoordelen, beoordelen met de officiële oplossing, en beoordelen met een valse oplossing (opzettelijk gekorrumpeerd) om "ankering" (bias naar de referentie) te testen.
- Opmerking: De antwoorden in deze datasets waren gegenereerd door AI om een gecontroleerde pool van correcte en incorrecte antwoorden te creëren.
Essays (Written Essays):
- Dataset: 55 scripts met in totaal 275 korte essays (gescoord op een schaal van 0-100).
- Condities: Blind, met een beoordelingsschema (rubric), en met een schema plus verankerde voorbeelden (exemplars) uit verschillende percentielen van de menselijke scores.
- Referentie: Menselijke beoordeling door 5 onafhankelijke examinatoren (hoge variabiliteit in menselijke beoordeling).
Wetenschappelijke Plotten (Scientific Plots):
- Dataset: 1400 individuele plots gegenereerd in Jupyter notebooks.
- Condities: Beoordeling op basis van een rubric (0-5 schaal) zonder specifieke oplossingsrichtlijnen, maar met context van de notebook.

Evaluatiemetrics:

Absolute nauwkeurigheid: Fractional Mean Absolute Error (fMAE).
Discriminatieve geldigheid (Validity): Spearman rangcorrelatie ( $\rho$ ) en Quadratic Weighted Kappa (QWK) om te meten of het model studenten correct rangschikt op kwaliteit, ongeacht de absolute score.

Belangrijkste Bijdragen

Concept van "Criterion-referenceability": De auteurs introduceren en operationaliseren dit concept als de sleutelvariabele voor de geldigheid van AI-beoordeling. Het verwijst naar de mate waarin de criteria voor een score expliciet, observeerbaar en consistent toepasbaar zijn op het antwoord.
Vergelijking van formaten: Het is de eerste studie die systematisch de prestaties van LLM's vergelijkt over gestructureerde vragen, open essays en visuele data (plots) binnen hetzelfde domein.
Ontmaskeren van schijnbare overeenkomst: De studie toont aan dat een lage Mean Absolute Error (MAE) in open assessments (essays) niet gelijkstaat aan geldigheid, maar vaak het gevolg is van het "matchen" van een ruisende menselijke scoreverdeling.
Anchoring Bias: Het kwantificeert hoe sterk LLM's afhankelijk zijn van referentiemateriaal, zelfs als dat materiaal foutief is.

Resultaten

1. Gestructureerde Vragen

Blind: Modellen bereiken een redelijke absolute nauwkeurigheid (fMAE $\approx$ 0,22) en sterke discriminatieve geldigheid ( $\rho > 0,6$ ). Ze kunnen goed onderscheid maken tussen goede en slechte antwoorden zonder oplossing.
Met Oplossing: Het verstrekken van de officiële oplossing verlaagt de fouten (fMAE daalt) en verhoogt de geldigheid ( $\rho$ tot 0,88 voor het comité).
Met Valse Oplossing: De absolute nauwkeurigheid stort in (modellen geven bijna nul punten aan correcte antwoorden die afwijken van de valse oplossing), maar de rangschikking blijft grotendeels behouden ( $\rho \approx 0,77$ ). Dit bewijst dat modellen de fysica niet onafhankelijk verifiëren, maar tekstpatronen matchen met de referentie.

2. Essays

Prestatie: AI-beoordeling van essays is fundamenteel anders en slechter dan bij gestructureerde vragen.
Blind: AI is strenger en variabeler dan mensen, met zeer lage discriminatieve geldigheid ( $\rho \approx 0,1$ ).
Met Schema: Voegt geen verbetering toe aan de rangschikking ( $\rho \approx 0$ ).
Met Verankering (Anchoring): Het toevoegen van voorbeeldantwoorden (exemplars) schuift de gemiddelde AI-score dicht naar de menselijke gemiddelde en verlaagt de variantie. Echter, de discriminatieve geldigheid blijft nul ( $\rho \approx 0$ ). De modellen leren de verdeling van de scores na te bootsen, maar kunnen geen onderscheid maken tussen kwaliteiten.
Menselijke Referentie: Menselijke beoordelaars hadden zelf al een zeer lage onderlinge betrouwbaarheid ( $\rho = 0,054$ ), wat aangeeft dat dit assessmentformaat inherent ruisig is.

3. Wetenschappelijke Plotten

Prestatie: Uitzonderlijk hoog. Modellen bereiken een zeer sterke discriminatieve geldigheid ( $\rho > 0,84$ ) en bijna lineaire kalibratie.
Oorzaak: Hoewel het visueel is, is de taak sterk gestructureerd door de context (Jupyter notebook) en de rubric (asjes, eenheden, schaal). Dit maakt het een "criterion-referenced" taak.

4. Authorship Bias

Er werd geen bewijs gevonden dat AI-modellen AI-genereren werk gunstiger beoordelen (geen "self-preference"). In feite gaven ze AI-essays vaak strengere scores dan menselijk werk.

Significantie en Conclusie

De studie concludeert dat de betrouwbaarheid van "LLM-as-a-judge" niet primair afhangt van de capaciteit van het model, maar van de karakteristieken van de assessmentopdracht:

Criterium-gebaseerde taken: Waar de beoordelingscriteria expliciet en observeerbaar zijn (gestructureerde vragen, gecontroleerde plots), kunnen LLM's betrouwbare beoordelingen geven, zelfs blind.
Holistische taken: Waar beoordeling afhankelijk is van holistische oordelen en de menselijke referentie zelf ruisig is (essays), falen LLM's in het leveren van geldige rangschikking. Ze kunnen wel de scoreverdeling nabootsen, wat een vals gevoel van veiligheid kan geven.

Praktische Implicaties:

Governance: Het gebruik van AI als enige beoordelaar is riskant, vooral bij open-ended taken. Regulatoren (zoals Ofqual) hebben gelijk om voorzichtig te zijn.
Implementatie: AI is geschikt als assistent voor gestructureerde taken, tweede beoordeling, of feedbackgeneratie. Voor essays moet AI worden gezien als een beschrijvend hulpmiddel, niet als een autoritair oordeel.
Ontwerp: Onderwijsontwerpers moeten zich realiseren dat het toevoegen van voorbeelden (exemplars) aan een AI-prompt de schijnbare overeenkomst met mensen kan vergroten, maar niet de onderliggende geldigheid verbetert als de taak zelf niet goed gestructureerd is.

Kortom: Validiteit volgt uit de mate van criterium-referentieerbaarheid van de taak, niet uit de kracht van het model.

Criterion-referenceability determines LLM-as-a-judge validity across physics assessment formats