Implicit Grading Bias in Large Language Models: How Writing… — Begrijpelijke uitleg

✨

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuwe, super-snelle robotleraar hebt die duizenden proefwerkjes in een paar minuten kan nakijken. Dat klinkt als een droom voor elke school, toch? Geen moeizame nachten meer met stapels papier, en directe feedback voor elke leerling.

Maar deze robot heeft een geheim: hij is vooringenomen. Hij oordeelt niet alleen over wat je schrijft, maar ook over hoe je het schrijft. En dat is precies waar dit onderzoek over gaat.

Hier is het verhaal van het onderzoek, verteld in gewone taal:

🍎 De Proef: De "Gelijke Taart" Test

De onderzoekers wilden weten of deze robot eerlijk is. Ze maakten een experiment met drie soorten schoolopdrachten:

Wiskunde (2 + 2 = 4)
Programmeren (Schrijf een code die werkt)
Opstellen (Schrijf een betoog over een maatschappelijk onderwerp)

Ze maakten voor elke vraag een perfect antwoord. Vervolgens maakten ze drie kopieën van datzelfde perfecte antwoord, maar met een "verfijning" (een verandering) die niets te maken had met de inhoud:

De "Slordige" versie: Vol met spelfouten en leestekens die er niet horen.
De "Lekker losse" versie: Geschreven in straattaal of met afkortingen (zoals "u moet 5 aftrekken" in plaats van "u dient 5 af te trekken").
De "Niet-moedertaal" versie: Grammaticaal wat raar klinkend, alsof iemand het letterlijk uit een ander taal vertaalt.

Het doel? De robot (twee verschillende modellen: LLaMA en Qwen) moest deze antwoorden nakijken op een schaal van 1 tot 10, met de strikte opdracht: "Kijk alleen naar de inhoud, negeer de schrijfstijl!"

📉 De Resultaten: Een Tweedeling in de Wereld

Het resultaat was verrassend en zorgwekkend. De robot gedroeg zich als een twee-faced persoon, afhankelijk van het vak.

1. Wiskunde en Programmeren: De Onpartijdige Rekenaar
Bij wiskunde en code was de robot bijna perfect eerlijk. Als het antwoord "2 + 2 = 4" was, gaf hij een 10, of het nu netjes geschreven was of in straattaal.

De analogie: Het is alsof je een auto laat testen. Als de motor loopt, maakt het niet uit of de auto rood of blauw is, of of er een kras op de bumper zit. De robot keek alleen of de motor liep.

2. Opstellen: De Vooroordeelvolle Criticus
Bij opstellen (essays) werd het echter een heel ander verhaal. Hier gaf de robot veel lagere cijfers aan de "slordige", "losse" of "niet-moedertaal" versies, zelfs als de inhoud exact hetzelfde was als het perfecte origineel.

De "Lekker losse" taal kreeg de zwaarste straf. De robot trok gemiddeld bijna 2 punten af op een schaal van 10. Dat is het verschil tussen een B+ en een C+.
De "Niet-moedertaal" versie kreeg ook een flinke klap, ongeveer 1 tot 1,5 punt minder.
De analogie: Stel je voor dat je een heerlijk gerecht serveert. Als het op een mooi, wit porselein ligt, zegt de robot: "Heerlijk, 10 punten!" Maar als je hetzelfde gerecht op een krant legt, of als het er een beetje rommelig uitziet, zegt hij: "Niet lekker, 6 punten!" Terwijl de smaak (de inhoud) exact hetzelfde is.

🤖 Waarom gebeurt dit?

De onderzoekers ontdekten iets interessants: De robot luistert niet echt naar zijn eigen instructies.

Ze hadden de robot expliciet gezegd: "Negeer de schrijfstijl!" Maar de robot negeerde dit. Waarom?
Omdat de robot is getraind op miljoenen boeken, kranten en academische artikelen. In die wereld is "formeel taalgebruik" gekoppeld aan "hoog niveau" en "slordig taalgebruik" aan "laag niveau". De robot heeft dit patroon zo diep in zijn hersenen (zijn algoritme) opgeslagen, dat hij het niet kan uitschakelen, zelfs niet als je hem erom vraagt.

Het is alsof je een hond traint om niet te blaffen, maar als je een postbode ziet, blaft hij toch. De reflex is te sterk.

💡 Wat betekent dit voor de toekomst?

Dit onderzoek is een waarschuwing voor scholen en universiteiten die denken: "We zetten een AI aan het werk, dan zijn we eerlijker en sneller."

Het gevaar: Leerlingen die niet in het "standaard academische Engels" schrijven (bijvoorbeeld omdat het hun tweede taal is, of omdat ze uit een informele achtergrond komen), krijgen onterecht lagere cijfers. Hun kennis is goed, maar hun "verpakking" kost hen punten.
De oplossing: We kunnen AI niet blindelings vertrouwen voor het nakijken van essays.
1. Gebruik AI alleen voor objectieve vakken (wiskunde, code).
2. Laat menselijke leraren de opstellen nakijken, zeker bij diverse klassen.
3. Voordat een school een AI-systeem koopt, moet er eerst getest worden: "Is deze robot eerlijk voor mijn specifieke leerlingen?"

Conclusie

De robot is slim, maar hij is niet eerlijk als het gaat om taal. Hij straft mensen af die anders praten dan hij gewend is. Zolang we dit niet oplossen, riskeert de schoolwereld dat we een systeem bouwen dat de gelijke kansen voor iedereen juist vermindert, in plaats van verbetert.

Het is een herinnering dat technologie niet altijd neutraal is; soms draagt hij gewoon de vooroordelen van de wereld waar hij uit is geboren.

Each language version is independently generated for its own context, not a direct translation.

Titel: Impliciete Graderingsbias in Grootte Taalmodellen: Hoe Schrijfstijl Automatische Beoordeling Beïnvloedt

Auteurs: Rudra Jadhav, Janhavi Danve, Sonalika Shaw (Universiteiten in Pune, India)
Datum: Maart 2026 (Preprint)

1. Het Probleem

Met de toenemende inzet van Large Language Models (LLM's) als automatische graderen in het onderwijs, rijst de kritieke vraag naar eerlijkheid en bias. Hoewel LLM's beloven duizenden antwoorden snel te verwerken, berust hun toepassing op de ongeteste aanname dat ze werk eerlijk beoordelen, ongeacht de linguïstische achtergrond of schrijfstijl van de student.

Het paper stelt dat studenten variëren in hun schrijfstijl:

Niet-native sprekers kunnen conceptueel correcte antwoorden geven met grammaticale afwijkingen.
Studenten uit informele educatieve achtergronden kunnen geldige ideeën uitdrukken met informele taal.
Eerste-generatie studenten missen vaak de formele academische register die oververtegenwoordigd is in trainingsdata.

Als LLM's deze oppervlakkige variaties straffen terwijl ze claimen alleen de inhoud te beoordelen, discrimineren ze de studenten die het meest gebaat zijn bij schaalbare beoordelingstools, waardoor bestaande ongelijkheden worden versterkt.

2. Methodologie

De onderzoekers hebben een gecontroleerd experiment opgezet om de invloed van schrijfstijl op de gradering te isoleren, waarbij de inhoudelijke juistheid constant werd gehouden.

Dataset: Een dataset van 180 studentenantwoorden, gebaseerd op 60 unieke vragen verdeeld over drie vakgebieden:
- Wiskunde (20 vragen: algebra, meetkunde, statistiek).
- Programmeren (20 Python-taken).
- Opstellen/Schrijven (20 argumentatieve essayvragen).
Perturbaties (Verstoringen): Voor elke basisantwoord (in standaard academisch Engels) werden drie soorten oppervlakkige wijzigingen aangebracht zonder de inhoudelijke juistheid te veranderen:
1. Grammaticafouten: Spelfouten, leestekens, subject-verb agreement fouten.
2. Informele taal: Conversatiestijl, slang, afkortingen (bijv. "u gotta" in plaats van "you have to").
3. Niet-native formulering: Patronen kenmerkend voor niet-native sprekers (bijv. artikelgebruik, prepositiefouten).
Modellen: Twee state-of-the-art open-source LLM's werden getest:
- LLaMA 3.3 70B (Meta): Voornamelijk getraind op Engelstalige webcorpora.
- Qwen 2.5 72B (Alibaba): Getraind op een meer meertalig corpus met sterke vertegenwoordiging van niet-Engelse talen.
Protocol: Beide modellen kregen een gestandaardiseerde prompt met expliciete instructies om geen straf toe te kennen voor grammatica, spelling of stijl ("Do NOT penalize for..."). De modellen moesten een score van 1-10 geven.
Statistiek: Bias werd gemeten als het verschil tussen de score van het basisantwoord en het verstoorde antwoord ( $\Delta$ ). Er werden gepaarde t-tests, Cohen's d (effectgrootte) en correlaties met menselijke grondwaarheid-scores berekend.

3. Belangrijkste Bijdragen

Gestandaardiseerd Kader: Een gecontroleerd perturbatiekader dat schrijfstijl isoleert van inhoudelijke juistheid, waardoor directe meting van oppervlakkige bias mogelijk is.
Vakgebiedsverschil: Een vergelijking van twee topmodellen over drie domeinen, wat een scherp contrast blootlegt tussen objectieve en subjectieve gradering.
Prompt-Engineering Beperking: Het aantonen dat expliciete instructies om bias te negeren onvoldoende zijn om bias te voorkomen, wat fundamentele vragen stelt over prompt engineering als enige debiasing-strategie.

4. Resultaten

De resultaten tonen een duidelijke, statistisch significante bias, maar deze is sterk afhankelijk van het vakgebied.

Algemene Bias:
- LLaMA 3.3 toonde een hogere maximale straf (1,90 punten) dan Qwen 2.5 (1,20 punten).
- Qwen toonde echter bias in een groter percentage van de testcondities (44,4% vs 33,3%).
Vakgebiedsafhankelijkheid ("Subjectivity Gradient"):
- Opstellen/Schrijven: Alle condities waren statistisch significant (p < 0,05) met grote tot zeer grote effectgroottes (Cohen's d tot 4,25). Informele taal kreeg de zwaarste straf (LLaMA: -1,90 punten; Qwen: -1,20 punten). Dit komt overeen met het verschil tussen een B+ en een C+.
- Wiskunde & Programmeren: Hier was de bias minimaal of niet significant. Voor programmeren (met objectief verifieerbare output) was de straf bijna nul ( $\Delta \approx 0$ ).
Effectgrootte: De bias in essay-taken was extreem groot, terwijl de bias in STEM-vakken verwaarloosbaar was.
Mens-LLM Overeenkomst: De correlatie tussen menselijke gradering en LLM-scores was zwak overall, maar het sterkst bij programmeren. Bij wiskunde was de correlatie bijna nul, waarschijnlijk door een "ceiling effect" (beide modellen gaven bijna perfecte scores).

5. Betekenis en Conclusie

Het onderzoek concludeert dat LLM-gradering vakgebiedsafhankelijk en stijlgevoelig is.

De "Subjectivity Gradient": Bias neemt drastisch toe naarmate de beoordeling meer subjectief is. De onderwijsopdrachten waar automatische gradering het meest nodig is (opstellen, open vragen), zijn juist de gebieden waar de bias het ernstigst is.
Falen van Prompt-Engineering: Expliciete instructies om geen straf te geven voor stijl werken niet. De bias zit dieper verankerd in de gewichten van het model, waarschijnlijk door associaties in de trainingsdata tussen informele taal en lage kwaliteit.
Ethische Implicaties: Studenten met niet-native achtergronden, informele schrijfstijlen of andere culturele contexten worden systematisch lager beoordeeld, niet vanwege gebrek aan kennis, maar vanwege hun expressiestijl. Dit kan gevolgen hebben voor GPA's, beurzen en loopbanen.

Aanbevelingen:

Implementeer verplichte bias-audits (gebaseerd op perturbaties) voordat LLM-systemen worden ingezet.
Beperk geautomatiseerde gradering tot objectieve domeinen (wiskunde, code) totdat effectieve oplossingen voor subjectieve taken zijn ontwikkeld.
Investeer in fine-tuning met stijl-diverse data om inhoud van oppervlakkige kenmerken te ontkoppelen.
Behoud menselijk toezicht voor subjectieve beoordelingen, vooral in taalkundig diverse populaties.

Kortom: Zolang LLM's niet worden aangepast, vormen ze een risico op het versterken van bestaande ongelijkheden in het onderwijs door oppervlakkige schrijfstijl te straffen.

Implicit Grading Bias in Large Language Models: How Writing Style Affects Automated Assessment Across Math, Programming, and Essay Tasks