Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

Each language version is independently generated for its own context, not a direct translation.

Hoe we oplichters met AI-essays kunnen opsporen: Een gids in gewone taal

Stel je voor dat schrijven een superkracht is. Het is de manier waarop mensen hun gedachten ordenen, complexe ideeën uitleggen en elkaar overtuigen. Voor scholen en universiteiten is het controleren van deze essays (zoals bij examens) een cruciale taak. Maar nu is er een nieuwe speler in het spel: AI.

Dit wetenschappelijke artikel van Jiangang Hao (van het ETS Research Institute) gaat over een groot probleem: Hoe weet je of een essay echt door een mens is geschreven, of door een slimme computer (een 'Large Language Model' of LLM)?

Hier is de samenvatting, vertaald naar begrijpelijke taal met een paar handige vergelijkingen.

1. Het probleem: De perfecte nep-essay

Vroeger was plagiaat (kopiëren) makkelijk te zien. Het was als het vinden van een identieke kledingstuk in een andere kast. Je kon het vergelijken met bestaande bronnen.

Maar AI werkt anders. Een AI schrijft geen kopie; het schrijft iets nieuws dat klinkt als menselijk. Het is alsof iemand een perfecte kopie van je handtekening maakt, maar dan met een pen die je nooit hebt gezien. De tekst is origineel, maar de 'geest' erachter is van een machine. Dit maakt het heel lastig om te weten wie de schrijver echt is.

2. De detectoren: De politiemethoden

De auteurs kijken naar verschillende manieren om deze AI-essays te vangen. Ze vergelijken dit met verschillende methoden om een verdachte te identificeren:

De 'Stijl-Check' (Supervised Learning):
Dit is alsof je een detective bent die let op kleine details. Mensen schrijven vaak met kleine onregelmatigheden (soms een lange zin, soms een korte, soms een typfout). AI schrijft vaak te 'perfect' of met een heel specifiek ritme. De computer leert deze patronen en zegt: "Aha, dit ritje past niet bij een mens!"
- Vergelijking: Het is alsof je kijkt naar de loop van iemand. Mensen hinken soms of lopen snel, maar een robot loopt altijd met exact dezelfde pas.
De 'Watermerk' (Watermarking):
Dit is een idee waarbij de AI-fabrikant een onzichtbaar teken in de tekst stopt, zoals een watermerk op een biljet. Als je dat teken ziet, weet je: "Dit is van de AI."
- Het nadeel: Het werkt alleen als de AI-fabrikant meewerkt. En als iemand de tekst even herschrijft (net als het wassen van een biljet), is het teken weg. Bovendien kunnen criminelen (studenten) gewoon een andere AI gebruiken die geen watermerk heeft.
De 'Schrijfpols' (Writing Process):
Dit is misschien wel de slimste methode. Als je echt schrijft, typ je, pauzeer je, denk je na, en wis je soms. Je hebt een 'schrijfpols' (keystroke dynamics).
- Vergelijking: Als iemand een AI-essay kopieert en plakt, is dat als een auto die plotseling op de snelweg verschijnt zonder te versnellen. Er is geen 'versnelling' of 'remmen' te zien. Als je kijkt naar de tijdsregistratie van het typen, zie je of iemand echt aan het werk was of gewoon een stukje tekst heeft overgenomen.
De 'Vergelijkings-Check' (Similarity Matching):
Als je weet welke vragen er op een examen komen, kun je zelf duizenden AI-essays laten maken over diezelfde vragen. Vervolgens vergelijk je het in te leveren essay met die database. Als er te veel overeenkomsten zijn, is het verdacht.
- Beperking: Dit werkt alleen als de vragen bekend zijn (zoals bij een officieel examen). Bij een vrij huiswerkopdracht werkt dit niet.

3. De uitdaging: De AI verandert te snel

De auteurs hebben gekeken of een detector die is getraind op een oude AI (bijv. GPT-4) ook werkt op een nieuwe AI (bijv. GPT-5).

Het resultaat: Het werkt soms goed, maar vaak niet.
De vergelijking: Stel je voor dat je een hondentrainer bent die is opgeleid om 'Labradors' te herkennen. Als je nu een 'Golden Retriever' ziet, kun je het misschien nog wel raden. Maar als er een heel nieuw ras van hond wordt gefokt (een nieuwe AI-versie), ziet die er misschien zo anders uit dat je trainer het niet meer herkent.
De oplossing: Je moet je detector trainen op alle soorten honden (alle AI-modellen) tegelijk, niet alleen op één type.

4. Verantwoord gebruik: Geen paniek, maar voorzichtigheid

De auteurs waarschuwen: Geen enkele detector is perfect.

Valse alarmen: Soms zegt de detector dat een mens een AI is. Dit kan gebeuren bij mensen die Engels als tweede taal spreken, of bij mensen die een heel specifieke schrijfstijl hebben.
De 'Gereedschapskist'-benadering: Je mag niet alleen op de detector vertrouwen. Het is als een politieonderzoek: je hebt meer bewijs nodig.
- Kijk naar de schrijfpols (typgedrag).
- Kijk of het essay past bij wat de student eerder heeft geschreven.
- Gebruik de detector als een hint, niet als een vonnis.

De belangrijkste les:
We moeten AI-detectoren niet verbieden (zoals we auto's niet verbieden omdat er ongelukken gebeuren), maar we moeten ze verantwoord gebruiken. Scholen moeten duidelijke regels maken, studenten uitleggen wat er gebeurt, en altijd meerdere bewijzen verzamelen voordat ze iemand beschuldigen van bedrog.

Conclusie

De strijd tussen AI en detectoren is een eindeloze dans. De AI wordt steeds slimmer, en de detectoren moeten mee evolueren. De boodschap is: gebruik de technologie, maar laat de menselijke oordeelsvorming de leiding houden. Een computer kan een vermoeden hebben, maar een mens moet het oordeel vellen.

Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

1. Het probleem: De perfecte nep-essay

2. De detectoren: De politiemethoden

3. De uitdaging: De AI verandert te snel

4. Verantwoord gebruik: Geen paniek, maar voorzichtigheid

Conclusie

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen en Conclusies

Significantie

Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

1. Het probleem: De perfecte nep-essay

2. De detectoren: De politiemethoden

3. De uitdaging: De AI verandert te snel

4. Verantwoord gebruik: Geen paniek, maar voorzichtigheid

Conclusie

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen en Conclusies

Significantie

Meer zoals dit

Constraining constructions with WordNet: pros and cons for the semantic annotation of fillers in the Italian Constructicon

Attribution Quality in AI-Generated Content:Benchmarking Style Embeddings and LLM Judges

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models