Interpretable Predictability-Based AI Text Detection: A Replication Study

Dit artikel beschrijft een replicatie- en uitbreidingsstudie van het AuTexTification 2023-systeem voor het detecteren van AI-gegenereerde tekst, waarbij het gebruik van multilinguale modellen en extra stilometrische kenmerken leidt tot verbeterde prestaties en beter inzicht in de besluitvorming.

Adam Skurla, Dominik Macko, Jakub Simko

Gepubliceerd 2026-03-17
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ De Opdracht: Kunst of Werk?

Stel je voor dat je een briefje krijgt. Is dit geschreven door een mens, of door een slimme computer (zoals een AI)? En als het een computer is: welke computer heeft het geschreven?

Vroeger was het makkelijk om te zien of iets door een mens was gemaakt. Maar tegenwoordig schrijven AI's (zoals ChatGPT) zo goed, dat ze bijna net zo natuurlijk klinken als wij. Het is alsof iemand een perfecte vermomming draagt.

De auteurs van dit paper (Adam, Dominik en Jakub) wilden een oude "detectiemethode" uit 2023 opnieuw testen en verbeteren. Ze wilden niet alleen zeggen "dit is een AI", maar ook "dit is gemaakt door AI-model X".

🔍 De Drie Grote Vragen

Het team stelde zich drie vragen, die we kunnen vergelijken met het testen van een oude auto:

  1. RQ1: Kunnen we de oude resultaten precies kopiëren?

    • De analogie: Je probeert een recept uit 2023 na te maken. Maar de ingrediënten zijn anders, de oven werkt anders, en het recept was niet helemaal duidelijk.
    • Het resultaat: Het lukte niet om exact dezelfde cijfers te krijgen. Kleine verschillen in hoe de data werd gesplitst of welke software-versie je gebruikt, veranderden het eindresultaat. Dit leert ons: Schrijf je recepten (code) heel duidelijk, anders kan niemand het na maken.
  2. RQ2: Wat als we nieuwere, sterkere "oogjes" gebruiken?

    • De analogie: De oude methode keek naar de tekst met een oude verrekijker. Het team vervanging deze door een moderne, krachtige telescoop (nieuwe AI-modellen).
    • Het resultaat: Ze ontdekten dat je één grote, multilinguale telescoop kunt gebruiken voor zowel het Engels als het Spaans. Je hoeft geen aparte apparaten te kopen voor elke taal. Dit werkt net zo goed, en soms zelfs beter, dan de oude, taal-specifieke methoden.
  3. RQ3: Wat als we meer details gaan zoeken?

    • De analogie: De oude detector keek alleen naar de zinnen. Het team besloot ook te kijken naar de stijl: gebruikt de schrijver veel uitroeptekens? Zijn de zinnen kort of lang? Is het woordgebruik formeel of informeel? Ze voegden 26 nieuwe "stijl-indicatoren" toe.
    • Het resultaat: Dit werkte fantastisch! Het was alsof je een detective niet alleen de tekst geeft, maar ook de handschriftstijl en de inktkwaliteit. De detector werd veel slimmer en kon beter zien wie de tekst had geschreven.

🛠️ Hoe werkt hun nieuwe systeem?

Het team bouwde een hybride systeem, een soort "detective-team" met twee specialisten:

  1. De Wiskundige (Probabiliteit): Deze kijkt naar de kansberekening. AI's kiezen vaak woorden die ze "het meest waarschijnlijk" vinden. Mensen zijn soms creatiever en kiezen soms minder voor de hand liggende woorden. De wiskundige zoekt naar deze patronen.
  2. De Stijl-expert (Stylometrie): Deze kijkt naar de "vibe" van de tekst. Hoeveel zinnen zijn er? Hoeveel rare woorden worden gebruikt? Is het grammaticaal perfect (AI is vaak te perfect, mensen maken kleine foutjes)?

Door deze twee samen te werken, krijgen ze een heel scherp beeld.

💡 Wat is de belangrijkste les?

Het onderzoek toont twee dingen aan:

  • Transparantie is cruciaal: Als je een wetenschappelijk onderzoek publiceert, moet je je code en data heel duidelijk delen. Anders kan niemand je werk verifiëren, en dat is gevaarlijk voor de wetenschap.
  • Stijl telt nog steeds: Zelfs met supersterke AI-modellen, zijn de kleine, menselijke (of juist te perfecte) stijleigenschappen nog steeds de sleutel om AI te onderscheiden van mensen.

🏁 Conclusie

Het team heeft bewezen dat je AI-tekstdetectie kunt verbeteren door:

  1. Nieuwere, krachtigere modellen te gebruiken.
  2. Meer aandacht te besteden aan de schrijfstijl (niet alleen de inhoud).
  3. Alles heel duidelijk te documenteren zodat anderen het kunnen controleren.

Het is alsof ze een oude, stoffige detector hebben opgepoetst, nieuwe batterijen hebben geplaatst en er een extra lens op hebben gezet. Het resultaat? Een veel betrouwbaarder systeem dat ons helpt te zien wat echt is en wat door een machine is bedacht.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →