Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

Deze studie schat dat tussen de 6,5% en 16,9% van de teksten in peer reviews voor AI-conferenties na de lancering van ChatGPT substantieel door grote taalmodellen is gegenereerd of gewijzigd, waarbij een hogere kans op AI-gebruik samenhangt met factoren zoals lagere zelfvertrouwen, deadlines en minder interactie met auteurs.

Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A. McFarland, James Y. Zou

Gepubliceerd 2026-03-04
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek binnenstapt, gevuld met duizenden boeken die door experts zijn geschreven. Nu komt er een nieuwe, magische pen op de markt (ChatGPT) die zo goed kan schrijven dat niemand hem van een menselijk handje kan onderscheiden. De vraag is: Hoeveel van die boeken in de bibliotheek zijn nu geschreven of aangepast met die magische pen?

Dit is precies wat de onderzoekers in dit paper proberen te ontdekken, maar dan in de wereld van wetenschappelijke vakbladen en AI-conferenties.

Hier is een uitleg in simpele taal, met wat creatieve vergelijkingen:

1. Het Probleem: De "Naald in de Hooiberg"

Vroeger was het makkelijk om te zien of iets door een computer was geschreven; het klonk vaak robotachtig. Maar nu zijn die robots zo slim dat ze klinken als mensen. Als je één specifiek stukje tekst bekijkt (zoals één zin), is het bijna onmogelijk om te zeggen: "Dit is van een mens" of "Dit is van een AI". Het is alsof je probeert te zien of een druppel water uit de oceaan is of uit een emmer, terwijl ze er precies hetzelfde uitzien.

De onderzoekers zeggen: "Laten we niet kijken naar één druppel, maar naar de hele oceaan."

2. De Oplossing: De "Stijl-Scanner"

In plaats van te proberen elke zin apart te analyseren (wat veel te lang duurt en vaak fouten oplevert), hebben de onderzoekers een slimme methode bedacht die kijkt naar patronen in de hele verzameling teksten.

Stel je voor dat je een grote zak met M&M's hebt.

  • Mensen eten M&M's op een bepaalde manier: ze kiezen vaak rode en blauwe, en laten soms gele over.
  • AI's eten M&M's op een andere manier: ze kiezen vaak groene en paarse, en laten soms oranje over.

Als je nu een nieuwe, gemengde zak M&M's krijgt (waar je niet weet wie ze heeft gekozen), kun je niet zeggen welke specifieke M&M van wie is. Maar als je naar de kleurenverdeling in de hele zak kijkt, kun je precies berekenen: "Oh, 10% van deze zak is waarschijnlijk door de AI gekozen."

Dit noemen de onderzoekers "Distributional GPT Quantification". Ze kijken niet naar de inhoud van de zin, maar naar het gebruik van bepaalde woorden (vooral bijvoeglijke naamwoorden zoals "uitstekend", "innovatief" of "grondbeginsel"). AI's blijken namelijk een voorkeur te hebben voor bepaalde "glitterende" woorden die mensen minder vaak gebruiken.

3. Wat Vonden Ze? (De Resultaten)

Ze hebben deze "M&M-teller" toegepast op de beoordelingen (reviews) van grote AI-conferenties (zoals ICLR en NeurIPS) na de lancering van ChatGPT.

  • De AI-conferenties: Hier vonden ze een duidelijke verandering. Ongeveer 10% tot 17% van de zinnen in de beoordelingen lijkt te zijn geschreven of sterk aangepast door een AI. Het is alsof er plotseling een nieuwe, onzichtbare schrijver in de kamer is gaan zitten die meedraait aan de discussie.
  • De Nature-tijdschriften: Bij de grote, traditionele wetenschappelijke tijdschriften (zoals Nature) zagen ze geen verandering. Hier schrijven de mensen nog steeds gewoon zelf. Het is alsof de AI in de ene kamer (AI-conferenties) alomtegenwoordig is, maar in de andere kamer (traditionele wetenschap) nog niet is binnengekomen.

4. Waarom Gebruiken Mensen de AI? (De "Waarom"-Factor)

De onderzoekers keken ook naar wanneer en hoe mensen de AI gebruiken. Het bleek dat de AI vooral wordt ingezet als het druk is of als de reviewer niet zeker is:

  • De Deadline-Effect: Als de deadline dichterbij komt (binnen 3 dagen), schiet het gebruik van AI omhoog. Het is alsof iemand die haast heeft, de magische pen pakt om het werk sneller af te krijgen.
  • Het Zekerheids-Effect: Mensen die zeggen: "Ik ben niet helemaal zeker van mijn beoordeling," gebruiken vaker AI. Alsof ze de AI vragen: "Help me dit netjes te verwoorden, want ik twijfel."
  • Het "Niet-Reageren"-Effect: Mensen die na hun beoordeling niet reageren op vragen van de auteurs, gebruiken vaker AI. Misschien gebruiken ze de AI als een "snelle oplossing" om zich uit de discussie te redden, in plaats van echt mee te denken.

5. Het Grote Gevaar: De "Gelijkvormige Zee"

Het meest zorgwekkende punt is dat AI-teksten vaak op elkaar lijken.
Stel je voor dat je een groep mensen vraagt om een verhaal te schrijven. Iedereen heeft een eigen stijl, een eigen humor, en een eigen manier van kijken.
Maar als iedereen een AI gebruikt, krijgen ze allemaal ongeveer hetzelfde verhaal: dezelfde structuur, dezelfde woorden, dezelfde "veilige" mening.

Dit noemen de onderzoekers homogenisatie. Het is alsof je een bos hebt waar elke boom precies dezelfde vorm en kleur heeft. Het ziet er misschien netjes uit, maar het is dood. In de wetenschap hebben we juist nodig dat mensen verschillende, soms tegenstrijdige, ideeën hebben om nieuwe ontdekkingen te doen. Als iedereen dezelfde AI-tekst leest, verliezen we die creatieve chaos die wetenschap zo belangrijk maakt.

Conclusie

Dit paper zegt niet dat AI "slecht" is. Het zegt wel: "We moeten opletten."
We hebben een nieuwe tool gevonden om te meten hoeveel AI er in onze informatie stroomt. De resultaten tonen aan dat AI al een groot deel van de wetenschappelijke discussie beïnvloedt, vooral bij AI-specialisten. Het is een waarschuwing: als we niet oppassen, verliezen we de menselijke variatie en de echte, rauwe kritiek die nodig is om de wetenschap vooruit te helpen.

Kortom: De AI is niet langer een geheim; hij zit in de tekst, en hij verandert de manier waarop we denken en schrijven.