Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek binnenstapt, gevuld met duizenden boeken die door experts zijn geschreven. Nu komt er een nieuwe, magische pen op de markt (ChatGPT) die zo goed kan schrijven dat niemand hem van een menselijk handje kan onderscheiden. De vraag is: Hoeveel van die boeken in de bibliotheek zijn nu geschreven of aangepast met die magische pen?

Dit is precies wat de onderzoekers in dit paper proberen te ontdekken, maar dan in de wereld van wetenschappelijke vakbladen en AI-conferenties.

Hier is een uitleg in simpele taal, met wat creatieve vergelijkingen:

1. Het Probleem: De "Naald in de Hooiberg"

Vroeger was het makkelijk om te zien of iets door een computer was geschreven; het klonk vaak robotachtig. Maar nu zijn die robots zo slim dat ze klinken als mensen. Als je één specifiek stukje tekst bekijkt (zoals één zin), is het bijna onmogelijk om te zeggen: "Dit is van een mens" of "Dit is van een AI". Het is alsof je probeert te zien of een druppel water uit de oceaan is of uit een emmer, terwijl ze er precies hetzelfde uitzien.

De onderzoekers zeggen: "Laten we niet kijken naar één druppel, maar naar de hele oceaan."

2. De Oplossing: De "Stijl-Scanner"

In plaats van te proberen elke zin apart te analyseren (wat veel te lang duurt en vaak fouten oplevert), hebben de onderzoekers een slimme methode bedacht die kijkt naar patronen in de hele verzameling teksten.

Stel je voor dat je een grote zak met M&M's hebt.

Mensen eten M&M's op een bepaalde manier: ze kiezen vaak rode en blauwe, en laten soms gele over.
AI's eten M&M's op een andere manier: ze kiezen vaak groene en paarse, en laten soms oranje over.

Als je nu een nieuwe, gemengde zak M&M's krijgt (waar je niet weet wie ze heeft gekozen), kun je niet zeggen welke specifieke M&M van wie is. Maar als je naar de kleurenverdeling in de hele zak kijkt, kun je precies berekenen: "Oh, 10% van deze zak is waarschijnlijk door de AI gekozen."

Dit noemen de onderzoekers "Distributional GPT Quantification". Ze kijken niet naar de inhoud van de zin, maar naar het gebruik van bepaalde woorden (vooral bijvoeglijke naamwoorden zoals "uitstekend", "innovatief" of "grondbeginsel"). AI's blijken namelijk een voorkeur te hebben voor bepaalde "glitterende" woorden die mensen minder vaak gebruiken.

3. Wat Vonden Ze? (De Resultaten)

Ze hebben deze "M&M-teller" toegepast op de beoordelingen (reviews) van grote AI-conferenties (zoals ICLR en NeurIPS) na de lancering van ChatGPT.

De AI-conferenties: Hier vonden ze een duidelijke verandering. Ongeveer 10% tot 17% van de zinnen in de beoordelingen lijkt te zijn geschreven of sterk aangepast door een AI. Het is alsof er plotseling een nieuwe, onzichtbare schrijver in de kamer is gaan zitten die meedraait aan de discussie.
De Nature-tijdschriften: Bij de grote, traditionele wetenschappelijke tijdschriften (zoals Nature) zagen ze geen verandering. Hier schrijven de mensen nog steeds gewoon zelf. Het is alsof de AI in de ene kamer (AI-conferenties) alomtegenwoordig is, maar in de andere kamer (traditionele wetenschap) nog niet is binnengekomen.

4. Waarom Gebruiken Mensen de AI? (De "Waarom"-Factor)

De onderzoekers keken ook naar wanneer en hoe mensen de AI gebruiken. Het bleek dat de AI vooral wordt ingezet als het druk is of als de reviewer niet zeker is:

De Deadline-Effect: Als de deadline dichterbij komt (binnen 3 dagen), schiet het gebruik van AI omhoog. Het is alsof iemand die haast heeft, de magische pen pakt om het werk sneller af te krijgen.
Het Zekerheids-Effect: Mensen die zeggen: "Ik ben niet helemaal zeker van mijn beoordeling," gebruiken vaker AI. Alsof ze de AI vragen: "Help me dit netjes te verwoorden, want ik twijfel."
Het "Niet-Reageren"-Effect: Mensen die na hun beoordeling niet reageren op vragen van de auteurs, gebruiken vaker AI. Misschien gebruiken ze de AI als een "snelle oplossing" om zich uit de discussie te redden, in plaats van echt mee te denken.

5. Het Grote Gevaar: De "Gelijkvormige Zee"

Het meest zorgwekkende punt is dat AI-teksten vaak op elkaar lijken.
Stel je voor dat je een groep mensen vraagt om een verhaal te schrijven. Iedereen heeft een eigen stijl, een eigen humor, en een eigen manier van kijken.
Maar als iedereen een AI gebruikt, krijgen ze allemaal ongeveer hetzelfde verhaal: dezelfde structuur, dezelfde woorden, dezelfde "veilige" mening.

Dit noemen de onderzoekers homogenisatie. Het is alsof je een bos hebt waar elke boom precies dezelfde vorm en kleur heeft. Het ziet er misschien netjes uit, maar het is dood. In de wetenschap hebben we juist nodig dat mensen verschillende, soms tegenstrijdige, ideeën hebben om nieuwe ontdekkingen te doen. Als iedereen dezelfde AI-tekst leest, verliezen we die creatieve chaos die wetenschap zo belangrijk maakt.

Conclusie

Dit paper zegt niet dat AI "slecht" is. Het zegt wel: "We moeten opletten."
We hebben een nieuwe tool gevonden om te meten hoeveel AI er in onze informatie stroomt. De resultaten tonen aan dat AI al een groot deel van de wetenschappelijke discussie beïnvloedt, vooral bij AI-specialisten. Het is een waarschuwing: als we niet oppassen, verliezen we de menselijke variatie en de echte, rauwe kritiek die nodig is om de wetenschap vooruit te helpen.

Kortom: De AI is niet langer een geheim; hij zit in de tekst, en hij verandert de manier waarop we denken en schrijven.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De opkomst van Large Language Models (LLM's), zoals ChatGPT, heeft geleid tot zorgen over de schaal van hun gebruik in kritieke informatie-ecosystemen, zoals wetenschappelijke peer reviews. Hoewel er veel discussie is over dit fenomeen, ontbreekt het aan methoden om de omvang van AI-gebruik nauwkeurig te meten. Bestaande detectiemethoden op instantie-niveau (het beoordelen van individuele documenten of zinnen) zijn vaak onbetrouwbaar, rekenkundig duur en gevoelig voor variaties in de data. Bovendien is het voor mensen vaak onmogelijk om AI-gegenereerde tekst van menselijke tekst te onderscheiden, wat het risico vergroot dat ongeautoriseerde gegenereerde inhoud als autoritair wordt beschouwd. Er is een dringende behoefte aan een methode om de fractie van AI-gemodificeerde content in een corpus (een grote verzameling teksten) te schatten, zonder dat elke individuele tekst geanalyseerd hoeft te worden.

Methodologie: Distributional GPT Quantification

De auteurs stellen een nieuw raamwerk voor genaamd Distributional GPT Quantification. In plaats van te proberen te classificeren of een specifiek document door een AI is geschreven, schatten ze de populatie-grootte van AI-gegenereerde content binnen een corpus.

Statistisch Kader (MLE):
- Het probleem wordt gemodelleerd als een mengselverdeling: een doelcorpus $X$ wordt beschouwd als een mengsel van menselijke teksten ( $P$ ) en AI-gegenereerde teksten ( $Q$ ).
- De verdeling is: $(1 - \alpha)P + \alpha Q$ , waarbij $\alpha$ de fractie is die door AI is gegenereerd of substantieel is gewijzigd.
- Het doel is om $\alpha$ te schatten via Maximum Likelihood Estimation (MLE).
Training en Referentie Data:
- Menselijk Corpus: Historische peer reviews (bijv. van ICLR 2018-2022) die bekend staat als menselijk geschreven.
- AI Corpus: Dezelfde prompts (review-instructies en papers) worden gebruikt om een LLM (GPT-4) te laten genereren, wat een referentie-distributie $Q$ oplevert.
- Token Vocabulaire: In plaats van alle tokens te gebruiken, focust de methode specifiek op bijvoeglijke naamwoorden (adjectives). De auteurs vonden dat bijvoeglijke naamwoorden de meest stabiele indicatoren zijn voor AI-gebruik (bijv. woorden als "commendable", "meticulous", "intricate" komen disproportioneel vaak voor in AI-teksten).
Schattingsproces:
- De auteurs schatten de kansverdelingen $\hat{P}$ en $\hat{Q}$ voor het voorkomen van bijvoeglijke naamwoorden in respectievelijk menselijke en AI-teksten.
- Voor een doelcorpus wordt de log-likelihood functie gemaximaliseerd om de beste schatting van $\alpha$ te vinden.
- De methode is extreem rekenkundig efficiënt (meer dan 10 miljoen keer sneller dan state-of-the-art detectiemethoden) omdat deze alleen telt hoe vaak bepaalde woorden voorkomen, in plaats van zware neurale netwerken per zin te draaien.
Validatie:
- De methode wordt getest op synthetische mengsels met een bekende grondwaarheid (ground truth) van $\alpha$ .
- Het presteert uitstekend met een voorspellingsfout van minder dan 2,4% op out-of-distribution data (andere conferenties dan waar het op getraind was).

Belangrijkste Bijdragen

Nieuwe Schattingsmethode: Een efficiënte, schaalbare methode om de fractie van AI-gemodificeerde tekst in grote corpora te schatten, zonder individuele documenten te hoeven classificeren.
Empirisch Onderzoek: Een uitgebreide case study op peer reviews van top AI-conferenties (ICLR 2024, NeurIPS 2023, CoRL 2023, EMNLP 2023) en Nature-tijdschriften.
Corpus-niveau Inzichten: Het aantonen van subtiele trends die op individueel niveau onzichtbaar zijn, zoals homogenisatie van content en correlaties met deadline-druk.
Benchmarking: Een vergelijking die aantoont dat hun methode aanzienlijk nauwkeuriger en sneller is dan bestaande zero-shot detectiemethoden (zoals DetectGPT) en getrainde classifiers (zoals BERT).

Resultaten

De toepassing van de methode op recente AI-conferenties levert de volgende bevindingen op:

Significant AI-gebruik: Na de lancering van ChatGPT (november 2022) steeg het geschatte percentage AI-gemodificeerde zinnen in peer reviews aanzienlijk:
- ICLR 2024: Van ~1,6% naar 10,6%.
- NeurIPS 2023: Van ~1,9% naar 9,1%.
- EMNLP 2023: Ongeveer 16,9% (het hoogste, mogelijk vanwege meer LLM-kennis onder NLP-specialisten).
- CoRL 2023: Van ~2,4% naar 6,5%.
Contrast met Nature: Bij tijdschriften van de Nature-portfolio werd geen significante stijging waargenomen; het AI-gebruik bleef binnen de foutmarges van nul. Dit suggereert dat het gebruik van AI in peer review momenteel beperkt blijft tot het veld van machine learning.
Substantiële Wijziging: De methode detecteert niet alleen spellingscontrole, maar substantiële wijzigingen. Tests met alleen "proofreading" toonden een veel kleinere stijging aan dan de werkelijke data, wat aantoont dat reviewers AI gebruiken om hun reviews uit te breiden of te herschrijven.
Correlaties met Gedrag:
- Deadline-effect: Reviews ingediend binnen 3 dagen voor de deadline hebben een hoger geschat AI-gebruik.
- Referenties: Reviews met citaties ("et al.") hebben een lager AI-gebruik dan die zonder.
- Reactiegraad: Reviewers die niet reageren op auteursrebuttales, gebruiken vaker AI.
- Zekerheid: Reviews met een lage zelfgerapporteerde zekerheid ("low confidence") correleren met een hoger AI-gebruik.
- Homogenisatie: Reviews die semantisch meer lijken op andere reviews (convergent) hebben een hoger AI-gebruik, wat wijst op een verlies van diversiteit in feedback.

Betekenis en Implicaties

De studie heeft belangrijke implicaties voor de wetenschappelijke gemeenschap:

Integriteit van Peer Review: Een aanzienlijk deel van de feedback op AI-conferenties wordt nu substantieel beïnvloed door AI. Dit kan leiden tot een verlies aan unieke, expert-gebaseerde inzichten en een "homogenisatie" van beoordelingen, waarbij creatieve of kritische perspectieven verloren gaan.
Nieuwe Benadering voor Detectie: Het paper toont aan dat het proberen om elke AI-tekst te detecteren (op instantie-niveau) mogelijk de verkeerde aanpak is. In plaats daarvan biedt een corpus-niveau schatting een robuuster en efficiënter middel om trends in informatie-ecosystemen te monitoren.
Beleid en Richtlijnen: De bevindingen onderstrepen de noodzaak voor conferentie-organizers en redacties om richtlijnen te ontwikkelen voor het gebruik van generatieve AI in peer review. Het is niet per se "slecht" om AI te gebruiken, maar transparantie en accountability zijn essentieel.
Toekomstig Onderzoek: De methode biedt een basis voor verder sociaal-wetenschappelijk onderzoek naar hoe AI onze kennisproductie en informatiestromen verandert, en kan worden toegepast op andere domeinen buiten peer review.

Kortom, het paper levert een technisch overtuigend bewijs dat ChatGPT de peer-reviewcultuur in de AI-wereld al significant heeft veranderd, en biedt een meetlat om deze veranderingen in de toekomst te volgen.

Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

1. Het Probleem: De "Naald in de Hooiberg"

2. De Oplossing: De "Stijl-Scanner"

3. Wat Vonden Ze? (De Resultaten)

4. Waarom Gebruiken Mensen de AI? (De "Waarom"-Factor)

5. Het Grote Gevaar: De "Gelijkvormige Zee"

Conclusie

Probleemstelling

Methodologie: Distributional GPT Quantification

Belangrijkste Bijdragen

Resultaten

Betekenis en Implicaties

Meer zoals dit

Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities

CurvFed: Curvature-Aligned Federated Learning for Fairness without Demographics

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

Efficient Diffusion as Low Light Enhancer

Conditional Distribution Learning for Graph Classification