Beyond Via: Analysis and Estimation of the Impact of Large Language Models in Academic Papers

Each language version is independently generated for its own context, not a direct translation.

🧐 De Digitale "Handtekening" van AI in Wetenschappelijke Papers

Stel je voor dat wetenschappelijke papers (zoals die op arXiv) een enorme bibliotheek zijn waar onderzoekers hun werk neerleggen. Vroeger schreven mensen deze artikelen volledig zelf, met hun eigen stijl en woordkeuze. Maar nu, met de komst van Grote Taalmodellen (LLMs) zoals ChatGPT, Claude en Gemini, is er een nieuwe schrijver in de bibliotheek: de robot.

De auteurs van dit artikel (Mingmeng Geng en collega's) hebben gekeken of ze de "geur" van deze robots kunnen ruiken in de teksten. Ze hebben niet gekeken naar de inhoud van de wetenschap, maar naar de woorden die gebruikt worden.

1. De "Via" en "Beyond" Epidemie

Stel je voor dat je een groep vrienden ziet die allemaal plotseling dezelfde rare zinnen gaan gebruiken. Bijvoorbeeld: "Ik ben via de trein gekomen" of "Dit onderzoek gaat beyond de grenzen".

Wat ze ontdekten: De robots hebben een voorliefde voor bepaalde woorden. Woorden als "via" en "beyond" komen veel vaker voor in titels van papers die door AI zijn geschreven of bewerkt.
Het effect: Sinds 2025 zie je deze woorden ook steeds vaker in echte menselijke papers. Het is alsof de robots een mode hebben bedongen die nu door de hele bibliotheek wordt overgenomen. Mensen kopiëren onbewust de stijl van de machines.

2. De Verdwenen "De" en "Van"

Aan de andere kant zijn er woorden die de robots niet leuk vinden. Woorden als "the" en "of" (in het Engels) zijn heel gewoon voor mensen, maar robots vinden ze soms saai of overbodig.

De analogie: Het is alsof een robot een schilderij maakt en besluit dat de lucht (die meestal blauw is) te saai is, dus hij laat hem wit. In de abstracts (samenvattingen) van papers zien we dat het gebruik van deze simpele woorden daalt. De robots maken de zinnen "strakker", maar op een manier die voor ons menselijk oog net iets te perfect en onnatuurlijk voelt.

3. De Robot is niet altijd dezelfde

Een belangrijk punt is dat niet alle robots hetzelfde praten.

Vergelijking: Stel je voor dat je drie verschillende vertalers hebt: één uit Parijs, één uit Berlijn en één uit Tokio. Als je ze allemaal vraagt om een verhaal te vertellen, zullen ze allemaal hetzelfde verhaal vertellen, maar met verschillende woorden en zinsopbouw.
Het onderzoek: De auteurs hebben gekeken naar modellen van OpenAI (GPT), DeepSeek, Google (Gemini) en Anthropic (Claude). Ze ontdekten dat elk model zijn eigen "handtekening" heeft.
- Sommige modellen houden van woorden als "furthermore" (overigens).
- Andere modellen gebruiken woorden als "together" (samen) of "delve" (duiken in) op een manier die typisch is voor hun versie.
- Maar: Naarmate de robots slimmer worden, beginnen ze op elkaar te lijken. Het is alsof ze allemaal naar dezelfde school gaan en steeds meer op elkaar gaan lijken.

4. Kunnen we ze onderscheiden? (De Detectie)

De onderzoekers hebben geprobeerd een computerprogramma te bouwen dat kan zeggen: "Dit stukje tekst is geschreven door een mens, en dit door een GPT-5."

Het resultaat: Dat is lastiger dan gedacht.
- Als je vraagt: "Is dit mens of AI?", werkt het redelijk goed (ongeveer 80-90% zekerheid).
- Maar als je vraagt: "Welke specifieke AI heeft dit geschreven?", raken de programma's in de war. De robots lijken zo veel op elkaar dat de "detective" vaak de verkeerde verdachte aanwijst.
De les: Het is heel moeilijk om te zeggen welke specifieke machine een tekst heeft gemaakt, omdat ze steeds meer op elkaar gaan lijken.

5. Hoeveel AI zit er nu in de bibliotheek?

Omdat het moeilijk is om elke tekst één voor één te checken, hebben de auteurs een slimme truc gebruikt. Ze kijken naar de statistieken.

De analogie: Stel je voor dat je een grote pot met rode en blauwe kralen hebt. Als je ziet dat er plotseling veel meer rode kralen in zitten dan er normaal zouden moeten zijn (gebaseerd op een lijn die je in het verleden hebt getrokken), weet je dat er iemand nieuwe rode kralen heeft gegooid.
De bevinding: Ze hebben berekend dat het gebruik van AI in academische papers snel groeit. Vooral sinds 2023/2024 is er een duidelijke "krimp" in het gebruik van menselijke woorden en een "groei" in robot-woorden. Het is een dynamisch proces: de robots veranderen, en de mensen veranderen mee.

🎯 Conclusie in één zin

Dit onderzoek laat zien dat AI niet alleen teksten schrijft, maar ook de taal van de wetenschap zelf aan het veranderen is. We zien een nieuwe "robot-stijl" ontstaan die steeds meer door mensen wordt overgenomen, en het wordt steeds moeilijker om te zien wie er eigenlijk aan het stuur zit: de mens of de machine.

Het is alsof de bibliotheek langzaam verandert van een plek waar mensen praten, naar een plek waar mensen en robots samen een nieuwe, hybride taal spreken.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

De opkomst van Large Language Models (LLMs) heeft een aanzienlijke impact gehad op academische publicaties. Hoewel er reeds onderzoek is gedaan naar het detecteren van AI-gegenereerde tekst, ontbreekt er een diepgaand inzicht in hoe de evolutie van verschillende LLM-modellen (bijv. van GPT-3.5 naar GPT-5 of DeepSeek) de schrijfstijl en woordkeuze in academische papers verandert.

Bestaande methoden voor detectie (zoals classifiers) hebben moeite om specifieke modellen te onderscheiden in multi-class classificatie taken, vooral omdat de output van verschillende modellen steeds meer op elkaar begint te lijken (homogenisatie). Het artikel stelt de vraag: Hoe kunnen we de impact van LLMs kwantificeren en monitoren, rekening houdend met de dynamische verschillen tussen modellen en prompts, zonder te vertrouwen op complexe "black-box" detectoren?

2. Methodologie

De auteurs hanteren een benadering die focust op woordgebruik als een interpreteerbare maatstaf, in plaats van alleen te vertrouwen op semantische classificatie.

Data:
- Gebruik van een dataset van meer dan 2,9 miljoen arXiv-papers (bijgewerkt tot maart 2026).
- Selectie van 2.000 abstracts uit januari-oktober 2022 (voor de lancering van ChatGPT) als basis voor simulatie.
- Vergelijking met historische trends (2015-2021) om een lineaire voorspelling te maken van woordfrequenties zonder LLM-invloed.
Simulatie:
- Verschillende LLMs (GPT-3.5, GPT-4o mini, GPT-5 nano, DeepSeek V3/R1/V3.2, Gemini 2.5/3, Claude 3/4.5) werden gebruikt om de geselecteerde abstracts te herschrijven en titels te genereren.
- Twee soorten prompts werden gebruikt: een korte prompt (lichte herformulering) en een lange prompt (diepgaande redactie door een "professionele academische editor").
Analyse Technieken:
1. Trendanalyse: Een lineair regressiemodel wordt gefit op pre-LLM data om een voorspelde trend ( $f_{pred}$ ) te genereren. De afwijking van de werkelijke data ( $f_{obs}$ ) wordt toegeschreven aan LLM-gebruik.
2. Impact Schatting: Een lineaire optimalisatie (SLSQP) wordt gebruikt om het aandeel ( $\eta$ ) van menselijk geschreven tekst versus tekst gegenereerd door specifieke modellen en prompts te schatten, gebaseerd op de verhouding van woordfrequenties.
3. Vergelijking van Tekst: Gebruik van ROUGE-1, ROUGE-2, ROUGE-L en BERTScore om de semantische en lexische gelijkenis te meten tussen menselijke teksten en LLM-output.
4. Classificatie: Training van classifiers (BERT, GPT-2, T5, LLM2Vec) om teksten te onderscheiden op basis van de bron (mens vs. specifiek LLM).

3. Belangrijkste Bijdragen

Ontdekking van "LLM-woorden": Het artikel identificeert specifieke woordkeuzes die kenmerkend zijn voor LLMs en die in de loop van de tijd zijn veranderd.
- Voorbeelden: Toename van woorden als "beyond" en "via" in titels.
- Afname: Duidelijke daling van veelvoorkomende stopwoorden zoals "the" en "of" in abstracts.
- Evolutie: Woorden die ooit kenmerkend waren voor ChatGPT (zoals "delve" en "intricate") worden door nieuwere modellen (zoals GPT-5 en DeepSeek) minder gebruikt, terwijl nieuwe favorieten ontstaan (bijv. "furthermore" in bepaalde modellen).
Dynamische Impact Schatting: In plaats van een statisch percentage, biedt de methode een tijdsreeks-schatting van het aandeel LLM-gegenereerde tekst in de academische literatuur, gesplitst per modelfamilie.
Beperkingen van Classificatie: Het artikel demonstreert dat hoewel binary classificatie (mens vs. AI) redelijk goed werkt, multi-class classificatie (welk specifiek model?) aanzienlijk minder nauwkeurig is (vaak rond de 60-70%), wat wijst op een toenemende homogenisatie van LLM-output.

4. Resultaten

Woordfrequentie Trends:
- De frequentie van "via" in titels steeg significant vanaf 2025, wat correleert met de lancering van nieuwere modellen.
- De frequentie van "together" toonde een uniek patroon: eerst een daling (oude modellen) gevolgd door een snelle stijging (nieuwere modellen).
- Stopwoorden zoals "the" en "of" nemen af in frequentie in abstracts die door LLMs zijn bewerkt, wat leidt tot een verandering in de algehele tekststructuur.
Modelverschillen:
- Nieuwere modellen (zoals GPT-5 nano en DeepSeek V3.2) tonen een sterkere voorkeur voor bepaalde academische connectoren ("furthermore", "utilize") dan oudere modellen.
- Er is een duidelijke verschuiving in de "stijl" van modellen; wat in 2023 als typisch AI-achtig werd gezien, is in 2025 vaak verouderd.
Classificatie Uitkomsten:
- Binary classificatie (mens vs. AI) bereikte een nauwkeurigheid van 80-90%.
- Multi-class classificatie (onderscheid tussen mens, GPT, DeepSeek, Gemini, Claude) zakte naar ongeveer 60% nauwkeurigheid.
- De verwarringmatrijzen tonen aan dat menselijke teksten vaak ten onrechte worden geclassificeerd als gegenereerd door een specifiek LLM, en dat modellen van verschillende families elkaar steeds meer benaderen.
Impact Schatting:
- De schattingen tonen aan dat het gebruik van LLMs in academische abstracts heterogeen en dynamisch is. Voor bepaalde periodes en modellen kan het aandeel van AI-geassisteerde tekst aanzienlijk zijn, maar het is niet uniform over alle papers.

5. Betekenis en Conclusie

De studie concludeert dat de impact van LLMs op academisch schrijven heterogeen en dynamisch is. De "stijl" van AI verandert mee met de updates van de modellen.

Interpretatie: Hoewel complexe classifiers nodig zijn voor detectie, bieden directe, interpreteerbare methoden (zoals analyse van woordfrequenties) waardevolle inzichten in de sociale impact en de evolutie van schrijfstijlen.
Toekomst: De toenemende gelijkenis tussen verschillende LLMs maakt het moeilijker om de bron van een tekst te traceren ("homogenisatie-effect"). Dit vereist dat monitoringmethoden continu worden aangepast.
Beperkingen: De auteurs waarschuwen dat de huidige methoden niet perfect zijn; menselijke tekst wordt vaak als AI-gegenereerd gemarkeerd, en de variatie in prompts en menselijke redactie in de echte wereld maakt exacte kwantificering uitdagend.

Kortom, het artikel biedt een robuust raamwerk om de invloed van LLMs te monitoren via taalpatronen, en waarschuwt dat de academische schrijfstijl zich snel aanpast aan de "handtekening" van de nieuwste AI-modellen.