Beyond Via: Analysis and Estimation of the Impact of Large Language Models in Academic Papers

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Détective de Mots : Qui écrit vraiment nos articles scientifiques ?

Imaginez que le monde de la science (les articles sur arXiv, une immense bibliothèque en ligne) est une grande cuisine. Pendant des siècles, les chefs (les chercheurs) écrivaient leurs recettes (leurs articles) avec leurs propres mains, utilisant leur style unique.

Mais depuis quelques années, une nouvelle équipe de robots-cuisiniers (les IA, comme ChatGPT, Claude, Gemini) est arrivée dans la cuisine. Ils sont très rapides et aident les chefs à écrire.

Le problème ? Parfois, on ne sait plus si c'est le chef humain ou le robot qui a écrit la recette. Cette étude, intitulée "Beyond Via" (au-delà de "via"), est comme un enquêteur qui essaie de comprendre comment ces robots ont changé le goût de la cuisine scientifique.

1. 🧐 Le "Bouillon" a changé de goût (Les mots révélateurs)

Les chercheurs ont remarqué quelque chose d'étrange dans le "bouillon" des mots utilisés dans les titres et les résumés des articles.

Les mots "à la mode" des robots :
Imaginez que les robots ont une manie : ils adorent utiliser certains mots précis, comme s'ils portaient toujours le même chapeau.
- Le mot "via" (qui signifie "par le biais de") est devenu le chapeau préféré des robots dans les titres. C'est comme si tous les robots disaient : "J'ai fait ça via une méthode..." au lieu de dire simplement "avec".
- Le mot "beyond" (au-delà) est aussi très populaire chez eux.
- À l'inverse, les robots semblent avoir peur des petits mots simples comme "the" (le/la) ou "of" (de). Ils les utilisent beaucoup moins que les humains.

L'analogie : C'est comme si vous alliez dans une ville et que soudainement, tout le monde portait le même manteau rouge. Vous savez qu'il y a eu une invasion de robots, même si vous ne les voyez pas directement.

2. 🔄 La mode change (Les robots évoluent)

Ce qui est fascinant, c'est que les robots ne sont pas tous pareils, et ils changent avec le temps.

L'exemple du mot "together" (ensemble) :
Imaginez un vieux robot (comme la première version de ChatGPT) qui aimait beaucoup dire "together". Puis, un nouveau robot (plus récent) est arrivé et a dit : "Oh non, ce mot est ringard !". Résultat : le mot a disparu des articles, puis est revenu plus tard avec un autre robot.
Le mot "delve" (plonger en profondeur) :
Pendant un temps, les robots disaient "delve" tout le temps. Les humains ont commencé à l'imiter. Mais les nouveaux robots ont arrêté d'utiliser ce mot. Les chercheurs ont donc arrêté de l'utiliser aussi.

L'analogie : C'est comme la musique pop. Un chanteur sort une chanson avec un mot spécifique. Tout le monde l'imit. Puis un nouveau chanteur arrive, change le style, et tout le monde change de vocabulaire. Les robots font bouger la mode des mots scientifiques.

3. 🕵️‍♀️ Le jeu de l'imitation (Peut-on les distinguer ?)

Les auteurs de l'étude ont essayé de créer un détecteur pour dire : "C'est un humain !" ou "C'est un robot !".

Le résultat est décevant : Quand ils essaient de deviner quel robot a écrit le texte (est-ce GPT-5 ? Est-ce DeepSeek ?), ils échouent souvent. C'est comme essayer de distinguer un twin (jumeau) de son frère : ils se ressemblent trop !
Pourquoi ? Parce que les robots apprennent les uns des autres et finissent par avoir le même style. Ils deviennent de plus en plus "humains" (ou du moins, ils imitent si bien l'humain que c'est dur de faire la différence).

4. 📊 La méthode de l'enquêteur (Comment ils ont fait ?)

Au lieu de chercher des preuves compliquées, les chercheurs ont utilisé une méthode simple et intelligente : la comptabilité des mots.

Ils ont regardé comment les mots étaient utilisés avant l'arrivée des robots (comme une photo de famille de 2021).
Ils ont prévu comment ces mots auraient dû évoluer naturellement (une ligne droite).
Ils ont comparé cette prévision avec la réalité d'aujourd'hui.
Le décalage : Là où la réalité s'éloigne de la prévision, c'est là que les robots ont laissé leur empreinte.

L'analogie : Imaginez que vous savez que votre enfant grandit de 5 cm par an. Si un jour, il mesure 10 cm de plus que prévu, vous savez qu'il a mangé quelque chose de spécial (ou dans ce cas, qu'un robot a aidé à écrire le texte).

5. 💡 Le message principal

Cette étude nous dit deux choses importantes :

Les robots sont partout : Ils ne se contentent pas d'écrire des articles, ils changent la façon dont les scientifiques pensent et écrivent. Ils modifient le vocabulaire de base de la science.
C'est dynamique : Ce n'est pas figé. Les robots changent, et donc le style des articles change aussi. Ce qui était "typique des robots" en 2023 ne l'est plus en 2025.

En résumé 🎭

C'est comme si les robots-cuisiniers avaient pris les commandes de la cuisine scientifique. Ils ne volent pas juste les recettes, ils changent les épices (les mots). Parfois, ils utilisent trop de "via" et pas assez de "le".

L'étude nous rappelle que même si les robots deviennent de plus en plus habiles pour imiter les humains, ils laissent toujours une trace, un "goût" particulier dans le texte. Et pour les détecter, il ne faut pas chercher un monstre caché, mais simplement observer comment les mots de base ont changé de fréquence.

C'est une façon de dire : "Attention, la langue scientifique est en train d'évoluer, et les robots en sont les nouveaux architectes."

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'impact croissant des Grands Modèles de Langage (LLM) sur la publication académique soulève des questions cruciales : comment leur usage a-t-il évolué récemment ? Les modèles récents (post-2023/2024) ont-ils modifié les styles d'écriture par rapport aux premières versions comme ChatGPT ?
Le défi principal réside dans la difficulté de détecter et de quantifier l'utilisation des LLM. Les méthodes actuelles de classification (détection binaire ou multi-classes) peinent à distinguer les textes générés par différents modèles, car ces derniers tendent à s'homogénéiser. De plus, les chercheurs adaptent leurs prompts et leurs modèles, rendant les signatures statiques obsolètes. L'article vise à analyser et estimer l'impact des LLM sur les publications académiques (spécifiquement sur arXiv) en se concentrant sur l'évolution des usages lexicaux plutôt que sur la simple détection de la génération.

2. Méthodologie

L'approche proposée combine l'analyse de données massives, la simulation contrôlée et l'estimation statistique.

Données :
- Analyse de plus de 2,9 millions d'articles arXiv (données mises à jour hebdomadairement).
- Sélection de 2 000 articles publiés entre janvier et octobre 2022 (avant l'essor de ChatGPT) pour servir de base de simulation.
- Utilisation de données Google Books Ngram et de la liste des mots vides (stopwords) NLTK pour définir des seuils de fréquence.
Simulation :
- Réécriture des résumés (abstracts) et génération de titres par 9 modèles différents (GPT-3.5 à GPT-5 nano, DeepSeek V3/R1/V3.2, Gemini 2.5/3, Claude 3/4.5).
- Utilisation de deux types de prompts : un prompt court (révision légère) et un prompt long (rôle d'éditeur académique professionnel pour une réécriture profonde).
Méthodes d'Analyse :
1. Analyse de Tendances Linéaires : Modélisation de la fréquence des mots $f_w(t)$ comme une tendance linéaire de base (pré-LLM) plus un terme d'effet $\epsilon_w(t)$ introduit par les LLM. La régression linéaire sur les données pré-2022 permet de prédire la fréquence attendue sans LLM.
2. Estimation d'Impact : Utilisation d'une approche d'optimisation linéaire (SLSQP) pour estimer la proportion $\eta_{m,p}(t)$ de textes générés par un modèle $m$ avec un prompt $p$ dans le corpus réel, en minimisant l'écart entre les fréquences observées et les fréquences prédites (mélange de textes humains et générés).
3. Comparaison de Similarité : Utilisation de métriques lexicales (ROUGE-1, ROUGE-2, ROUGE-L) et sémantiques (BERTScore) pour comparer les textes originaux, les textes générés et les textes réels.
4. Classification : Entraînement de classificateurs (BERT, GPT-2, T5, LLM2Vec) pour distinguer les textes selon leur source (humain vs différents LLM).

3. Contributions Clés

Nouvelles Métriques d'Impact : L'article propose une méthode interprétable et directe basée sur la fréquence des mots pour quantifier l'influence des LLM, évitant les boîtes noires des classificateurs complexes.
Identification de Signatures Lexicales Dynamiques : Mise en évidence de changements spécifiques dans l'usage des mots (ex: augmentation de « via » et « beyond » dans les titres, diminution de « the » et « of » dans les résumés) qui varient selon les modèles et les versions.
Preuve d'Hétérogénéité et de Dynamisme : Démonstration que l'impact des LLM n'est pas uniforme ; il évolue rapidement avec les mises à jour des modèles (ex: le mot « delve » était caractéristique des premiers modèles mais est abandonné par les plus récents).
Limites de la Détection Multi-classes : Confirmation que la classification précise de la source spécifique d'un texte (quel modèle exact) devient extrêmement difficile (précision chutant à ~60% en multi-classes) en raison de la convergence des styles entre modèles.

4. Résultats Principaux

Évolution des Mots Clés :
- Titres : Une augmentation marquée de l'utilisation des mots « via » et « beyond » à partir de 2025, corrélée à l'émergence de modèles comme DeepSeek et GPT-5.
- Résumés : Une baisse significative de la fréquence des articles définis/infinis (« the », « of ») et du mot « together » (qui a d'abord chuté puis remonté, reflétant des préférences contradictoires entre anciennes et nouvelles versions).
- Mots « Caractéristiques » : Des mots comme « delve », « intricate » ou « furthermore » montrent des pics d'utilisation suivis de déclins, indiquant un cycle de vie rapide des tendances lexicales induites par l'IA.
Similarité et Homogénéisation :
- Les résumés générés par les nouveaux LLM (avec prompts longs) se rapprochent structurellement (ROUGE) des textes originaux, mais la similarité sémantique (BERTScore) reste complexe.
- Les différences entre les sorties de différents modèles se réduisent (effet d'homogénéisation), rendant la distinction fine de plus en plus difficile.
Performance des Classificateurs :
- La classification binaire (Humain vs LLM) atteint des précisions de 80-90%.
- La classification multi-classes (distinguer GPT-3.5, GPT-5, DeepSeek, etc.) chute à environ 60%, et la confusion entre textes humains et textes LLM reste élevée (environ 20% de faux positifs pour les textes humains).
Estimation Quantitative :
- L'estimation basée sur les mots vides et fréquents suggère que l'impact des LLM sur les résumés d'arXiv est croissant mais hétérogène. Avant octobre 2022, l'estimation est proche de zéro. Après 2023, une part significative des textes semble influencée par des styles proches de GPT-3.5, puis d'autres modèles plus récents.

5. Signification et Implications

Nécessité d'une Approche Dynamique : Les outils de surveillance de l'IA académique doivent évoluer. Une simple détection statique est insuffisante car les modèles changent constamment leurs préférences lexicales.
Limites de la Détection : La difficulté croissante à distinguer les modèles spécifiques suggère que l'avenir de la détection ne réside pas dans l'identification de l'outil exact, mais dans la compréhension de l'impact global sur le style scientifique.
Impact Sociétal : L'usage des LLM façonne subtilement la langue académique, potentiellement en réduisant la diversité lexicale ou en imposant des structures syntaxiques spécifiques. Cela pose des questions sur l'authenticité et la créativité dans la recherche.
Méthodologie Robuste : L'approche proposée (analyse de fréquence + régression linéaire) offre une alternative transparente et interprétable aux méthodes de deep learning complexes, permettant une visualisation claire de l'impact des LLM dans le temps.

En conclusion, l'article démontre que l'influence des LLM sur la science est réelle, mesurable par des changements lexicaux subtils, et en constante évolution, nécessitant une vigilance continue et des méthodes d'analyse adaptatives.