Beyond Via: Analysis and Estimation of the Impact of Large Language Models in Academic Papers

En analysant les publications d'arXiv, cette étude révèle que l'utilisation croissante des grands modèles de langage modifie la fréquence de certains mots dans les titres et résumés, tout en démontrant que les variations entre modèles rendent difficile leur identification automatique et confirment l'hétérogénéité de leur usage réel.

Mingmeng Geng, Yuhang Dong, Thierry Poibeau

Publié 2026-03-27
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Détective de Mots : Qui écrit vraiment nos articles scientifiques ?

Imaginez que le monde de la science (les articles sur arXiv, une immense bibliothèque en ligne) est une grande cuisine. Pendant des siècles, les chefs (les chercheurs) écrivaient leurs recettes (leurs articles) avec leurs propres mains, utilisant leur style unique.

Mais depuis quelques années, une nouvelle équipe de robots-cuisiniers (les IA, comme ChatGPT, Claude, Gemini) est arrivée dans la cuisine. Ils sont très rapides et aident les chefs à écrire.

Le problème ? Parfois, on ne sait plus si c'est le chef humain ou le robot qui a écrit la recette. Cette étude, intitulée "Beyond Via" (au-delà de "via"), est comme un enquêteur qui essaie de comprendre comment ces robots ont changé le goût de la cuisine scientifique.


1. 🧐 Le "Bouillon" a changé de goût (Les mots révélateurs)

Les chercheurs ont remarqué quelque chose d'étrange dans le "bouillon" des mots utilisés dans les titres et les résumés des articles.

  • Les mots "à la mode" des robots :
    Imaginez que les robots ont une manie : ils adorent utiliser certains mots précis, comme s'ils portaient toujours le même chapeau.
    • Le mot "via" (qui signifie "par le biais de") est devenu le chapeau préféré des robots dans les titres. C'est comme si tous les robots disaient : "J'ai fait ça via une méthode..." au lieu de dire simplement "avec".
    • Le mot "beyond" (au-delà) est aussi très populaire chez eux.
    • À l'inverse, les robots semblent avoir peur des petits mots simples comme "the" (le/la) ou "of" (de). Ils les utilisent beaucoup moins que les humains.

L'analogie : C'est comme si vous alliez dans une ville et que soudainement, tout le monde portait le même manteau rouge. Vous savez qu'il y a eu une invasion de robots, même si vous ne les voyez pas directement.

2. 🔄 La mode change (Les robots évoluent)

Ce qui est fascinant, c'est que les robots ne sont pas tous pareils, et ils changent avec le temps.

  • L'exemple du mot "together" (ensemble) :
    Imaginez un vieux robot (comme la première version de ChatGPT) qui aimait beaucoup dire "together". Puis, un nouveau robot (plus récent) est arrivé et a dit : "Oh non, ce mot est ringard !". Résultat : le mot a disparu des articles, puis est revenu plus tard avec un autre robot.
  • Le mot "delve" (plonger en profondeur) :
    Pendant un temps, les robots disaient "delve" tout le temps. Les humains ont commencé à l'imiter. Mais les nouveaux robots ont arrêté d'utiliser ce mot. Les chercheurs ont donc arrêté de l'utiliser aussi.

L'analogie : C'est comme la musique pop. Un chanteur sort une chanson avec un mot spécifique. Tout le monde l'imit. Puis un nouveau chanteur arrive, change le style, et tout le monde change de vocabulaire. Les robots font bouger la mode des mots scientifiques.

3. 🕵️‍♀️ Le jeu de l'imitation (Peut-on les distinguer ?)

Les auteurs de l'étude ont essayé de créer un détecteur pour dire : "C'est un humain !" ou "C'est un robot !".

  • Le résultat est décevant : Quand ils essaient de deviner quel robot a écrit le texte (est-ce GPT-5 ? Est-ce DeepSeek ?), ils échouent souvent. C'est comme essayer de distinguer un twin (jumeau) de son frère : ils se ressemblent trop !
  • Pourquoi ? Parce que les robots apprennent les uns des autres et finissent par avoir le même style. Ils deviennent de plus en plus "humains" (ou du moins, ils imitent si bien l'humain que c'est dur de faire la différence).

4. 📊 La méthode de l'enquêteur (Comment ils ont fait ?)

Au lieu de chercher des preuves compliquées, les chercheurs ont utilisé une méthode simple et intelligente : la comptabilité des mots.

  1. Ils ont regardé comment les mots étaient utilisés avant l'arrivée des robots (comme une photo de famille de 2021).
  2. Ils ont prévu comment ces mots auraient dû évoluer naturellement (une ligne droite).
  3. Ils ont comparé cette prévision avec la réalité d'aujourd'hui.
  4. Le décalage : Là où la réalité s'éloigne de la prévision, c'est là que les robots ont laissé leur empreinte.

L'analogie : Imaginez que vous savez que votre enfant grandit de 5 cm par an. Si un jour, il mesure 10 cm de plus que prévu, vous savez qu'il a mangé quelque chose de spécial (ou dans ce cas, qu'un robot a aidé à écrire le texte).

5. 💡 Le message principal

Cette étude nous dit deux choses importantes :

  1. Les robots sont partout : Ils ne se contentent pas d'écrire des articles, ils changent la façon dont les scientifiques pensent et écrivent. Ils modifient le vocabulaire de base de la science.
  2. C'est dynamique : Ce n'est pas figé. Les robots changent, et donc le style des articles change aussi. Ce qui était "typique des robots" en 2023 ne l'est plus en 2025.

En résumé 🎭

C'est comme si les robots-cuisiniers avaient pris les commandes de la cuisine scientifique. Ils ne volent pas juste les recettes, ils changent les épices (les mots). Parfois, ils utilisent trop de "via" et pas assez de "le".

L'étude nous rappelle que même si les robots deviennent de plus en plus habiles pour imiter les humains, ils laissent toujours une trace, un "goût" particulier dans le texte. Et pour les détecter, il ne faut pas chercher un monstre caché, mais simplement observer comment les mots de base ont changé de fréquence.

C'est une façon de dire : "Attention, la langue scientifique est en train d'évoluer, et les robots en sont les nouveaux architectes."

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →