Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews

Cette étude présente une méthode d'estimation de la proportion de textes modifiés par des modèles de langage dans les relectures de conférences d'IA, révélant que 6,5 % à 16,9 % de ces relectures (ICLR 2024, NeurIPS 2023, CoRL 2023, EMNLP 2023) auraient été substantiellement altérées par l'IA, avec une corrélation observée entre l'usage de ces outils et des facteurs tels que la faible confiance, la proximité des délais et la réticence à répondre aux répliques des auteurs.

Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel A. McFarland, James Y. Zou

Publié 2026-03-04
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Grand Détective de l'IA : Qui a vraiment écrit ces critiques ?

Imaginez que vous êtes dans une immense bibliothèque remplie de milliers de critiques de films. Ces critiques sont écrites par des experts (des humains) pour décider quels films méritent d'être distribués. Mais depuis l'arrivée d'une nouvelle technologie très puissante (ChatGPT), on commence à se demander : « Est-ce que certains de ces experts ont demandé à un robot d'écrire leurs critiques à leur place ? »

C'est exactement le problème que cette étude tente de résoudre, mais avec des articles scientifiques au lieu de films.

1. Le Problème : L'Aiguille dans la Botte de Foin

Le défi est énorme. Si vous prenez une seule critique et que vous demandez à un détective (un logiciel classique) de dire si c'est un humain ou un robot, il va souvent se tromper. C'est comme essayer de distinguer un faux billet de banque d'un vrai en regardant juste un seul coin de la pièce. C'est trop difficile et les robots sont devenus trop bons pour imiter les humains.

De plus, les chercheurs ne veulent pas juger chaque critique individuellement (ce serait trop long et intrusif). Ils veulent juste savoir : « Dans tout ce tas de critiques, quelle part a été touchée ou écrite par l'IA ? »

2. La Solution : La "Recette" Statistique (Le Méthode MLE)

Au lieu de chercher l'aiguille dans la botte de foin, les chercheurs ont inventé une méthode pour peser le tas de foin entier.

Imaginez que vous avez deux bacs de peinture :

  • Le Bac A (Humain) : De la peinture peinte par des artistes humains depuis des années (les anciennes critiques).
  • Le Bac B (Robot) : De la peinture faite par un robot qui a reçu les mêmes instructions (les critiques générées par ChatGPT).

Les chercheurs ont analysé les "couleurs" (les mots, surtout les adjectifs comme "remarquable", "ingénieux", "soigné") dans ces deux bacs. Ils ont remarqué que les robots utilisent certaines couleurs de manière très spécifique et répétitive, un peu comme s'ils avaient un pinceau qui déverse toujours la même teinte.

Ensuite, ils ont pris le nouveau tas de critiques (celles de 2023-2024) et ils ont dit : « Si je mélange 10% de peinture robot et 90% de peinture humaine, est-ce que ça correspond à la couleur du nouveau tas ? »

En utilisant des mathématiques (un peu comme une balance très précise), ils ont trouvé le pourcentage exact de "peinture robot" dans le mélange. C'est beaucoup plus rapide et fiable que de regarder chaque goutte de peinture individuellement !

3. Les Résultats : Ce que l'on a découvert

En appliquant cette méthode aux grandes conférences d'intelligence artificielle (comme ICLR, NeurIPS), ils ont trouvé des choses surprenantes :

  • Le Robot est présent : Entre 6,5% et 17% des phrases dans ces critiques ont été substantiellement modifiées ou écrites par l'IA. Ce n'est pas juste une correction d'orthographe, c'est comme si le robot avait réécrit des paragraphes entiers.
  • Le "Syndrome de la Deadline" : Plus la date limite de rendu est proche, plus les chercheurs utilisent l'IA. C'est comme si, paniqués par le temps qui passe, ils appelaient le robot pour aller plus vite.
  • Le "Manque de Confiance" : Les chercheurs qui disent "Je ne suis pas très sûr de mon analyse" ont tendance à utiliser plus l'IA. C'est comme si le robot servait de béquille quand on ne se sent pas assez fort.
  • La "Touche" Manquante : Les critiques qui utilisent l'IA contiennent moins de références précises à d'autres travaux scientifiques (comme des citations). C'est un peu comme si le robot racontait une histoire générale, mais qu'il oubliait de mentionner les détails techniques spécifiques que seul un expert humain connaîtrait.

4. La Différence avec les Autres Journaux

Curieusement, cette explosion de l'IA n'a pas été observée dans les journaux de la famille Nature (qui publient sur la biologie, la chimie, etc.). Là-bas, les critiques semblent toujours être écrites à la main. Cela suggère que les experts en informatique sont peut-être plus tentés (ou plus exposés) à utiliser ces outils que les autres scientifiques.

5. Pourquoi est-ce important ? (Le Danger de l'Uniformité)

Le plus grand risque n'est pas que l'IA écrive mal, mais qu'elle écrive trop bien et trop pareil.
Imaginez un jury de cinéma où tout le monde utilise le même script pour critiquer les films. Au lieu d'avoir 5 opinions différentes et riches, vous avez 5 versions légèrement modifiées de la même pensée.

C'est ce que les chercheurs appellent l'homogénéisation. Si tout le monde utilise le même robot, les critiques deviennent toutes identiques, ennuyeuses et manquent de la créativité et de la diversité des points de vue humains. C'est comme si tous les restaurants d'une ville commençaient à servir exactement le même plat : ça rassure, mais ça tue la diversité culinaire !

En Résumé

Cette étude nous dit : « Ne paniquez pas, mais soyez vigilants. »
L'IA est utilisée dans les critiques scientifiques, surtout quand on est pressé ou incertain. Ce n'est pas encore une prise de contrôle totale, mais c'est un signal d'alarme. Si on ne fait rien, on risque de perdre la richesse des opinions humaines au profit d'une voix robotique unique et uniforme.

L'objectif de cette recherche n'est pas de juger les chercheurs, mais de nous aider à comprendre comment l'IA change notre façon de partager le savoir, pour qu'on puisse s'assurer que l'humain reste au cœur du processus.