Detecting LLM-Generated Peer Reviews

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple de ce papier de recherche, imagée comme une histoire de détectives et de fausses pièces de monnaie.

🕵️‍♂️ Le Problème : Les "Fantômes" dans la Machine à Écrire

Imaginez que vous êtes un éditeur de journal scientifique. Des milliers de chercheurs envoient leurs articles pour être lus et critiqués par des experts (les "relecteurs"). C'est comme un contrôle qualité très sérieux.

Mais récemment, un nouveau problème est apparu : certains relecteurs paresseux utilisent des Intelligences Artificielles (IA) pour écrire leurs critiques à leur place. Au lieu de lire l'article et de réfléchir, ils donnent le texte à l'IA et disent : "Écris-moi une critique".

Le problème ? Les outils actuels pour repérer si un texte est écrit par une IA sont comme des détecteurs de métaux très vieux : ils ne savent pas faire la différence entre un texte totalement écrit par une IA et un texte écrit par un humain qui a juste demandé à l'IA de "corriger l'orthographe". C'est comme essayer de distinguer un vrai billet de banque d'un faux en regardant juste la couleur du papier : ça ne marche pas toujours.

💡 La Solution : Le "Code Secret" Invisible

Les auteurs de ce papier ont eu une idée géniale, un peu comme un espion qui laisse une trace invisible.

Au lieu de chercher des erreurs dans le texte, ils vont forcer l'IA à laisser une trace spécifique, un peu comme si on forçait un voleur à laisser une empreinte digitale unique sur chaque objet qu'il vole.

Voici comment ils procèdent, étape par étape :

1. Le Piège dans le Document (L'Injection de Prompt)

Avant même que le relecteur ne reçoive l'article, les organisateurs de la conférence modifient le fichier PDF de l'article.

L'analogie : Imaginez que vous envoyez un colis à un ami, mais vous cachez un petit mot dans la doublure de la boîte. Votre ami ne le voit pas, mais si le colis passe par une machine de tri robotique (l'IA), la machine lit le mot caché.
La technique : Ils cachent des instructions invisibles (en blanc sur fond blanc, ou avec une police de caractères bizarre) dans le PDF. L'œil humain ne voit rien, mais quand l'IA lit le fichier pour écrire sa critique, elle lit cette instruction secrète.

2. Le Message Secret (Le Filigrane)

L'instruction secrète dit à l'IA : "Écris ta critique, mais n'oublie pas d'inclure cette phrase bizarre au début."

Exemple : L'IA pourrait être forcée d'écrire : "Selon Baker et al. (2008)..." alors que cette référence n'existe pas du tout !
Pourquoi c'est malin : Si un humain écrit une critique, il est très peu probable qu'il invente exactement la même fausse référence que l'IA a choisie au hasard. C'est comme si on demandait à tout le monde de choisir un chiffre au hasard entre 1 et 100 000. Si deux personnes choisissent le même chiffre, c'est qu'elles ne l'ont pas fait au hasard, ou qu'elles ont reçu la même instruction secrète.

3. Le Test de Détection (Le Détective)

Une fois les critiques reçues, les organisateurs vérifient : "Est-ce que cette critique contient le mot-clé secret que nous avons caché ?"

Si oui : C'est probablement une IA.
Si non : C'est probablement un humain.

🛡️ Pourquoi c'est plus fort que les anciennes méthodes ?

Les auteurs ont résolu trois gros problèmes :

Le problème du "Faux Positif" (Accuser un innocent) :
- L'analogie : Imaginez un détective qui arrête tout le monde qui porte une chemise rouge, car il pense que les voleurs portent des chemises rouges. Mais si 50 % de la population porte des chemises rouges, il va arrêter des innocents !
- La solution : Ici, le "mot secret" est choisi au hasard par les organisateurs pour chaque article. Un humain ne peut pas deviner quel mot secret sera choisi. Donc, si on trouve le mot, c'est presque certain que l'IA l'a mis là. C'est mathématiquement prouvé qu'on ne va pas accuser un humain par erreur.
Le problème de la "Paraphrase" (Le relecteur malin) :
- L'analogie : Un voleur pourrait essayer de changer ses vêtements pour ne pas être reconnu. Un relecteur pourrait dire à l'IA : "Réécris cette critique avec d'autres mots".
- La solution : Les auteurs ont testé cela. Même si l'IA réécrit la critique, elle garde souvent le mot secret (surtout s'il est entre guillemets ou s'il s'agit d'une fausse citation au début). C'est comme si le voleur changeait de manteau mais gardait toujours la même cicatrice unique.
Le problème des "Mille Tests" :
- L'analogie : Si vous lancez une pièce de monnaie 10 000 fois, il est normal d'avoir quelques "Face" par pur hasard. Si vous cherchez des signes de triche dans 10 000 critiques, vous risquez de trouver des "coïncidences" qui ne sont pas de la triche.
- La solution : Les auteurs ont créé une nouvelle méthode mathématique (un algorithme) qui permet de vérifier 10 000 critiques en même temps sans se tromper. Les anciennes méthodes (comme la correction de Bonferroni) étaient trop prudentes et disaient : "Mieux vaut ne rien dire que de risquer une erreur", ce qui rendait le test inutile. Leur nouvelle méthode est comme un détective qui sait exactement combien de fausses pistes il peut ignorer pour ne jamais arrêter un innocent.

🧪 Les Résultats (Ce qui s'est passé en vrai)

Les chercheurs ont testé leur méthode sur de vrais articles scientifiques (ICLR, NSF, etc.) et avec de vraies IA (ChatGPT, Gemini, Claude).

Succès : L'IA a mis le mot secret dans 98 % des cas.
Résistance : Même si on demandait à l'IA de réécrire la critique, le mot secret restait dans 94 % des cas.
Sécurité : Sur des milliers de vraies critiques écrites par des humains, aucune n'a été faussement accusée.

🏁 Conclusion

Ce papier propose une nouvelle façon de protéger l'intégrité de la science. Au lieu de jouer à "qui a écrit ça ?", on utilise un système de piège à mouches : on force l'IA à laisser une trace qu'elle ne peut pas effacer et qu'un humain ne peut pas inventer par hasard.

C'est une victoire pour la transparence : si vous utilisez une IA pour écrire votre critique, vous laisserez une empreinte digitale numérique que personne ne pourra effacer.

Each language version is independently generated for its own context, not a direct translation.

Titre : Détection des relectures générées par les grands modèles de langage (LLM)

Auteurs : Vishisht Rao, Aounon Kumar, Himabindu Lakkaraju, Nihar B. Shah (CMU & Harvard)
Date : Mai 2025

1. Problématique

L'intégrité du processus de relecture par les pairs (peer review) est fondamentale pour le progrès scientifique. Cependant, l'émergence des grands modèles de langage (LLM) a introduit un risque majeur : certains relecteurs pourraient utiliser ces outils pour générer entièrement des relectures sans engagement intellectuel personnel.

Contexte : Bien que de nombreuses conférences et agences (comme le NIH) aient interdit l'utilisation des LLM pour générer des relectures, l'application de ces règles est difficile.
Limites des solutions actuelles : Les outils de détection existants (comme GPTZero) peinent à distinguer une relecture entièrement générée par une IA d'une relecture humaine simplement polie ou paraphrasée par une IA. De plus, les méthodes basées sur le style d'écriture humain souffrent de faux positifs systématiques et manquent de garanties statistiques rigoureuses, en particulier lors de l'évaluation de milliers de relectures simultanément (problème des tests multiples).

2. Méthodologie

Les auteurs proposent un cadre en trois composantes pour détecter les relectures générées par des LLM en exploitant une vulnérabilité connue : l'injection de prompt indirecte.

A. Injection de prompt indirecte (Indirect Prompt Injection)

L'idée centrale est d'insérer des instructions cachées directement dans le fichier PDF du manuscrit soumis. Ces instructions sont invisibles pour le relecteur humain mais sont lues et exécutées par le LLM lorsque le document est uploadé.

Techniques d'injection explorées :
1. Texte blanc (White text) : Le prompt est écrit en blanc sur un fond blanc à la fin du document.
2. Encodage de police (Font embedding) : Utilisation de polices personnalisées (ou de polices existantes comme Wingdings) où les caractères affichés à l'écran diffèrent de ceux lus par le parser du PDF (ex: le mot "model" est rendu visuellement comme "human" mais le LLM lit "model").
3. Injection cryptique (Cryptic prompt) : Utilisation de l'algorithme Greedy Coordinate Gradient (GCG) pour optimiser une séquence de texte apparemment non sensuelle qui force le LLM à insérer un filigrane spécifique.
4. Langue étrangère : Injection de prompts dans des langues peu courantes ou via OCR.

B. Stratégies de filigrane (Watermarking)

Une fois le prompt injecté, le LLM est invité à insérer un "filigrane" spécifique dans la relecture générée. Trois types de filigranes sont conçus pour être statistiquement testables et résistants :

Début aléatoire (Random Start) : Une séquence de 5 mots choisie aléatoirement parmi un ensemble de phrases cohérentes (ex: "This paper explores the key aspect").
Terme technique aléatoire (Random Technical Term) : Un terme technique rare extrait d'un ensemble de mots-clés peu fréquents, inséré entre guillemets pour résister à la paraphrase.
Citation aléatoire (Random Citation) : Une citation factice sous la forme "{Nom de famille} et al. (Année)", où le nom et l'année sont choisis aléatoirement dans de vastes bases de données.

C. Détection Statistique Rigoureuse

C'est la contribution théorique majeure. Les auteurs développent des tests d'hypothèse pour détecter la présence du filigrane sans faire d'hypothèses sur le style d'écriture humain.

Contrôle du taux d'erreur familial (FWER) : Contrairement aux méthodes classiques qui contrôlent le taux de faux positifs par test, cette approche contrôle la probabilité de commettre au moins une erreur sur l'ensemble des relectures testées.
Algorithmes proposés :
- Algorithme 1 (Single Review) : Utilise un seuil $k$ basé sur la taille de l'ensemble des filigranes possibles $|W|$ pour limiter le taux de faux positifs (FPR).
- Algorithme 2 & 3 (Multiple Reviews) : Pour gérer des milliers de relectures, l'algorithme utilise une heuristique gloutonne pour rejeter dynamiquement un sous-ensemble de relectures ou de filigranes (ceux qui apparaissent trop souvent par hasard dans les textes humains) afin de respecter la contrainte FWER tout en maximisant la puissance statistique.
Avantage : Cette méthode évite les corrections conservatrices comme Bonferroni ou Holm-Bonferroni, qui rendraient la détection impossible dans des scénarios à grande échelle.

3. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs jeux de données (ICLR 2024, PeerRead, NSF Grant Proposals) et avec divers LLM (GPT-4o, o1-mini, Gemini 2.0, Claude 3.5, LLaMA 2, Vicuna).

Efficacité de l'injection :
- La stratégie de citation aléatoire avec injection en texte blanc a atteint un taux de succès moyen de 98,6 % à travers les modèles.
- L'injection cryptique (GCG) a atteint un taux de succès de 91 % sur des modèles open-source (Llama 2, Vicuna).
Résistance aux défenses :
- Paraphrase : Même après avoir fait reformuler la relecture par un autre LLM, >94 % des filigranes (surtout les citations et termes techniques) sont restés présents.
- Détection par le LLM : Les LLM n'ont pas réussi à identifier la présence des injections cachées dans la majorité des cas (taux de détection < 20 % pour les citations).
- Suppression de page : L'injection au milieu du document (pas seulement à la fin) reste efficace.
Performance Statistique :
- Sur plus de 10 000 relectures, la méthode proposée a maintenu un taux de faux positifs (FPR) de 0 % tout en détectant 100 % des relectures générées par LLM (pour les filigranes de type citation et début aléatoire) avec un contrôle strict du FWER ( $\alpha = 0.01$ ou $0.001$).
- Les méthodes de correction standards (Bonferroni) se sont révélées trop conservatrices pour être utiles dans ce contexte.

4. Contributions Clés

Cadre de détection par filigrane : Une approche pratique utilisant l'injection de prompt indirecte pour forcer les LLM à laisser une trace détectable.
Garanties statistiques formelles : Développement d'algorithmes (Algorithme 2 et 3) qui contrôlent strictement le FWER sans supposer de distribution spécifique pour les textes humains, offrant une puissance statistique supérieure aux méthodes classiques.
Robustesse empirique : Démonstration que la méthode résiste aux tentatives de contournement courantes (paraphrase, détection par le modèle, suppression de pages).
Application large : Validation sur des relectures de conférences (ICLR) et des propositions de subventions (NSF), montrant l'applicabilité au-delà des articles de recherche.

5. Signification et Implications

Intégrité scientifique : Cette méthode offre un outil potentiellement puissant pour les éditeurs et les agences de financement afin de faire respecter les politiques interdisant l'usage non autorisé des LLM dans la relecture.
Paradigme de sécurité : L'article réutilise une technique souvent associée aux attaques (injection de prompt) pour un objectif défensif et bénéfique.
Limites et Avenir : Bien que efficace, la méthode dépend de la capacité des LLM à lire les PDF et à suivre les instructions cachées. Les auteurs soulignent également le risque inverse : les auteurs pourraient utiliser cette même technique pour biaiser les relectures générées par LLM en leur faveur, nécessitant une vigilance accrue des deux côtés du processus.

En résumé, ce travail propose une solution mathématiquement rigoureuse et empiriquement robuste pour identifier l'usage non autorisé des LLM dans le processus critique de relecture scientifique, comblant un vide important laissé par les outils de détection actuels.