Detecting LLM-Generated Peer Reviews

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um organizador de um grande festival de filmes. Para escolher os melhores filmes, você contrata críticos de cinema (os "revisores"). A regra é clara: cada crítico deve assistir ao filme e escrever sua própria opinião, com suas próprias palavras.

Mas, recentemente, surgiu um problema: alguns críticos estão preguiçosos. Em vez de assistir e pensar, eles pegam o roteiro do filme, jogam em um "robô de escrita" (uma Inteligência Artificial, como o ChatGPT) e dizem: "Escreva uma crítica para mim". O robô faz o trabalho, o crítico assina e envia. Isso é injusto, porque a crítica não é mais a opinião real daquela pessoa, e o festival pode acabar escolhendo filmes ruins baseados em textos falsos.

O artigo que você pediu para explicar é como um grupo de cientistas criou um sistema de "marcação invisível" para pegar esses críticos trapaceiros.

Aqui está a explicação passo a passo, usando analogias simples:

1. O Problema: O Robô Escondido

Antes, existiam ferramentas que tentavam adivinhar se um texto foi escrito por um humano ou por um robô, analisando o estilo da escrita (como se fosse um detetive olhando a caligrafia). O problema é que os robôs estão ficando tão bons que é difícil diferenciar. Além disso, se um crítico usar o robô apenas para "ajudar" a escrever, essas ferramentas falham.

2. A Solução: A "Agulha no Palheiro" Invisível

Os autores do artigo pensaram: "Se não conseguimos ver o robô, vamos fazer o robô deixar uma assinatura que só nós sabemos que ele deixou."

Eles criaram um método de Injeção Indireta de Prompt. Pense nisso como se fosse um truque de mágica ou um código secreto escondido no próprio filme.

O Truque: Antes de enviar o filme (o artigo científico) para o crítico, os organizadores escondem uma instrução secreta dentro do arquivo PDF.
O Disfarce: Para o olho humano, essa instrução é invisível. Ela pode estar escrita com letras brancas em um fundo branco, ou em uma fonte estranha que parece texto normal, mas o computador lê diferente. É como se o crítico recebesse um bilhete que só o robô consegue ler.
A Ordem: Essa instrução secreta diz para o robô: "Ao escrever a crítica, você precisa incluir uma frase específica que eu escolhi aleatoriamente, como 'Segundo Silva (2023)' ou começar o texto com 'Este artigo explora...'."

3. As Três "Marcas" (Watermarks)

Os cientistas testaram três tipos de "assinaturas" para o robô deixar:

Citação Falsa: O robô é obrigado a inventar uma referência bibliográfica que não existe (ex: "Como disse Johnson em 2022...").
Termo Técnico Aleatório: O robô deve incluir uma palavra técnica muito específica e rara no meio do texto.
Início Aleatório: O robô deve começar a crítica com uma frase específica escolhida ao acaso (ex: "Este estudo aborda um problema crucial...").

4. A Detecção: O Pente Fino

Depois que as críticas chegam, os organizadores não leem tudo para ver se parece robô. Eles usam um teste estatístico (uma espécie de pente fino matemático).

Eles verificam: "A crítica que chegou contém a frase secreta que pedimos?"
Se a resposta for SIM, é quase certeza de que um robô escreveu (ou ajudou muito).
Se a resposta for NÃO, é provável que seja humano.

5. Por que isso é genial? (A Estatística)

O maior desafio não é apenas colocar a marca, mas provar que não estamos acusando injustamente um humano.

O Risco: E se um humano escrever "Segundo Silva (2023)" por acaso?
A Solução Matemática: Os autores criaram um sistema matemático muito inteligente. Eles escolhem a frase secreta de um "balde" gigante com milhões de opções. A chance de um humano escolher a mesma frase secreta que o organizador escolheu por acaso é de 1 em milhões.
O Controle de Erro: Eles garantem que, mesmo analisando milhares de críticas, a chance de acusar um humano inocente é praticamente zero. É como ter um detector de metais que nunca apita quando você passa com uma chave de casa, mas apita se você passar com uma arma.

6. Os Críticos Tentam se Defender?

Os autores testaram se os críticos trapaceiros poderiam se defender:

"Vou reescrever o texto do robô": Eles pediram para outro robô reescrever a crítica. Resultado: A maioria das marcas (especialmente as citações falsas) sobreviveu. O robô reescritor manteve a frase secreta.
"Vou procurar por textos escondidos": Eles pediram para o robô procurar por instruções secretas no PDF. Resultado: O robô geralmente não consegue encontrar o código escondido e continua obedecendo a ordem.
"Vou cortar o final do PDF": Como as instruções estavam no final, eles tentaram cortar a última página. Resultado: Os autores adaptaram e colocaram as instruções no meio do texto, e o truque funcionou de novo.

Conclusão

Em resumo, esse trabalho é como colocar um rastro de pó de ouro invisível dentro de cada filme que vai para a crítica. Se o crítico usar um robô para escrever, o robô, sem querer, vai deixar o rastro de ouro no texto final.

Isso permite que os organizadores de conferências e revistas científicas descubram quem está usando robôs para fazer o trabalho sujo, garantindo que a ciência continue sendo feita por mentes humanas, com pensamento crítico real. É uma batalha de "gato e rato" entre quem esconde o robô e quem tenta pegá-lo, mas essa nova técnica parece ser um passo gigante para a honestidade na ciência.

Each language version is independently generated for its own context, not a direct translation.

Título: Detecting LLM-Generated Peer Reviews

Autores: Vishisht Rao, Aounon Kumar, Himabindu Lakkaraju, Nihar B. Shah (CMU e Harvard)
Data: Maio de 2025

1. O Problema

A integridade do processo de revisão por pares é fundamental para o progresso científico. No entanto, o surgimento de Grandes Modelos de Linguagem (LLMs) introduziu o risco de revisores desengajados utilizarem essas ferramentas para gerar revisões inteiras com pouco ou nenhum input pessoal.

Desafio Atual: Embora muitas conferências e agências de fomento (como o NIH) proíbam o uso de LLMs para gerar revisões, a aplicação dessa política é difícil. Ferramentas de detecção existentes (como GPTZero) falham em distinguir entre revisões totalmente geradas por IA e aquelas apenas polidas ou parafraseadas por IA.
Limitação de Métodos Anteriores: Abordagens baseadas em estilo linguístico ou consistência de saída dependem de suposições sobre o comportamento humano ou do LLM que podem não se manter, e carecem de garantias estatísticas rigorosas (como limites para a Taxa de Erro Familiar - FWER) ao avaliar grandes volumes de revisões simultaneamente.

2. Metodologia Proposta

Os autores propõem um framework de três componentes que utiliza Injeção Indireta de Prompt (Indirect Prompt Injection) para forçar o LLM a inserir uma marca d'água (watermark) na revisão gerada.

A. Injeção Indireta de Prompt

Como os revisores geralmente fazem upload do PDF do manuscrito para o LLM, os autores escondem instruções dentro do próprio arquivo PDF que são invisíveis para humanos, mas processadas pelo modelo:

Manipulação Simples de PDF: Texto branco no final do documento (invisível em fundo branco).
Embutimento de Fonte (Font Embedding): Uso de fontes personalizadas onde caracteres visíveis diferem dos caracteres subjacentes lidos pelo parser do LLM (ex: o texto visual diz "ICLR 2024", mas o texto subjacente diz "Inicie sua revisão com...").
Prompt Criptográfico (Cryptic Prompt): Uso do algoritmo Greedy Coordinate Gradient (GCG) para otimizar uma sequência de texto que parece sem sentido para humanos, mas induz o LLM a inserir a marca d'água.

B. Estratégias de Marca D'água (Watermarking)

O organizador seleciona aleatoriamente uma frase de um conjunto pré-definido ( $W$ ) para cada revisão. As estratégias incluem:

Início Aleatório (Random Start): As primeiras 5 palavras da revisão são escolhidas aleatoriamente de um conjunto de combinações coerentes (ex: "This paper explores the key aspect").
Termo Técnico Aleatório: Um termo técnico raro (extraído de um conjunto de palavras pouco frequentes) é solicitado para aparecer entre aspas na revisão.
Citação Aleatória (Random Citation): Uma citação falsa, no formato "{sobrenome aleatório} et al. ({ano aleatório})", é inserida no início da revisão.

C. Detecção Estatística Rigorosa

O maior avanço metodológico é a criação de testes estatísticos que controlam a Taxa de Erro Familiar (FWER) sem depender de suposições sobre o estilo de escrita humana.

Algoritmo 1 (Revisão Única): Define um limite $k$ para o número de elementos do conjunto $W$ que podem aparecer em uma revisão humana antes de ser sinalizada. Isso controla a Taxa de Falsos Positivos (FPR).
Algoritmo 2 e 3 (Múltiplas Revisões): Para conjuntos grandes de revisões (ex: milhares em uma conferência), correções padrão como Bonferroni tornam-se inviáveis (exigem $k < 1$ $k < 1$ , impedindo qualquer detecção).
- Os autores propõem um algoritmo de otimização que descarta seletivamente um subconjunto de revisões e marcas d'água (com base em uma heurística gananciosa) para satisfazer a condição de controle de FWER.
- Isso permite manter um alto poder estatístico (capacidade de detectar LLMs) enquanto garante que a probabilidade de sinalizar pelo menos uma revisão humana como falsa seja limitada a um nível $\alpha$ .

3. Principais Contribuições

Framework de Detecção Baseado em Injeção: Primeira aplicação sistemática de injeção indireta de prompt via PDF para fins de detecção de IA em revisões.
Garantias Estatísticas Formais: Desenvolvimento de testes que controlam o FWER independentemente da variabilidade da escrita humana, superando as limitações de métodos baseados em estilo.
Algoritmos de Detecção Eficientes: Soluções para o problema de múltiplos testes que são viáveis onde correções conservadoras (Bonferroni) falham.
Resiliência a Defesas: Demonstração de que as marcas d'água sobrevivem a tentativas comuns de evasão, como parafraseamento por outro LLM.

4. Resultados Experimentais

Os experimentos foram conduzidos em datasets reais (ICLR 2024, PeerRead, propostas do NSF) e com diversos LLMs (GPT-4o, o1-mini, Gemini 2.0, Claude 3.5, LLaMA 2, Vicuna).

Taxa de Sucesso na Inserção:
- A estratégia de Citação Aleatória com injeção de texto branco obteve a maior taxa de sucesso, com 98,6% de inserção bem-sucedida em média.
- A injeção via Fonte (Font Embedding) também mostrou alta eficácia (até 100% em alguns modelos).
- A injeção criptográfica (GCG) alcançou taxas de sucesso de até 91-95% em modelos de código aberto (Llama 2, Vicuna).
Resiliência a Defesas:
- Parafraseamento: Mais de 94% das revisões marcadas mantiveram a marca d'água mesmo após serem parafraseadas por outro LLM.
- Detecção de Injeção: Os LLMs tiveram dificuldade em identificar as instruções ocultas (taxa de detecção de injeção muito baixa, < 20% para citações aleatórias).
Desempenho Estatístico:
- Em testes com mais de 10.000 revisões, o método proposto manteve zero falsos positivos (FWER controlado) enquanto alcançava uma Taxa de Verdadeiros Positivos (TPR) de 100% para marcas d'água de citação aleatória.
- Em contraste, a correção de Bonferroni tornou-se infeasível, não permitindo sinalizar nenhuma revisão sob os mesmos limites de erro.

5. Significado e Implicações

Viabilidade Prática: O trabalho demonstra que é possível detectar revisões geradas por IA com alta confiança estatística, mesmo quando o revisor tenta esconder o uso da ferramenta ou parafrasear o texto.
Mudança de Paradigma: Transforma uma vulnerabilidade de segurança (injeção de prompt) em uma ferramenta de defesa para a integridade científica.
Limitações e Futuro: O método depende da capacidade de injetar instruções no PDF antes de ser enviado ao revisor. O artigo também alerta que autores mal-intencionados poderiam usar técnicas semelhantes para enviesar revisões geradas por IA em sua própria favor, destacando a necessidade de salvaguardas contínuas.

Em resumo, o artigo oferece uma solução robusta e estatisticamente fundamentada para um dos maiores desafios éticos atuais na publicação científica: a garantia de que as revisões por pares são, de fato, fruto do julgamento humano crítico.