Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

Este artigo apresenta o framework PaperRecon e o benchmark PaperWrite-Bench para avaliar sistematicamente a qualidade e os riscos de artigos escritos por agentes de IA, revelando um compromisso entre a qualidade da apresentação e a alucinação de conteúdo em modelos como ClaudeCode e Codex.

Atsuyuki Miyai, Mashiro Toyooka, Zaiying Zhao, Kenta Watanabe, Toshihiko Yamasaki, Kiyoharu Aizawa

Publicado 2026-04-02
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um receituário de bolo muito detalhado, escrito por um grande chef. Esse receituário contém a lista de ingredientes, o passo a passo da mistura, o tempo de forno e até fotos do bolo pronto.

Agora, imagine que você dá esse receituário para um robô cozinheiro (uma Inteligência Artificial) e pede: "Faça exatamente este bolo, mas usando apenas este resumo e algumas fotos".

O que acontece?

  1. O robô pode fazer um bolo que parece lindo por fora (a casca é dourada, o formato é perfeito), mas que por dentro está cru ou tem ingredientes errados.
  2. Ou o robô pode fazer um bolo que é seguro e correto, mas que parece um pouco "feio" ou desajeitado.

Este artigo de pesquisa é como um teste de cozinha para ver quão bons são esses robôs cozinheiros (as IAs) quando tentam escrever artigos científicos complexos.

Aqui está a explicação do que os pesquisadores descobriram, usando analogias simples:

1. O Grande Teste: "Reconstrução de Papel"

Os pesquisadores criaram um jogo chamado PaperRecon.

  • O Jogo: Eles pegaram 51 artigos científicos reais e premiados (como se fossem receitas de chefs famosos).
  • O Desafio: Eles esconderam o texto original e deram apenas um resumo curto (o "overview") e algumas fotos/tabelas para a IA.
  • A Tarefa: A IA tinha que reescrever o artigo inteiro do zero, como se ela fosse o autor original.

Depois, eles compararam o "bolo" feito pela IA com o "bolo" original para ver duas coisas principais:

  1. Apresentação: O bolo parece bonito? A escrita é fluida e organizada?
  2. Alucinação (Hallucination): O bolo tem ingredientes que não existem? O robô inventou fatos que não estavam no receituário original?

2. O Confronto: "O Artista vs. O Cético"

Eles testaram dois tipos de robôs famosos: o Claude Code (da Anthropic) e o Codex (da OpenAI).

  • O Claude Code (O Artista):

    • Pontos Fortes: Escreve de forma muito elegante. O texto flui bem, parece profissional e cobre todos os pontos importantes. É como um bolo que fica lindo na vitrine.
    • O Problema: Ele é um sonhador perigoso. Para deixar o texto bonito, ele inventa coisas. Em média, ele inventou mais de 10 mentiras (alucinações) por artigo. Ele pode dizer que um experimento deu um resultado que nunca aconteceu, só para o texto fazer sentido.
    • Analogia: É como um pintor que pinta um retrato perfeito, mas muda a cor dos olhos da pessoa para combinar com a paisagem, mesmo que a pessoa não tenha aqueles olhos.
  • O Codex (O Cético):

    • Pontos Fortes: É muito fiel à verdade. Ele inventa muito pouco (cerca de 3 mentiras por artigo). Se o original não diz que o bolo ficou doce, ele não inventa que ficou doce.
    • O Problema: A escrita é mais "seca" e menos organizada. O texto parece menos polido.
    • Analogia: É como um cozinheiro que segue a receita à risca, mas o bolo fica meio torto e a apresentação é simples.

3. A Lição Principal: O "Dilema do Bolo"

A descoberta mais importante do artigo é que existe um trade-off (uma troca difícil):

  • Quanto mais a IA tenta escrever de forma bonita e fluida, mais ela tende a inventar fatos.
  • Quanto mais ela tenta ser segura e fiel, mais o texto fica menos atraente.

Isso é perigoso para a ciência. Imagine se um robô escrevesse um artigo médico dizendo que uma cura funciona (porque o texto é convincente), mas os dados inventados são falsos. Isso poderia enganar outros cientistas e até colocar vidas em risco.

4. O Que os Robôs Aprenderam?

Os pesquisadores também viram que, conforme os robôs ficam mais inteligentes (modelos mais novos), eles melhoram em ambos os lados, mas o problema das mentiras ainda persiste. O "Artista" continua sendo mais bonito, mas ainda mais mentiroso.

Resumo Final

Este artigo é um alerta. Ele nos diz que, embora as IAs estejam ficando incríveis em escrever textos que parecem científicos e profissionais, elas ainda são como crianças que adoram inventar histórias.

Se usarmos essas IAs para escrever pesquisas sem supervisão humana rigorosa, podemos acabar com uma "floresta de mentiras" que parecem verdadeiras. O artigo sugere que precisamos de novos métodos para checar não apenas se o texto está bem escrito, mas se ele está verdadeiro.

Em suma: A IA é ótima em fazer o "palco" parecer real, mas precisamos de um diretor humano para garantir que a "peça" que está sendo apresentada seja, de fato, a verdade.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →