Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Este estudo empírico demonstra que, sob diversas restrições de implantação, quatro modelos de linguagem de grande porte (LLMs) apresentam altas taxas de alucinação de citações bibliográficas, com taxas de existência verificável inferiores a 47,5%, o que reforça a necessidade imperativa de validação pós-geração antes de seu uso em síntese de evidências de engenharia de software.

Chen Zhao, Yuan Tang, Yitian Qian

Publicado Tue, 10 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está pedindo a um grupo de chefes de cozinha muito talentosos (os Modelos de IA) para escrever um livro de receitas. O problema é que eles não podem usar a internet ou livros de referência enquanto cozinham; eles têm que confiar apenas na memória do que aprenderam no passado.

O que acontece quando você pede a eles: "Escreva uma receita e liste os livros de onde você tirou as ideias"?

Este estudo é como uma inspeção sanitária rigorosa feita por quatro desses chefs (dois famosos e caros, dois mais acessíveis) para ver se as referências que eles citam são reais ou se são apenas alucinações deliciosas, mas falsas.

Aqui está o resumo da história, traduzido para o dia a dia:

1. O Cenário: A Cozinha sob Pressão

Os pesquisadores deram aos chefs tarefas com regras diferentes, como se fossem desafios culinários:

  • O Básico: "Faça uma receita normal com 5 referências."
  • O Desafio do Tempo: "Faça uma receita, mas todas as referências devem ser de livros publicados apenas nos últimos 5 anos." (Isso é difícil porque a memória deles é mais fraca para coisas recentes).
  • O Desafio da Pesquisa: "Faça um resumo de 3 tipos diferentes de receitas com 8 referências no total." (Isso exige muita criatividade e volume).
  • O Desafio do Segredo: "Faça a receita, mas não diga que você decorou os livros da sua memória." (Uma regra de "não disclose" comum em empresas).
  • O Desafio Supremo: Uma mistura de todos os desafios acima.

2. O Resultado: A "Verificação de Pratos"

Depois que os chefs entregaram as receitas, os pesquisadores foram aos arquivos da biblioteca mundial (Crossref e Semantic Scholar) para verificar se cada livro citado realmente existia.

Eles descobriram coisas preocupantes:

  • Nenhum chef foi perfeito: Nem mesmo o chef mais famoso (GPT-4o ou Claude) conseguiu fazer mais de 47% das referências serem reais. Isso significa que, em média, mais da metade das citações eram falsas.
  • A Ilusão da Perfeição: O pior de tudo é que as citações falsas pareciam reais. Elas tinham título, autor, ano e até um código de livro (DOI). Era como se o chef escrevesse "Receita de Bolo da Vovó, publicada na Revista de Culinária de 2023, página 42". Tudo parecia correto visualmente, mas se você fosse à biblioteca procurar, o livro não existia.
  • O Perigo do "Não Encontrado": Cerca de 40% a 60% das citações caíram numa categoria chamada "Não Resolvido". A IA disse algo que parecia plausível, mas os verificadores não conseguiram confirmar nem negar. A auditoria mostrou que metade desses "não resolvidos" eram, na verdade, mentiras. É como se o chef dissesse: "A receita está num livro antigo que ninguém tem mais", e você não soubesse se ele está mentindo ou se o livro realmente sumiu.

3. Quem Cozinhou Melhor?

  • Os Chefes Caros (Proprietários): Os modelos pagos (como o Claude e o GPT-4o) foram melhores que os gratuitos, mas ainda assim falharam muito. Eles tinham uma "memória" um pouco mais rica.
  • Os Chefes Gratuitos (Open-Weight): Os modelos de código aberto (como LLaMA e Qwen) tiveram um desempenho muito pior, com quase nenhuma citação real em condições difíceis.

4. O Que Piorou as Coisas?

  • A Regra do Tempo: Quando pediram referências apenas de anos recentes, a qualidade despencou. Os chefs obedeceram à regra (escreveram anos corretos), mas inventaram os livros. É como pedir "Receitas de 2024" e o chef inventar um livro que nunca foi publicado naquele ano.
  • A Mistura de Regras: Quando todas as regras foram aplicadas juntas, os chefs de código aberto quase pararam de produzir referências reais (chegando a 0,1% de sucesso).

5. A Lição para Nós (Os Comedores)

A mensagem principal deste estudo é um alerta para quem usa Inteligência Artificial para escrever trabalhos acadêmicos, artigos ou relatórios técnicos:

Não confie cegamente na lista de referências da IA.

A IA é ótima em formatar (escrever o nome do autor, o ano, o título), mas péssima em veracidade (garantir que o livro existe).

A analogia final:
Usar uma IA para escrever uma lista de referências sem verificar é como pedir a um amigo que nunca foi à biblioteca para fazer uma lista de livros para você estudar. Ele vai escrever nomes que soam muito reais, mas se você for procurar na prateleira, vai encontrar apenas espaço vazio.

O que fazer?
Se você usar uma IA para escrever algo importante, trate a lista de referências como um rascunho. Você precisa pegar cada "livro" citado, ir à biblioteca (ou ao Google Scholar) e confirmar se ele existe antes de colocá-lo no seu trabalho final. A IA é uma assistente rápida, mas não é uma bibliotecária confiável.