Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está pedindo a um grupo de chefes de cozinha muito talentosos (os Modelos de IA) para escrever um livro de receitas. O problema é que eles não podem usar a internet ou livros de referência enquanto cozinham; eles têm que confiar apenas na memória do que aprenderam no passado.

O que acontece quando você pede a eles: "Escreva uma receita e liste os livros de onde você tirou as ideias"?

Este estudo é como uma inspeção sanitária rigorosa feita por quatro desses chefs (dois famosos e caros, dois mais acessíveis) para ver se as referências que eles citam são reais ou se são apenas alucinações deliciosas, mas falsas.

Aqui está o resumo da história, traduzido para o dia a dia:

1. O Cenário: A Cozinha sob Pressão

Os pesquisadores deram aos chefs tarefas com regras diferentes, como se fossem desafios culinários:

O Básico: "Faça uma receita normal com 5 referências."
O Desafio do Tempo: "Faça uma receita, mas todas as referências devem ser de livros publicados apenas nos últimos 5 anos." (Isso é difícil porque a memória deles é mais fraca para coisas recentes).
O Desafio da Pesquisa: "Faça um resumo de 3 tipos diferentes de receitas com 8 referências no total." (Isso exige muita criatividade e volume).
O Desafio do Segredo: "Faça a receita, mas não diga que você decorou os livros da sua memória." (Uma regra de "não disclose" comum em empresas).
O Desafio Supremo: Uma mistura de todos os desafios acima.

2. O Resultado: A "Verificação de Pratos"

Depois que os chefs entregaram as receitas, os pesquisadores foram aos arquivos da biblioteca mundial (Crossref e Semantic Scholar) para verificar se cada livro citado realmente existia.

Eles descobriram coisas preocupantes:

Nenhum chef foi perfeito: Nem mesmo o chef mais famoso (GPT-4o ou Claude) conseguiu fazer mais de 47% das referências serem reais. Isso significa que, em média, mais da metade das citações eram falsas.
A Ilusão da Perfeição: O pior de tudo é que as citações falsas pareciam reais. Elas tinham título, autor, ano e até um código de livro (DOI). Era como se o chef escrevesse "Receita de Bolo da Vovó, publicada na Revista de Culinária de 2023, página 42". Tudo parecia correto visualmente, mas se você fosse à biblioteca procurar, o livro não existia.
O Perigo do "Não Encontrado": Cerca de 40% a 60% das citações caíram numa categoria chamada "Não Resolvido". A IA disse algo que parecia plausível, mas os verificadores não conseguiram confirmar nem negar. A auditoria mostrou que metade desses "não resolvidos" eram, na verdade, mentiras. É como se o chef dissesse: "A receita está num livro antigo que ninguém tem mais", e você não soubesse se ele está mentindo ou se o livro realmente sumiu.

3. Quem Cozinhou Melhor?

Os Chefes Caros (Proprietários): Os modelos pagos (como o Claude e o GPT-4o) foram melhores que os gratuitos, mas ainda assim falharam muito. Eles tinham uma "memória" um pouco mais rica.
Os Chefes Gratuitos (Open-Weight): Os modelos de código aberto (como LLaMA e Qwen) tiveram um desempenho muito pior, com quase nenhuma citação real em condições difíceis.

4. O Que Piorou as Coisas?

A Regra do Tempo: Quando pediram referências apenas de anos recentes, a qualidade despencou. Os chefs obedeceram à regra (escreveram anos corretos), mas inventaram os livros. É como pedir "Receitas de 2024" e o chef inventar um livro que nunca foi publicado naquele ano.
A Mistura de Regras: Quando todas as regras foram aplicadas juntas, os chefs de código aberto quase pararam de produzir referências reais (chegando a 0,1% de sucesso).

5. A Lição para Nós (Os Comedores)

A mensagem principal deste estudo é um alerta para quem usa Inteligência Artificial para escrever trabalhos acadêmicos, artigos ou relatórios técnicos:

Não confie cegamente na lista de referências da IA.

A IA é ótima em formatar (escrever o nome do autor, o ano, o título), mas péssima em veracidade (garantir que o livro existe).

A analogia final:
Usar uma IA para escrever uma lista de referências sem verificar é como pedir a um amigo que nunca foi à biblioteca para fazer uma lista de livros para você estudar. Ele vai escrever nomes que soam muito reais, mas se você for procurar na prateleira, vai encontrar apenas espaço vazio.

O que fazer?
Se você usar uma IA para escrever algo importante, trate a lista de referências como um rascunho. Você precisa pegar cada "livro" citado, ir à biblioteca (ou ao Google Scholar) e confirmar se ele existe antes de colocá-lo no seu trabalho final. A IA é uma assistente rápida, mas não é uma bibliotecária confiável.

Each language version is independently generated for its own context, not a direct translation.

Título: As Restrições de Implantação Fazem os LLMs Alucinar Citações? Um Estudo Empírico em Quatro Modelos e Cinco Regimes de Prompting

1. Problema Investigado

Os Grandes Modelos de Linguagem (LLMs) estão sendo cada vez mais utilizados para redação acadêmica e síntese de evidências em Engenharia de Software (ES). No entanto, eles frequentemente sofrem de alucinação de citações: a geração de referências bibliográficas que parecem legítimas (com autores, veículos, DOIs e anos plausíveis), mas que não correspondem a trabalhos reais verificáveis.

O estudo foca em uma lacuna crítica: como restrições de implantação realistas afetam a verificabilidade dessas citações em um cenário de "livro fechado" (sem acesso a ferramentas de busca externas durante a geração). As restrições analisadas incluem:

Restrições Temporais: Janelas de tempo estritas para publicação.
Pressão de Abrangência (Estilo de Pesquisa): Solicitação de sínteses de trabalhos relacionados com múltiplas categorias.
Políticas de Não Divulgação: Instruções para não alegar acesso a documentos memorizados do conjunto de treinamento.

2. Metodologia

Conjunto de Dados e Tarefa

Claims (Afirmações): 144 prompts de estilo de pergunta (ex: "Quais evidências suportam...") cobrindo seis domínios acadêmicos, incluindo 24 especificamente em Engenharia de Software e Ciência da Computação.
Modelos Avaliados:
- Proprietários: Claude Sonnet (Anthropic) e GPT-4o (OpenAI).
- Open-weight (Pesos Abertos): LLaMA 3.1–8B (Meta) e Qwen 2.5–14B (Alibaba).
Regimes de Prompting (5 Condições):
1. Baseline: Parágrafo acadêmico padrão com 5 citações.
2. Temporal: Janela de ano de publicação estrita (focada em literatura recente).
3. Survey: Síntese de "trabalhos relacionados" organizada em categorias (8 citações).
4. Non-Disclosure: Instrução para não reivindicar acesso a dados de treinamento.
5. Combo: Combinação de todas as três restrições acima.

Pipeline de Verificação Automática

Os autores desenvolveram um pipeline determinístico para verificar cada citação gerada:

Parsing: Extração estruturada de campos (título, autores, veículo, ano, DOI).
Recuperação de Candidatos: Busca simultânea no Crossref e Semantic Scholar usando o DOI (se fornecido) ou o título.
Pontuação (Scoring): Um algoritmo calcula uma pontuação de similaridade ponderada ( $s$ ):
$s = 0.60 \cdot t + 0.20 \cdot a + 0.15 \cdot y + 0.05 \cdot v$
Onde $t$ é similaridade fuzzy do título, $a$ é sobreposição de sobrenomes de autores, $y$ é concordância de ano e $v$ é similaridade do veículo.
Classificação (Taxonomia de 3 Vias):
- Existente (Existing): Pontuação $\ge 0.85$ (corresponde a um trabalho real).
- Não Resolvido (Unresolved): Pontuação entre $0.60 $e$ 0.85$ (metadados incompletos ou conflitantes; inclui tanto trabalhos reais difíceis de confirmar quanto falsificações parciais).
- Fabricado (Fabricated): Pontuação $< 0.60$ ou nenhum candidato encontrado.

Validação

O pipeline foi validado contra uma amostra manual de 100 citações, resultando em 75% de concordância e um $\kappa$ de Cohen de 0,63 em relação a rótulos humanos.

3. Principais Resultados

Desempenho Geral

Nenhum modelo alcançou uma taxa de existência acima de 0,50. O melhor desempenho foi do Claude Sonnet na condição Survey (0,475).
A maioria das citações é "Não Resolvida" (36–61%): Esta categoria domina os resultados. Auditorias manuais mostraram que quase metade das citações "Não Resolvidas" são, na verdade, fabricadas, indicando que uma classificação binária (Real/Falso) esconderia um grande risco.

Impacto das Restrições (RQ1)

Restrições Temporais: Causaram a queda mais acentuada na verificabilidade. O GPT-4o caiu de 0,235 (Baseline) para 0,019 (Temporal). Os modelos de pesos abertos caíram para níveis próximos de zero.
- Observação Crítica: Os modelos obedeceram à restrição de ano (formato correto), mas não conseguiram gerar referências verificáveis dentro dessa janela. A conformidade de formato mascarou a perda total de substância.
Estilo de Pesquisa (Survey): Aumentou a pressão, mas o Claude Sonnet melhorou ligeiramente sua taxa de existência (0,381 para 0,475), enquanto os modelos abertos pioraram significativamente.
Não Divulgação: Redistribuiu os erros, movendo citações da categoria "Existente" para "Não Resolvida" (principalmente devido à omissão de DOIs), tornando os erros mais difíceis de detectar automaticamente.

Diferença Proprietário vs. Open-weight (RQ2)

Existe uma lacuna estatisticamente significativa entre modelos proprietários e open-weight em todas as condições.
Na condição Survey, essa lacuna atingiu seu pico ( $\Delta = +0,310$ ).
Modelos abertos (LLaMA e Qwen) apresentaram taxas de fabricação extremamente altas (chegando a 0,547 no Qwen sob Survey), enquanto os proprietários mantiveram taxas de existência mais baixas, mas não nulas.

Combinação de Restrições (RQ3)

A condição Combo produziu os piores resultados. Três dos quatro modelos tiveram taxas de existência próximas de zero. Apenas o Claude Sonnet manteve uma taxa não trivial (0,106), embora ainda muito baixa.
Os modelos continuaram gerando um alto volume de citações (7,4–8,0 por claim) mesmo quando a verificabilidade estava praticamente destruída.

4. Contribuições

Conjunto de Dados Curado: 144 afirmações cobrindo múltiplos domínios, com foco em Engenharia de Software.
Pipeline de Verificação Determinístico: Uma ferramenta automatizada com taxonomia de três vias (Existente, Não Resolvido, Fabricado) e validação humana, disponível publicamente.
Análise Empírica de Restrições: Evidência de que restrições de implantação (especialmente temporais) degradam severamente a qualidade das citações, mesmo mantendo a conformidade de formato.
Descoberta da Lacuna Proprietário-Open: Demonstração de que modelos proprietários superam consistentemente os open-weight em tarefas de citação, mas nenhum atinge um nível de confiabilidade aceitável para uso acadêmico direto.

5. Significado e Implicações

Para Engenharia de Software (ES): Como revisões sistemáticas de literatura (SLRs) e síntese de evidências são centrais na ES, o uso de LLMs para gerar referências sem verificação posterior é perigoso. As citações alucinadas podem propagar-se através de pipelines de pesquisa.
Falha de Conformidade de Formato: A verificação de formato (ex: presença de DOI, ano correto) é insuficiente. Os modelos podem gerar metadados perfeitamente estruturados que não correspondem a nenhuma obra real.
Recomendação Prática: Nenhuma lista de referências gerada por LLM deve ser incluída em revisões de literatura ou relatórios técnicos sem verificação post-hoc independente contra bases de dados acadêmicas (Crossref, Semantic Scholar, DBLP).
Futuro: A solução para alucinação de citações provavelmente não virá apenas de engenharia de prompts, mas exigirá arquiteturas aumentadas por recuperação (RAG) e mecanismos de verificação embutidos.

Em resumo, o estudo conclui que as restrições de implantação tornam a alucinação de citações mais frequente e mais difícil de detectar, exigindo cautela extrema e verificação humana ou automatizada rigorosa antes de qualquer uso acadêmico ou profissional.