Each language version is independently generated for its own context, not a direct translation.
Imagine que você está pedindo a um grupo de chefes de cozinha muito talentosos (os Modelos de IA) para escrever um livro de receitas. O problema é que eles não podem usar a internet ou livros de referência enquanto cozinham; eles têm que confiar apenas na memória do que aprenderam no passado.
O que acontece quando você pede a eles: "Escreva uma receita e liste os livros de onde você tirou as ideias"?
Este estudo é como uma inspeção sanitária rigorosa feita por quatro desses chefs (dois famosos e caros, dois mais acessíveis) para ver se as referências que eles citam são reais ou se são apenas alucinações deliciosas, mas falsas.
Aqui está o resumo da história, traduzido para o dia a dia:
1. O Cenário: A Cozinha sob Pressão
Os pesquisadores deram aos chefs tarefas com regras diferentes, como se fossem desafios culinários:
- O Básico: "Faça uma receita normal com 5 referências."
- O Desafio do Tempo: "Faça uma receita, mas todas as referências devem ser de livros publicados apenas nos últimos 5 anos." (Isso é difícil porque a memória deles é mais fraca para coisas recentes).
- O Desafio da Pesquisa: "Faça um resumo de 3 tipos diferentes de receitas com 8 referências no total." (Isso exige muita criatividade e volume).
- O Desafio do Segredo: "Faça a receita, mas não diga que você decorou os livros da sua memória." (Uma regra de "não disclose" comum em empresas).
- O Desafio Supremo: Uma mistura de todos os desafios acima.
2. O Resultado: A "Verificação de Pratos"
Depois que os chefs entregaram as receitas, os pesquisadores foram aos arquivos da biblioteca mundial (Crossref e Semantic Scholar) para verificar se cada livro citado realmente existia.
Eles descobriram coisas preocupantes:
- Nenhum chef foi perfeito: Nem mesmo o chef mais famoso (GPT-4o ou Claude) conseguiu fazer mais de 47% das referências serem reais. Isso significa que, em média, mais da metade das citações eram falsas.
- A Ilusão da Perfeição: O pior de tudo é que as citações falsas pareciam reais. Elas tinham título, autor, ano e até um código de livro (DOI). Era como se o chef escrevesse "Receita de Bolo da Vovó, publicada na Revista de Culinária de 2023, página 42". Tudo parecia correto visualmente, mas se você fosse à biblioteca procurar, o livro não existia.
- O Perigo do "Não Encontrado": Cerca de 40% a 60% das citações caíram numa categoria chamada "Não Resolvido". A IA disse algo que parecia plausível, mas os verificadores não conseguiram confirmar nem negar. A auditoria mostrou que metade desses "não resolvidos" eram, na verdade, mentiras. É como se o chef dissesse: "A receita está num livro antigo que ninguém tem mais", e você não soubesse se ele está mentindo ou se o livro realmente sumiu.
3. Quem Cozinhou Melhor?
- Os Chefes Caros (Proprietários): Os modelos pagos (como o Claude e o GPT-4o) foram melhores que os gratuitos, mas ainda assim falharam muito. Eles tinham uma "memória" um pouco mais rica.
- Os Chefes Gratuitos (Open-Weight): Os modelos de código aberto (como LLaMA e Qwen) tiveram um desempenho muito pior, com quase nenhuma citação real em condições difíceis.
4. O Que Piorou as Coisas?
- A Regra do Tempo: Quando pediram referências apenas de anos recentes, a qualidade despencou. Os chefs obedeceram à regra (escreveram anos corretos), mas inventaram os livros. É como pedir "Receitas de 2024" e o chef inventar um livro que nunca foi publicado naquele ano.
- A Mistura de Regras: Quando todas as regras foram aplicadas juntas, os chefs de código aberto quase pararam de produzir referências reais (chegando a 0,1% de sucesso).
5. A Lição para Nós (Os Comedores)
A mensagem principal deste estudo é um alerta para quem usa Inteligência Artificial para escrever trabalhos acadêmicos, artigos ou relatórios técnicos:
Não confie cegamente na lista de referências da IA.
A IA é ótima em formatar (escrever o nome do autor, o ano, o título), mas péssima em veracidade (garantir que o livro existe).
A analogia final:
Usar uma IA para escrever uma lista de referências sem verificar é como pedir a um amigo que nunca foi à biblioteca para fazer uma lista de livros para você estudar. Ele vai escrever nomes que soam muito reais, mas se você for procurar na prateleira, vai encontrar apenas espaço vazio.
O que fazer?
Se você usar uma IA para escrever algo importante, trate a lista de referências como um rascunho. Você precisa pegar cada "livro" citado, ir à biblioteca (ou ao Google Scholar) e confirmar se ele existe antes de colocá-lo no seu trabalho final. A IA é uma assistente rápida, mas não é uma bibliotecária confiável.