How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Each language version is independently generated for its own context, not a direct translation.

Imagine que você contratou um bibliotecário superinteligente (o Modelo de Linguagem) para responder perguntas baseadas apenas em uma pilha de documentos que você forneceu. A grande preocupação das empresas é: "Esse bibliotecário vai inventar coisas que não estão nos livros?"

Este estudo, feito por pesquisadores da Kamiwaza AI, é como um teste de estresse gigante para ver quantos desses bibliotecários mentem. Eles não usaram perguntas prontas da internet (que os modelos poderiam ter "decorado" antes), mas criaram um universo de documentos e perguntas do zero, garantindo que a resposta certa fosse conhecida por eles, mas não pelo modelo.

Aqui está o resumo da pesquisa, traduzido para o dia a dia:

1. O Tamanho do Problema: "Nenhum é Perfeito"

Mesmo os melhores bibliotecários do mundo inventam respostas.

A Regra de Ouro: Não existe "zero mentiras". Mesmo o modelo mais inteligente (GLM 4.5) ainda inventa cerca de 1,2% das respostas quando o contexto é curto.
A Média: Para a maioria dos modelos, 1 em cada 4 perguntas sobre algo que não existe no documento recebe uma resposta inventada e confiante.
Analogia: É como pedir para um funcionário ler um manual de instruções. Mesmo os melhores erram ou inventam um passo que não está lá, mas a maioria erra muito mais.

2. O Efeito "Pilha de Papel" (Contexto Longo)

Quanto mais documentos você joga na mesa, pior o desempenho.

32K tokens (Poucos documentos): O modelo funciona bem.
128K tokens (Muitos documentos): A taxa de invenção quase triplica.
200K tokens (Uma biblioteca inteira): O modelo entra em colapso. A taxa de invenção passa de 10% para a maioria, e alguns modelos chegam a inventar 70% das respostas.
Analogia: Imagine tentar encontrar uma agulha em um palheiro. Se o palheiro é pequeno, você acha. Se o palheiro é do tamanho de um estádio de futebol, você começa a alucinar e inventar agulhas que não existem só para não ficar de mãos vazias. O tamanho do contexto anunciado pelo fabricante não significa que o modelo consegue usá-lo com segurança.

3. O Segredo não é o Tamanho, é a "Personalidade" (Família do Modelo)

Muitas pessoas acham que modelos maiores (com mais "cérebro") são melhores. O estudo diz: Nem sempre.

O que importa: A "família" do modelo (como foi treinado) importa mais que o tamanho.
O Exemplo: Um modelo gigante da família Llama (com 405 bilhões de parâmetros) inventou quase tanto quanto um modelo pequeno da mesma família. Já modelos da família GLM ou MiniMax, mesmo sendo menores, foram muito mais honestos e menos propensos a inventar.
Analogia: Ter um cérebro gigante não significa ser honesto. Um modelo pequeno e bem treinado para "não mentir" é melhor que um gigante que adora inventar histórias.

4. O Dilema do "Botão de Temperatura"

Na programação de IA, existe um botão chamado "Temperatura".

A Sabedoria Popular: "Sempre deixe a temperatura no zero (T=0) para ser preciso."
A Descoberta: Isso é um mito perigoso.
- T=0 (Zero): O modelo fica muito "teimoso" e repetitivo. Em contextos longos, ele pode entrar em loops infinitos (ficar repetindo a mesma frase para sempre), travando o sistema.
- T=0.7 ou 1.0 (Mais quente): O modelo fica mais criativo, mas inventa menos em muitos casos e, crucialmente, não trava.
Analogia: Deixar a temperatura no zero é como pedir para um funcionário ler em voz baixa e sem respirar. Ele pode ficar preso em uma palavra e nunca terminar a frase. Aumentar um pouco a temperatura é como deixar ele respirar e pensar, o que evita que ele trave, mesmo que ele fale um pouco mais livremente.

5. Encontrar vs. Inventar (Duas Habilidades Diferentes)

O estudo descobriu algo surpreendente: Saber encontrar a informação certa não significa saber evitar inventar a errada.

Um modelo pode ser excelente em achar um fato no documento (90% de acerto), mas quando você pergunta sobre algo que não está no documento, ele inventa uma resposta com 50% de chance de erro.
Analogia: Imagine um detetive que é ótimo em encontrar pistas reais (alta "fundamentação"), mas que, quando não tem pista, decide inventar uma teoria falsa para não parecer inútil (alta "invenção"). Você precisa treinar o modelo especificamente para dizer "não sei" quando a resposta não está no texto.

6. O Hardware Não Importa

Fizeram os testes em chips da NVIDIA, AMD e Intel.

Resultado: O resultado foi praticamente o mesmo em todos.
Conclusão: Não se preocupe se vai usar um chip da AMD ou da NVIDIA para a precisão da resposta. A escolha deve ser baseada no preço e na velocidade, não no medo de o modelo "mentir mais" em uma plataforma específica.

Resumo Final para o Dia a Dia

Se você vai usar IA para responder perguntas baseadas em documentos da sua empresa:

Escolha o modelo certo, não o maior: Procure modelos conhecidos por serem "honestos" (como GLM ou MiniMax neste estudo), não apenas os mais pesados.
Cuidado com documentos gigantes: Se você jogar 200 mil palavras de texto de uma vez, espere o modelo começar a alucinar muito. Divida os documentos.
Não use "Temperatura Zero" cegamente: Em contextos longos, isso pode travar seu sistema. Um valor médio (como 0.4 ou 0.7) pode ser mais seguro e eficiente.
Tenha um "Segurança": Como nenhum modelo é perfeito, você precisa de um sistema extra para verificar se a resposta inventada ou não. A IA vai mentir eventualmente; o segredo é detectar isso.

Em suma: A IA é uma ferramenta poderosa, mas ainda é como um estagiário brilhante que, às vezes, quando não sabe a resposta, inventa uma para parecer esperto. Cabe a nós, humanos, supervisionar.

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

1. O Tamanho do Problema: "Nenhum é Perfeito"

2. O Efeito "Pilha de Papel" (Contexto Longo)

3. O Segredo não é o Tamanho, é a "Personalidade" (Família do Modelo)

4. O Dilema do "Botão de Temperatura"

5. Encontrar vs. Inventar (Duas Habilidades Diferentes)

6. O Hardware Não Importa

Resumo Final para o Dia a Dia

1. O Problema

2. Metodologia: RIKER

3. Principais Contribuições e Resultados

A. Taxas de Alucinação (Fabricação)

B. Seleção de Modelo vs. Tamanho

C. Efeitos da Temperatura

D. Hardware

E. Desacoplamento de Capacidades

4. Significado e Implicações Práticas

Conclusão

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

1. O Tamanho do Problema: "Nenhum é Perfeito"

2. O Efeito "Pilha de Papel" (Contexto Longo)

3. O Segredo não é o Tamanho, é a "Personalidade" (Família do Modelo)

4. O Dilema do "Botão de Temperatura"

5. Encontrar vs. Inventar (Duas Habilidades Diferentes)

6. O Hardware Não Importa

Resumo Final para o Dia a Dia

1. O Problema

2. Metodologia: RIKER

3. Principais Contribuições e Resultados

A. Taxas de Alucinação (Fabricação)

B. Seleção de Modelo vs. Tamanho

C. Efeitos da Temperatura

D. Hardware

E. Desacoplamento de Capacidades

4. Significado e Implicações Práticas

Conclusão

Mais como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models