How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“大型语言模型（LLM）在查阅文档时的诚实度体检报告”**。

想象一下，你雇佣了一群超级聪明的“图书管理员”（也就是 AI 模型），给他们一本厚厚的书（文档），然后问他们：“书里有没有提到某件事？”

这篇研究的核心问题就是：这些图书管理员在回答问题时，有多少次会为了显得自己很懂，而凭空捏造书里根本没有的内容（也就是“幻觉”）？

为了回答这个问题，研究团队（Kamiwaza AI）进行了一场史无前例的“大考”。他们测试了 35 个不同的模型，用了相当于1720 亿个单词的阅读量（这比人类几辈子读的书还多），并且把考试难度从“短文章”一直加到了“超长百科全书”。

以下是用大白话和比喻总结的五个核心发现：

1. 没有完美的“诚实者”：幻觉是不可避免的

比喻： 就像没有哪个学生能考 100 分一样，没有哪个 AI 模型能完全不撒谎。

发现： 即使在最理想的条件下（短文档、最佳设置），表现最好的模型也会犯错。
- 顶尖选手（如 GLM 4.5）：每回答 100 个问题，大概会瞎编 1-2 个答案。
- 普通选手：每 4 个问题里，就有 1 个是瞎编的。
- 结论： 企业在使用 AI 查文档时，必须假设它一定会偶尔胡说八道，不能盲目全信。

2. 文档越长，越容易“胡言乱语”

比喻： 想象让一个学生在一张纸条上找答案，他很容易找对。但如果让他在一座图书馆（超长文档）里找答案，他不仅容易迷路，还更容易因为压力大而开始编故事。

发现： 随着文档长度增加（从 3 万字到 20 万字），AI 的“撒谎率”急剧上升。
- 在短文档中，最好的模型撒谎率只有 1%。
- 在超长文档中，没有任何模型能把撒谎率控制在 10% 以下。有些模型在超长文档里，甚至每 3 个问题就敢编 2 个！
警示： 厂商宣传的“支持 20 万字上下文”，并不代表它能可靠地处理 20 万字。在这个长度下，很多模型其实已经“崩溃”了。

3. 选对“人”比选对“工具”更重要

比喻： 如果你要找一个侦探破案，侦探的家族训练背景（模型家族） 比他的个头大小（参数量） 更重要。

发现：
- 家族决定命运： 有些模型家族（如 GLM、MiniMax）天生就“嘴严”，不容易乱编。而有些家族（如 Llama 系列），不管个头多大（哪怕是巨大的 405B 参数），都特别爱“瞎编”。
- 个头不是万能的： 一个巨大的模型（Llama 3.1 405B）在找事实方面很厉害（90% 正确），但它编造不存在事实的能力也极强（50% 撒谎）。
建议： 企业选模型时，不要只看谁参数大，要看谁“家族基因”里更诚实。

4. 温度设置（Temperature）：别死板地设为 0

比喻： “温度”就像 AI 的兴奋程度。

传统误区： 大家都认为把温度设为 0（最冷静、最死板）最准确。
研究发现：
- 关于撒谎： 把温度设高一点（比如 0.7），反而能让很多模型少撒谎，因为它们更愿意尝试不同的思路，而不是死板地重复错误。
- 关于“死循环”： 把温度设为 0 有一个巨大的副作用——AI 容易卡死（陷入无限循环，像复读机一样不停说话）。在长文档中，设为 0 导致卡死的概率比设为 1 高出48 倍！
建议： 不要盲目设 0。为了不让 AI 卡死，稍微给它一点“自由度”（温度 0.4 或 0.7）反而更安全、更稳定。

5. 硬件不重要，但“找东西”和“不瞎编”是两码事

硬件： 无论你用 NVIDIA、AMD 还是 Intel 的显卡，只要软件一样，AI 的表现就几乎没区别。选硬件时，看价格和速度就行，不用太担心它会改变 AI 的智商。
能力分离： 这是一个惊人的发现——“找得到答案”和“不乱编答案”是两种完全不同的能力。
- 有些模型是“找书高手”，能在书里精准定位信息，但一旦书里没答案，它就立刻开始编。
- 有些模型则是“诚实的笨蛋”，找不到答案就老实说“不知道”。
- 教训： 现在的很多测试只考“找书能力”，这很危险。一个能精准找到信息的模型，可能同时也是一个高明的骗子。

总结：给企业的“避坑指南”

别信“零幻觉”： 接受 AI 会偶尔撒谎的事实，建立人工审核或自动检测机制。
别盲目追求长文档： 如果文档太长，AI 可能会“晕头转向”开始乱编。如果必须处理长文档，要格外小心。
选对“家族”： 优先选择那些在“诚实度”上经过验证的模型家族，而不是只看参数大小。
调整“温度”： 别死守温度 0，适当调高一点可以防止 AI 卡死，甚至减少撒谎。
测试要真实： 别只在短文档上测试 AI，要在实际业务需要的长文档长度下测试，否则会被“虚假的高分”误导。

这篇论文告诉我们：AI 很强大，但它也是个会“一本正经胡说八道”的聪明人。我们需要更聪明地管理和使用它，而不是盲目崇拜它。

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

1. 没有完美的“诚实者”：幻觉是不可避免的

2. 文档越长，越容易“胡言乱语”

3. 选对“人”比选对“工具”更重要

4. 温度设置（Temperature）：别死板地设为 0

5. 硬件不重要，但“找东西”和“不瞎编”是两码事

总结：给企业的“避坑指南”

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 实验设计 (Experimental Design)

4. 关键发现 (Key Results)

4.1 幻觉是普遍且不可避免的

4.2 上下文长度是性能下降的主要驱动力

4.3 模型选择优于模型大小

4.4 温度设置的双重影响

4.5 硬件平台无关性

4.6 检索能力与抗幻觉能力解耦

5. 研究意义与贡献 (Significance & Contributions)

6. 局限性

总结

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

1. 没有完美的“诚实者”：幻觉是不可避免的

2. 文档越长，越容易“胡言乱语”

3. 选对“人”比选对“工具”更重要

4. 温度设置（Temperature）：别死板地设为 0

5. 硬件不重要，但“找东西”和“不瞎编”是两码事

总结：给企业的“避坑指南”

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 实验设计 (Experimental Design)

4. 关键发现 (Key Results)

4.1 幻觉是普遍且不可避免的

4.2 上下文长度是性能下降的主要驱动力

4.3 模型选择优于模型大小

4.4 温度设置的双重影响

4.5 硬件平台无关性

4.6 检索能力与抗幻觉能力解耦

5. 研究意义与贡献 (Significance & Contributions)

6. 局限性

总结

类似论文

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models