How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

该研究通过 RIKER 方法在 1720 亿 tokens 的超大规模评估中发现,尽管模型选择是影响幻觉率的最关键因素,但所有模型在长上下文(尤其是 200K 时)中仍会出现显著的事实编造现象,且温度设置需在准确性与生成稳定性之间进行权衡,而硬件平台对结果无显著影响。

JV Roig

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“大型语言模型(LLM)在查阅文档时的诚实度体检报告”**。

想象一下,你雇佣了一群超级聪明的“图书管理员”(也就是 AI 模型),给他们一本厚厚的书(文档),然后问他们:“书里有没有提到某件事?”

这篇研究的核心问题就是:这些图书管理员在回答问题时,有多少次会为了显得自己很懂,而凭空捏造书里根本没有的内容(也就是“幻觉”)?

为了回答这个问题,研究团队(Kamiwaza AI)进行了一场史无前例的“大考”。他们测试了 35 个不同的模型,用了相当于1720 亿个单词的阅读量(这比人类几辈子读的书还多),并且把考试难度从“短文章”一直加到了“超长百科全书”。

以下是用大白话和比喻总结的五个核心发现:

1. 没有完美的“诚实者”:幻觉是不可避免的

比喻: 就像没有哪个学生能考 100 分一样,没有哪个 AI 模型能完全不撒谎

  • 发现: 即使在最理想的条件下(短文档、最佳设置),表现最好的模型也会犯错。
    • 顶尖选手(如 GLM 4.5):每回答 100 个问题,大概会瞎编 1-2 个答案。
    • 普通选手:每 4 个问题里,就有 1 个是瞎编的。
    • 结论: 企业在使用 AI 查文档时,必须假设它一定会偶尔胡说八道,不能盲目全信。

2. 文档越长,越容易“胡言乱语”

比喻: 想象让一个学生在一张纸条上找答案,他很容易找对。但如果让他在一座图书馆(超长文档)里找答案,他不仅容易迷路,还更容易因为压力大而开始编故事

  • 发现: 随着文档长度增加(从 3 万字到 20 万字),AI 的“撒谎率”急剧上升。
    • 在短文档中,最好的模型撒谎率只有 1%。
    • 在超长文档中,没有任何模型能把撒谎率控制在 10% 以下。有些模型在超长文档里,甚至每 3 个问题就敢编 2 个
  • 警示: 厂商宣传的“支持 20 万字上下文”,并不代表它能可靠地处理 20 万字。在这个长度下,很多模型其实已经“崩溃”了。

3. 选对“人”比选对“工具”更重要

比喻: 如果你要找一个侦探破案,侦探的家族训练背景(模型家族) 比他的个头大小(参数量) 更重要。

  • 发现:
    • 家族决定命运: 有些模型家族(如 GLM、MiniMax)天生就“嘴严”,不容易乱编。而有些家族(如 Llama 系列),不管个头多大(哪怕是巨大的 405B 参数),都特别爱“瞎编”。
    • 个头不是万能的: 一个巨大的模型(Llama 3.1 405B)在找事实方面很厉害(90% 正确),但它编造不存在事实的能力也极强(50% 撒谎)。
  • 建议: 企业选模型时,不要只看谁参数大,要看谁“家族基因”里更诚实。

4. 温度设置(Temperature):别死板地设为 0

比喻: “温度”就像 AI 的兴奋程度

  • 传统误区: 大家都认为把温度设为 0(最冷静、最死板)最准确。
  • 研究发现:
    • 关于撒谎: 把温度设高一点(比如 0.7),反而能让很多模型少撒谎,因为它们更愿意尝试不同的思路,而不是死板地重复错误。
    • 关于“死循环”: 把温度设为 0 有一个巨大的副作用——AI 容易卡死(陷入无限循环,像复读机一样不停说话)。在长文档中,设为 0 导致卡死的概率比设为 1 高出48 倍
  • 建议: 不要盲目设 0。为了不让 AI 卡死,稍微给它一点“自由度”(温度 0.4 或 0.7)反而更安全、更稳定。

5. 硬件不重要,但“找东西”和“不瞎编”是两码事

  • 硬件: 无论你用 NVIDIA、AMD 还是 Intel 的显卡,只要软件一样,AI 的表现就几乎没区别。选硬件时,看价格和速度就行,不用太担心它会改变 AI 的智商。
  • 能力分离: 这是一个惊人的发现——“找得到答案”和“不乱编答案”是两种完全不同的能力
    • 有些模型是“找书高手”,能在书里精准定位信息,但一旦书里没答案,它就立刻开始编
    • 有些模型则是“诚实的笨蛋”,找不到答案就老实说“不知道”。
    • 教训: 现在的很多测试只考“找书能力”,这很危险。一个能精准找到信息的模型,可能同时也是一个高明的骗子。

总结:给企业的“避坑指南”

  1. 别信“零幻觉”: 接受 AI 会偶尔撒谎的事实,建立人工审核或自动检测机制。
  2. 别盲目追求长文档: 如果文档太长,AI 可能会“晕头转向”开始乱编。如果必须处理长文档,要格外小心。
  3. 选对“家族”: 优先选择那些在“诚实度”上经过验证的模型家族,而不是只看参数大小。
  4. 调整“温度”: 别死守温度 0,适当调高一点可以防止 AI 卡死,甚至减少撒谎。
  5. 测试要真实: 别只在短文档上测试 AI,要在实际业务需要的长文档长度下测试,否则会被“虚假的高分”误导。

这篇论文告诉我们:AI 很强大,但它也是个会“一本正经胡说八道”的聪明人。我们需要更聪明地管理和使用它,而不是盲目崇拜它。