How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

该研究通过对 10 个主流大语言模型在四个学术领域进行的近 7 万次引用审计,量化了引用幻觉的广泛性及其受模型、领域和提示词的影响,并提出了多模型共识、提示内重复验证以及基于书目特征的分类器三种有效检测与缓解方法。

MZ Naser

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次对AI 写论文时的“编造参考文献”行为进行的超级大体检。

想象一下,你让一个非常聪明的学生(AI)帮你写一份关于“气候变化”或“人工智能”的学术报告,并让他列出参考书目。你本以为他会去图书馆查资料,结果发现,他有时候会一本正经地胡说八道,编造出一些看起来非常真实、格式完美,但根本不存在的论文和作者。

这篇论文的作者(M.Z. Naser 博士)为了搞清楚这件事有多严重,搞了一场大规模的“捉鬼行动”。

以下是这篇论文的通俗解读:

1. 这场“捉鬼行动”有多大?

作者找了 10 个 目前市面上最火的 AI 模型(比如 GPT-4o, Claude, Llama 等),让它们在不同的学科领域(如工程、医学、AI 本身)里生成参考文献。

  • 总产量:它们一共“编造”或“引用”了 近 7 万条 参考文献。
  • 大排查:作者把这些引用拿去三个巨大的学术数据库(CrossRef, OpenAlex, Semantic Scholar)里核对。
  • 结果:发现这些 AI 的“撒谎率”差别巨大。有的 AI 很老实,撒谎率只有 11%;有的 AI 则是个“大骗子”,撒谎率高达 57%

2. 核心发现:AI 为什么会撒谎?

🎭 发现一:AI 不会“主动”撒谎,是“被问”才撒谎的

这是一个非常有趣的发现。作者做了一个实验:如果不问 AI“请列出参考文献”,只是让它写文章,没有任何一个 AI 会主动编造参考文献

  • 比喻:这就像是一个厨师,如果你不让他“做一道菜”,他绝不会凭空变出一盘菜。只有当你明确说“给我列个菜单”时,他为了完成任务,才会开始瞎编。
  • 结论:撒谎不是 AI 的“本性”,而是因为它太想满足你的要求了,于是开始“脑补”。

🕰️ 发现二:越“新”的东西,越容易编

如果你让 AI 找“最近 5 年”的热门研究,它的撒谎率比找“几十年前的经典老论文”要高得多。

  • 比喻:AI 的大脑(训练数据)里存了很多老书,但新书可能还没完全读进去。当你要它找新书时,它记不住,为了交差,它就“现编”了一个听起来很像那么回事的新书名。

📚 发现三:不同领域的“撒谎”程度不同

  • AI 和语言学领域:AI 最诚实,因为它的训练数据里全是这些内容。
  • 土木工程领域:AI 最爱撒谎,因为这方面的专业资料在它的“大脑”里相对较少,它更容易“瞎编”。

3. 怎么识别和防止 AI 撒谎?(三个实用锦囊)

既然 AI 爱撒谎,我们该怎么办?作者给出了三个简单有效的“防骗指南”:

锦囊一:人多力量大(多模型共识)

如果你让 3 个不同的 AI 同时回答同一个问题,并且它们都引用了同一篇论文,那么这篇论文是真的概率高达 95.6%

  • 比喻:就像三个不同的侦探去查案,如果他们都指认同一个人是凶手,那这个人大概率就是凶手。如果只有一个人说,那可能是他在瞎编。
  • 建议:写论文时,别只问一个 AI,多问几个,看它们“撞车”的引用。

锦囊二:事不过三(重复验证)

如果你让同一个 AI 把同一个问题问三遍,如果它三次都给出了完全一样的引用,那这篇论文是真的概率也很高(88.9%)。

  • 比喻:如果一个人编故事,每次讲细节都不一样;但如果他每次讲的故事细节都一模一样,那说明这个故事是“背下来”的(真的存在),而不是现场瞎编的。

锦囊三:一眼识破(AI 检测器)

作者训练了一个小工具,不需要去查数据库,光看引用的文字特征就能判断真假。

  • 怎么骗过它? 假的引用通常有一些“破绽”:
    • 作者名字太短:真的论文通常有很多作者,假的引用往往只写一两个,或者名字看起来很奇怪。
    • 没有"et al.":真的长论文通常会写“作者 A 等”,假的引用往往不敢写“等”。
    • 年份太新:AI 编造时,喜欢编造最近一两年的论文。
  • 比喻:这就像警察看假钞,虽然假钞印得很像,但纸张的纹理、水印的深浅(也就是作者名字的长度、年份的分布)总是有破绽的。这个小工具就是专门抓这些破绽的。

4. 一个令人惊讶的“退步”现象

作者发现,并不是 AI 越新就越聪明。

  • OpenAI 的 GPT-5 比 GPT-4 进步巨大,撒谎少了 34%。
  • 但是,Anthropic 的 Claude 4.5 却比 Claude 3.5 退步了,撒谎率反而增加了 8%。
  • 结论:AI 的进化不是线性的。有时候为了安全或别的调整,反而让它在“编造文献”这件事上变得更不靠谱了。

5. 总结:这对我们意味着什么?

  1. 不要全信 AI:AI 生成的参考文献列表,必须人工核对。不能直接复制粘贴到论文里。
  2. 撒谎是“被诱导”的:只要你不让它列参考文献,它就不会编。
  3. 有办法防
    • 多问几个 AI,看它们是否“串通”(共识)。
    • 多问几次同一个 AI,看它是否“背得出来”(重复)。
    • 用作者开发的小工具先扫一遍,把明显的假引用过滤掉。

一句话总结
AI 是个才华横溢但偶尔会“开小差”的学生。它不会无缘无故撒谎,但当你逼它交作业(列参考文献)时,它可能会为了完成任务而“蒙”你。作为老师(研究者),我们需要用“多人核对”和“细节检查”来防止它蒙混过关。