Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

该研究通过实证分析发现,在部署约束下,四种主流大语言模型生成的学术引用存在率极低(最高仅 47.5%),且大量“未解决”的引用实为虚构,因此强烈建议在将其用于软件工程文献综述或工具链前必须进行事后引用验证。

Chen Zhao, Yuan Tang, Yitian Qian

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型(LLM)做一场“学术诚信体检”。

想象一下,你请了一位非常聪明的“写作助手”(也就是 AI 大模型),让它帮你写学术论文或技术报告。你要求它:“请列出支持这个观点的参考文献。

这篇研究的核心发现是:当你给这位助手加上各种“紧箍咒”(比如限制时间、要求写综述、或者禁止说它看过训练数据)

下面我用几个生动的比喻来拆解这篇论文:

1. 核心问题:AI 的“一本正经胡说八道”

AI 写文章很流畅,但它有个坏毛病:它喜欢编造参考文献

  • 比喻:就像一个小学生在写读后感,为了凑字数,他编造了几本“看起来很像真的”书。书名、作者、出版社都写得有模有样,但你去图书馆一查,根本找不到这本书。
  • 论文发现:AI 生成的引用中,超过一半(甚至更多),或者根本查不到。

2. 实验设计:给 AI 戴上“五副眼镜”

研究人员找了 4 个不同的 AI 模型(2 个收费的“大厂模型”,2 个开源的“社区模型”),让它们回答 144 个学术问题。为了测试不同情况,他们给 AI 戴上了五副不同的“眼镜”(提示词约束):

  1. 普通模式(Baseline):随便写,给 5 个引用。
  2. 时间限制(Temporal):只许引用最近 5 年的文献。
    • 比喻:就像要求厨师“只用今天刚摘的菜做饭”。
  3. 综述模式(Survey):要求写得像一篇大综述,涵盖 3-4 个方向,给 8 个引用。
    • 比喻:就像要求厨师“做一桌满汉全席,还得覆盖所有菜系”。
  4. 保密模式(Non-Disclosure):禁止说“我看过训练数据”,要假装是现场查的。
    • 比喻:就像要求厨师“别说是从冰箱里拿的现成菜,要说是你现做的”。
  5. 地狱模式(Combo):把上面三个限制全加上。

3. 关键发现:越“严”越“假”

A. “时间限制”是最大杀手

  • 现象:当你要求 AI 只引用“最近 5 年”的文献时,它的造假率飙升。
  • 比喻:这就像逼一个只读过旧书的老师,硬要他讲最新的新闻。他为了完成任务,编造了看起来很像真的“新新闻”
  • 结果:AI 依然能写出格式完美的引用(年份是对的,格式是对的),但内容全是假的。格式检查员根本看不出来!

B. “大厂模型”比“开源模型”稍微靠谱点,但也半斤八两

  • 现象:收费的模型(如 GPT-4o, Claude)比开源模型(如 LLaMA)稍微好一点点,但没有一个是真正可靠的
  • 比喻:就像“名牌餐厅”和“路边摊”做的假菜。名牌餐厅的假菜可能包装更精美,但本质上还是假的。在“综述模式”下,两者的差距拉得最大。

C. “保密模式”让造假更隐蔽

  • 现象:当禁止 AI 说它看过数据时,它不会减少造假,而是把“一眼假”的假引用,变成了“查不清楚”的假引用。
  • 比喻:以前它编的书名是《2023 年火星种土豆指南》(太离谱,一眼假);现在它编成《2023 年火星农业研究进展》(看起来很像真的,但图书馆里根本查不到这本书)。
  • 结果:这导致大量引用变成了“无法判定”(Unresolved),实际上里面混着很多假货。

D. “地狱模式”下,AI 彻底摆烂

  • 现象:当所有限制加在一起时,除了最强大的那个模型还能勉强挤出一点点真货,其他模型生成的引用几乎全是假的
  • 比喻:就像让一个饿晕了的人去变魔术,他为了完成任务,变出来的全是空气,但动作做得非常标准。

4. 为什么这很重要?(对软件工程师和学者的启示)

这篇论文给所有想用 AI 写论文、做文献综述的人敲了一记警钟:

  • 不要盲目信任:AI 生成的参考文献列表,绝对不能直接拿来用
  • 格式完美≠内容真实:AI 非常擅长把假东西包装得看起来像真的(格式、DOI、作者名都写得有模有样)。
  • 必须人工核查:如果你用 AI 辅助写论文,你必须像侦探一样,拿着 AI 给的每一个引用,去 Crossref 或 Google Scholar 亲自核实。
  • 开源模型要更小心:如果你用开源模型写技术报告,它的“幻觉”(编造)概率比收费模型更高,需要更严格的检查。

总结

这篇论文告诉我们:给 AI 加限制(比如限制时间、限制风格)

一句话建议:把 AI 当作一个才华横溢但爱撒谎的实习生。你可以让它起草文章,但绝不要让它负责核实参考文献,否则你的论文里就会塞满不存在的“幽灵文献”。