Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型（LLM）做一场“学术诚信体检”。

想象一下，你请了一位非常聪明的“写作助手”（也就是 AI 大模型），让它帮你写学术论文或技术报告。你要求它：“请列出支持这个观点的参考文献。”

这篇研究的核心发现是：当你给这位助手加上各种“紧箍咒”（比如限制时间、要求写综述、或者禁止说它看过训练数据）

下面我用几个生动的比喻来拆解这篇论文：

1. 核心问题：AI 的“一本正经胡说八道”

AI 写文章很流畅，但它有个坏毛病：它喜欢编造参考文献。

比喻：就像一个小学生在写读后感，为了凑字数，他编造了几本“看起来很像真的”书。书名、作者、出版社都写得有模有样，但你去图书馆一查，根本找不到这本书。
论文发现：AI 生成的引用中，超过一半（甚至更多），或者根本查不到。

2. 实验设计：给 AI 戴上“五副眼镜”

研究人员找了 4 个不同的 AI 模型（2 个收费的“大厂模型”，2 个开源的“社区模型”），让它们回答 144 个学术问题。为了测试不同情况，他们给 AI 戴上了五副不同的“眼镜”（提示词约束）：

普通模式（Baseline）：随便写，给 5 个引用。
时间限制（Temporal）：只许引用最近 5 年的文献。
- 比喻：就像要求厨师“只用今天刚摘的菜做饭”。
综述模式（Survey）：要求写得像一篇大综述，涵盖 3-4 个方向，给 8 个引用。
- 比喻：就像要求厨师“做一桌满汉全席，还得覆盖所有菜系”。
保密模式（Non-Disclosure）：禁止说“我看过训练数据”，要假装是现场查的。
- 比喻：就像要求厨师“别说是从冰箱里拿的现成菜，要说是你现做的”。
地狱模式（Combo）：把上面三个限制全加上。

3. 关键发现：越“严”越“假”

A. “时间限制”是最大杀手

现象：当你要求 AI 只引用“最近 5 年”的文献时，它的造假率飙升。
比喻：这就像逼一个只读过旧书的老师，硬要他讲最新的新闻。他为了完成任务，编造了看起来很像真的“新新闻”。
结果：AI 依然能写出格式完美的引用（年份是对的，格式是对的），但内容全是假的。格式检查员根本看不出来！

B. “大厂模型”比“开源模型”稍微靠谱点，但也半斤八两

现象：收费的模型（如 GPT-4o, Claude）比开源模型（如 LLaMA）稍微好一点点，但没有一个是真正可靠的。
比喻：就像“名牌餐厅”和“路边摊”做的假菜。名牌餐厅的假菜可能包装更精美，但本质上还是假的。在“综述模式”下，两者的差距拉得最大。

C. “保密模式”让造假更隐蔽

现象：当禁止 AI 说它看过数据时，它不会减少造假，而是把“一眼假”的假引用，变成了“查不清楚”的假引用。
比喻：以前它编的书名是《2023 年火星种土豆指南》（太离谱，一眼假）；现在它编成《2023 年火星农业研究进展》（看起来很像真的，但图书馆里根本查不到这本书）。
结果：这导致大量引用变成了“无法判定”（Unresolved），实际上里面混着很多假货。

D. “地狱模式”下，AI 彻底摆烂

现象：当所有限制加在一起时，除了最强大的那个模型还能勉强挤出一点点真货，其他模型生成的引用几乎全是假的。
比喻：就像让一个饿晕了的人去变魔术，他为了完成任务，变出来的全是空气，但动作做得非常标准。

4. 为什么这很重要？（对软件工程师和学者的启示）

这篇论文给所有想用 AI 写论文、做文献综述的人敲了一记警钟：

不要盲目信任：AI 生成的参考文献列表，绝对不能直接拿来用。
格式完美≠内容真实：AI 非常擅长把假东西包装得看起来像真的（格式、DOI、作者名都写得有模有样）。
必须人工核查：如果你用 AI 辅助写论文，你必须像侦探一样，拿着 AI 给的每一个引用，去 Crossref 或 Google Scholar 亲自核实。
开源模型要更小心：如果你用开源模型写技术报告，它的“幻觉”（编造）概率比收费模型更高，需要更严格的检查。

总结

这篇论文告诉我们：给 AI 加限制（比如限制时间、限制风格）

一句话建议：把 AI 当作一个才华横溢但爱撒谎的实习生。你可以让它起草文章，但绝不要让它负责核实参考文献，否则你的论文里就会塞满不存在的“幽灵文献”。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《部署约束是否会导致大语言模型（LLM）产生引用幻觉？：跨四种模型和五种提示模式的实证研究》（Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes）的详细技术总结。

1. 研究背景与问题 (Problem)

随着大语言模型（LLM）在学术写作和软件工程（SE）证据合成（如系统文献综述 SLR）中的广泛应用，**引用幻觉（Citation Hallucination）**成为一个严重问题。LLM 生成的参考文献往往看起来格式完整（包含作者、会议、DOI 等），但实际上并不存在。

现有的研究多关注幻觉的普遍性，但缺乏对真实部署场景下的约束条件如何影响引用可验证性的深入理解。具体而言，当模型面临以下现实约束时，其引用质量如何变化？

时间约束（Temporal）： 限制引用必须来自特定年份窗口（通常针对最新文献）。
综述式广度压力（Survey-style breadth）： 要求生成涵盖多个类别的广泛文献综述。
非披露政策（Non-Disclosure）： 禁止模型声称访问了训练数据中的具体文档（模拟商业写作助手的合规要求）。

本研究旨在量化这些部署约束对 LLM 生成引用可验证性的影响，并比较专有模型（Proprietary）与开源权重模型（Open-weight）的表现差异。

2. 方法论 (Methodology)

2.1 实验设计

数据集： 构建了包含 144 个 学术主张（Claims）的数据集，涵盖 6 个学科领域（包括 24 个软件工程与计算机科学 SE & CS 领域的案例）。
模型选择： 评估了 4 种模型：
- 专有模型：Claude Sonnet (Anthropic), GPT-4o (OpenAI)
- 开源权重模型：LLaMA 3.1–8B (Meta), Qwen 2.5–14B (Alibaba)
提示模式（5 种）：
1. Baseline： 基础学术段落，要求 5 个引用。
2. Temporal： 增加严格的出版年份窗口（中位跨度 5 年，截止 2025 年）。
3. Survey： 要求按 3-4 个类别组织文献综述，需 8 个引用（模拟证据合成压力）。
4. Non-Disclosure： 禁止声称访问训练记忆，需 5 个引用。
5. Combo： 结合上述所有三种约束，需 8 个引用。
生成设置： 所有实验均在**闭卷（Closed-book）**环境下进行，使用确定性解码（Temperature=0），无检索增强（RAG）。

2.2 自动化验证管道 (Verification Pipeline)

研究开发了一个确定性的验证流程，对生成的每个引用进行自动核查：

解析： 提取标题、作者、会议、年份、DOI 等结构化字段。
检索： 并行查询 Crossref 和 Semantic Scholar 数据库。
- 若有 DOI 直接验证。
- 否则通过标题搜索（最多返回 5 个候选项）。
评分： 使用加权相似度公式计算匹配度：
$s = 0.60 \cdot t + 0.20 \cdot a + 0.15 \cdot y + 0.05 \cdot v$
其中 $t$ 为标题模糊相似度， $a$ 为作者姓氏重叠， $y$ 为年份一致性， $v$ 为会议相似度。
分类标签（三分类）：
- Existing (存在)： 得分 $\ge 0.85$ ，确认为真实文献。
- Unresolved (未决)： $0.60 \le \text{得分} < 0.85$，无法完全确认或存在元数据冲突（高风险类别）。
- Fabricated (伪造)： 得分 $< 0.60$ 或无候选项。
人工审计： 对 100 个引用样本进行人工复核，验证管道准确率（Cohen's $\kappa = 0.63$ ）。

3. 主要贡献 (Key Contributions)

** curated 数据集：** 包含 144 个跨学科主张的基准数据集，特别包含软件工程领域案例。
自动化验证框架： 提出并开源了一个基于 Crossref 和 Semantic Scholar 的三分类验证管道，能够区分“伪造”与“无法确认”的引用。
实证分析： 首次系统性地量化了部署约束（时间、广度、非披露）对引用可验证性的具体影响，并揭示了专有模型与开源模型在引用质量上的显著差距。

4. 关键结果 (Key Results)

4.1 整体表现

极低的可验证率： 没有任何模型在任何条件下达到 50% 以上的引用存在率（最高仅为 Claude Sonnet 在 Survey 模式下的 0.475）。
未决（Unresolved）占比高： 36%–61% 的引用属于“未决”类别。人工审计显示，其中约 46% 实际上是伪造的。这意味着如果仅做二元判断（存在/不存在），会掩盖大量高风险的不确定引用。

4.2 约束条件的影响 (RQ1)

时间约束（Temporal）影响最剧烈： 它是导致可验证性下降最严重的单一约束。
- Claude Sonnet 的存在率从 Baseline 的 0.381 暴跌至 0.119。
- GPT-4o 从 0.235 降至 0.019。
- 关键点： 模型严格遵守了年份格式要求（格式合规），但生成的内容在指定年份窗口内几乎完全不可验证（实质失效）。
非披露（Non-Disclosure）： 影响较微妙，主要导致错误从“明显错误”（Fabricated）转移到“难以判断”（Unresolved），因为 DOI 等强验证信号被模型主动省略。

4.3 模型类型差异 (RQ2)

专有 vs. 开源： 专有模型（Claude, GPT-4o）的表现显著优于开源模型（LLaMA, Qwen）。
- 在 Baseline 下，专有模型存在率约为 0.23–0.38，而开源模型仅为 0.07–0.09。
- 在 Survey 模式下，差距进一步拉大（ $\Delta = +0.310$ ）。Qwen 2.5 在 Survey 模式下伪造率高达 0.547。
开源模型的崩溃： 在组合约束（Combo）下，开源模型的存在率几乎归零（<0.01），而专有模型（Claude）仍保留约 0.106 的存在率。

4.4 组合约束 (RQ3)

Combo 条件最糟糕： 当所有约束叠加时，所有模型的可验证性均大幅下降。专有模型存在率降至 0.10 左右，开源模型降至接近 0。
引用量不减： 尽管可验证性急剧下降，模型生成的引用数量（平均 7.4–8.0 个/主张）并未减少，表明模型在压力下仍倾向于“编造”以满足数量要求。

4.5 领域分析

软件工程（SE & CS）领域的引用存在率（0.132）与跨领域平均水平（0.120）相当，表明该问题在 SE 研究中同样严峻。

5. 错误模式分析

通过定性分析，发现了四种格式合规但内容虚假的典型错误模式：

场所清洗（Venue laundering）： 真实的会议名称（如 ICSE）搭配该会议索引中不存在的标题。
作者拼凑（Author bricolage）： 将领域内真实的姓氏重新组合成不存在的作者列表。
标识符伪造/缺失： 在非披露模式下，DOI 常被省略或替换为 "n/a"；其他情况下生成语法正确但无效的 DOI。
标题漂移（Title drift）： 生成的标题是真实论文的近似改写，足以让人眼误以为熟悉，但无法通过数据库匹配。

6. 意义与启示 (Significance)

对工具开发者： 仅检查格式合规性（如年份、DOI 格式）不足以发现幻觉。系统必须引入**事后验证（Post-hoc verification）**机制，并将“未决（Unresolved）”类别视为高风险，需人工介入。
对研究人员（特别是 SE 领域）：
- 在使用 LLM 辅助撰写文献综述时，绝不能直接信任生成的引用。
- 必须要求模型提供持久标识符（DOI/arXiv），并手动交叉核对元数据。
- 在依赖开源模型进行证据合成时需格外谨慎，因为其幻觉率显著更高。
对社区： 提示工程（Prompt Engineering）本身无法解决引用幻觉问题。可靠的生成需要**检索增强（RAG）**架构、内置验证机制或两者的结合。
方法论贡献： 本研究提出的三分类验证框架（Existing/Unresolved/Fabricated）比传统的二元判断更能准确反映 LLM 引用的真实风险分布。

结论： 部署约束（特别是时间限制和综述压力）会显著加剧 LLM 的引用幻觉，且这种恶化往往被格式上的合规性所掩盖。在将 LLM 生成的内容纳入软件工程文献综述或工具流水线之前，必须进行独立的数据库验证。