Critical Confabulation: Can LLMs Hallucinate for Social Good?

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣且深刻的观点：大型语言模型（LLM）的“胡言乱语”（幻觉），如果加以巧妙引导，竟然可以变成一种“社会公益”工具，用来填补历史档案中的空白，特别是那些被遗忘的弱势群体的故事。

为了让你轻松理解，我们可以把这篇论文的核心思想想象成**“修补破碎的古老拼图”**。

1. 核心概念：什么是“批判性虚构”（Critical Confabulation）？

想象一下，历史就像一本巨大的、但被撕掉了很多页的故事书。

现实情况：由于过去的种族歧视、政治压迫或社会不公，很多普通人的故事（比如被奴役者、少数族裔）根本没有被记录下来，或者记录被销毁了。这些缺失的页面就是“档案空白”。
传统做法：历史学家通常很谨慎，没有证据就不敢写，导致这些空白永远留在那里，那些“隐形人物”继续沉默。
论文的新点子：作者提出了一种叫**“批判性虚构”的方法。这就像请一位“富有同理心的侦探作家”（也就是 AI），在严格遵循已知线索（档案证据）的前提下，去“合理推测”**那些缺失的页面可能写了什么。

关键点：这不是让 AI 瞎编乱造（那是胡扯），而是让 AI 基于现有的碎片，用符合逻辑和人性常识的方式，把故事“补全”，让那些被遗忘的人重新“活”过来。

2. 实验过程：AI 在做什么？

研究人员做了一个像**“填空题”**一样的游戏：

准备素材：他们找了一个名为“黑人写作与思想集”的数据库，里面有很多未公开的历史文献。
制造“空白”：他们从这些文献中挑选出一些真实的历史人物（比如一个被警察枪杀的 14 岁少年），把他们的生平时间线整理出来，然后故意把其中某一段关键事件挖掉，换成一个 [MASK]（空白）。
让 AI 填空：他们把剩下的时间线（比如：1973 年被枪杀 -> 1974 年社区愤怒 -> [空白] -> 1979 年黑豹党抗议）给 AI 看，问：“中间发生了什么？”
评估结果：看 AI 补出来的故事，是否既像真的（符合历史背景、逻辑通顺），又尊重事实（没有完全脱离已知线索）。

3. 主要发现：AI 做得怎么样？

AI 确实能“补”故事：研究发现，虽然让 AI 完美地填补历史空白很难（目前最好的模型准确率大概在 50%-60% 左右），但它们确实能生成一些非常合理、甚至感人的推测。
提示词很重要：就像你给 AI 的指令越具体，它表现越好。如果告诉 AI：“请像一个致力于社会正义的历史学家那样，根据现有证据推测缺失的事件”，AI 就能写出更有深度、更符合“批判性虚构”要求的故事。
大小模型各有千秋：并不是只有最强大的模型才能做好。有些较小的模型在特定任务上表现惊人，甚至比大模型更灵活。
没有“作弊”：研究人员非常严谨，他们确保 AI 没有提前“背过”这些未公开的历史资料。这意味着 AI 的补全能力是真正的**“推理”，而不是简单的“记忆背诵”**。

4. 为什么这很重要？（社会意义）

这就好比**“修复被烧毁的图书馆”**。

对于历史学家：以前，面对档案空白，他们只能无奈地保持沉默。现在，AI 可以作为一个**“超级助手”**，快速生成多种可能的故事版本，帮助学者缩小搜索范围，激发新的研究灵感。
对于社会正义：这种方法让那些在官方历史中“失声”的普通人（Hidden Figures）重新拥有了声音。它不是要篡改历史，而是要对抗“遗忘”，让历史变得更加完整和人性化。

5. 总结与比喻

如果把历史档案比作一张破旧的渔网，很多鱼（历史人物）因为网眼太大漏掉了。

传统历史学是小心翼翼地修补网眼，只修补有确凿证据的地方。
这篇论文的方法是：请 AI 这个**“织网高手”，根据网眼的形状、周围线的走向，推测出漏掉的鱼可能在哪里，并尝试用合理的线**把网补上。

结论：
这篇论文告诉我们，AI 的“幻觉”不总是坏事。如果我们给 AI 戴上**“伦理的紧箍咒”（严格基于证据），并赋予它“人文关怀的使命”（为弱势群体发声），它就能从“制造错误的机器”变成“修复历史记忆的工匠”**。这不仅是技术的进步，更是人文学科与人工智能的一次温暖握手。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem & Background)

核心问题：大语言模型（LLM）通常被认为会产生“幻觉”（Hallucination），即生成看似合理但事实错误的输出。传统观点将其视为缺陷。然而，在历史档案研究中，由于社会和政治不平等（如奴隶制、种族压迫），许多边缘化群体（“隐形人物”，Hidden Figures）的历史记录存在大量缺失（Lacunae）。
理论灵感：论文借鉴了人文学科中的 “关键虚构”（Critical Fabulation） 概念（由 Saidiya Hartman 提出）。这是一种通过推测性叙事来填补档案空白、重构被抹去的历史人物故事的方法，旨在修复历史记录的缺失，同时不将推测混同为事实。
研究目标：提出 “关键虚构”（Critical Confabulation） 框架，利用 LLM 的幻觉能力，在严格的事实边界内（Evidence-bounded），为档案中的缺失事件生成合理的、基于证据的叙事，从而辅助人文学者进行知识生产。
核心挑战：如何区分“有害的幻觉”与“有益的虚构”？即如何在保持历史准确性的同时，利用 LLM 的叙事能力填补档案空白，而不陷入无根据的臆造。

2. 方法论 (Methodology)

2.1 任务设定：叙事完形填空 (Narrative Cloze Task)

作者将关键虚构操作化为一个开放式的叙事完形填空任务：

输入：一个基于真实档案构建的人物时间线 $T(n)$ ，其中包含时间戳和事件描述。
操作：随机掩码（Mask）其中一个事件 $e_m$ ，将其替换为 [MASK] 标记。
目标：要求 LLM 根据上下文（时间线片段）和指令，重构出被掩码的事件 $e_m$ 。
评估标准：生成的事件 $\hat{e}_m$ 与真实事件 $e_m$ 之间的语义相似度（使用叙事嵌入模型 story-emb 计算余弦相似度）。

2.2 数据集构建：Black Writing and Thought Collection (BWTC)

数据来源：使用了芝加哥大学 ARTFL 项目整理的“黑人写作与思想集”（BWTC），包含 20,686 份文档（18 世纪至今），涵盖戏剧、小说、访谈、审判记录等。
数据清洗与防污染审计：
- 严格审计：为了防止模型通过训练数据“背诵”答案，作者对 OLMo-2（完全开源、训练数据公开）进行了严格的句子级字符串搜索（Boyer-Moore 算法）和余弦相似度行为探针。
- 筛选“隐形人物”：从 BWTC 中筛选出在训练数据中极少出现或完全未出现的名字（Hidden Figures），构建包含 156 个角色的真实时间线作为 Ground Truth。
- 过滤：移除了被标记为“已见”（SEEN）的文档，确保评估基于模型未见过的历史。

2.3 实验设置

模型：评估了多种模型，包括经过审计的 OLMo-2 系列（1B-32B）、未审计的开源模型（Qwen, Gemma, Llama 等）以及闭源模型（GPT-4o, GPT-5-Chat）。
提示工程 (Prompting)：测试了多种提示策略，包括：
- 基础指令。
- 添加事件类型提示（Event Type Hint，如角色、关系、认知等）。
- 诱导幻觉的提示模板（如 Null-Shot, Eccentric Automatic Prompts, HaluEval 等），旨在激发模型的创造性叙事能力。
解码策略：主要使用确定性解码（Temperature=0）以确保可复现性，同时也测试了不同温度下的随机性影响。

3. 关键贡献 (Key Contributions)

概念创新：首次将人文学科的“关键虚构”方法论转化为可计算的 NLP 任务（关键虚构），重新定义了 LLM 幻觉在特定社会公益场景下的价值。
严谨的数据审计：建立了一套针对历史档案研究的严格数据污染检测流程，确保评估结果反映的是模型的推理/重构能力，而非记忆能力。
实证发现：证明了在特定约束下（如提供事件类型提示、控制提示词），LLM 能够生成具有高度叙事真实感（Verisimilitude）且基于证据的虚构内容，填补档案空白。
评估框架：提出了一套针对“证据约束型虚构”的评估指标，不仅关注事实准确性，更关注叙事结构的连贯性和对历史语境的契合度。

4. 主要结果 (Key Results)

性能表现：
- 关键虚构是一项极具挑战性的任务。大多数模型在没有任何提示的情况下准确率低于 50%。
- GPT-5-Chat 表现最佳，在特定提示下准确率接近 60%。
- OLMo-2-7B（开源审计模型）表现优异，甚至在某些提示下超过了更大的未审计模型，表明经过审计的模型并未因缺乏“记忆”而表现更差，反而展现了良好的推理能力。
- Qwen3-4B 在小型模型中表现突出，证明小模型也能胜任此任务。
提示敏感性：
- 提示词对结果影响巨大。明确指定 事件类型（Event Type）（如“角色”、“关系”）能显著提升所有模型的性能（平均提升 2-10 个百分点）。
- 诱导创造性输出的提示（如 "Eccentric Automatic Prompts"）虽然能激发更好的叙事，但也增加了不可解析输出的风险。
任务特性分析：
- 事件类型差异：模型最擅长重构“角色（Role）”和“关系（Relational）”类事件（通常是传记信息），最弱的是“认知（Cognitive）”类事件（内心状态、观点），因为后者缺乏外部语境锚点。
- 长度与位置：
  - 事件描述越长，重构准确率越高。
  - 时间线越长，准确率越低（长程依赖挑战）。
  - 时间线开头的事件比末尾的事件更容易被准确重构。
- 错误聚类：模型并非随机犯错，而是在特定的困难事件和人物上集中失败，表明存在系统性的难点。
审计 vs. 未审计：经过审计的 OLMO-2 模型与未审计的同类模型在性能上无显著差异，说明在该任务中，模型表现主要依赖于推理能力而非训练数据中的记忆。

5. 意义与影响 (Significance)

对 NLP 领域：
- 挑战了“幻觉即错误”的单一视角，提出幻觉可以是可优化的资源。
- 展示了 LLM 在需要结合外部证据与内部推理的复杂任务中的潜力。
对人文社科领域：
- 提供了一种**“修复性技术”（Technology of Recovery）**，帮助学者处理大规模档案中的沉默（Archival Silence），特别是针对被边缘化的历史人物。
- 使学者能够规模化地生成多种可能的历史叙事假设，辅助人类专家缩小“已知未知”的范围，从而更有效地进行历史研究。
伦理与社会价值：
- 强调在应用 AI 进行历史重构时，必须建立严格的叙事伦理边界（Narrative Ethics），确保虚构内容不脱离证据基础，避免制造新的历史扭曲。
- 旨在弥合学术研究与公共历史传播（如《1619 计划》）之间的鸿沟，让被遗忘的历史故事重见天日。

总结

该论文不仅是一个技术实验，更是一次跨学科的尝试。它证明了通过精心设计的提示和严格的证据约束，LLM 的“幻觉”能力可以被转化为一种社会公益工具，用于修复被系统性暴力抹去的历史记忆。这为未来 AI 在人文学科中的应用开辟了新路径，即从单纯的“事实检索”转向“证据约束下的叙事重构”。