HART: Data-Driven Hallucination Attribution and Evidence-Based Tracing for Large Language Models

本文提出了 HART 框架,通过构建首个细粒度幻觉追踪数据集并将幻觉溯源形式化为包含定位、归因、检索和因果追踪的四个阶段,实现了大语言模型幻觉类型、生成机制与外部事实证据之间的结构化对应与可解释性分析。

Shize Liang, Hongzhi Wang

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 HART 的新系统,它的任务是给大型语言模型(LLM,比如现在的各种 AI 聊天机器人)“查户口”和“找证据”,专门用来解决 AI 爱“胡说八道”(也就是幻觉)的问题。

为了让你更容易理解,我们可以把 AI 想象成一个才华横溢但有点爱吹牛的“故事大王”

1. 核心问题:故事大王爱“编故事”

现在的 AI 写文章、回答问题非常厉害,但它有个大毛病:它经常一本正经地胡说八道
比如,你问它“爱因斯坦在普林斯顿期间和谁一起设计了核武器原型?”,它可能会信誓旦旦地编造一段故事,说他和奥本海默合作了,甚至编造他写过一本关于量子宇宙的书。

  • 以前的做法(旧方法):
    • 侦探 A(检测派): 只能告诉你“这句话听起来不对劲,可能是假的”,但说不清具体哪里错了,也没法告诉你真相是什么。就像侦探只说“这案子有鬼”,但抓不到凶手。
    • 侦探 B(内部分析派): 试图通过分析 AI 大脑里的“神经元”活动来解释为什么它会撒谎。但这就像在分析侦探的脑电波,虽然能解释“他为什么紧张”,但拿不出具体的外部证据(比如照片、文件)来证明事实。

2. HART 的解决方案:给 AI 配个“超级档案员”

HART 就像是一个拥有超级档案库的“事实核查员”。它不只是告诉你“你在撒谎”,而是能精准地指出:

  1. 撒谎的片段在哪里?(定位)
  2. 你是怎么编出来的?(归因:是记错了名字?还是逻辑不通?还是纯粹瞎编?)
  3. 真正的证据是什么?(溯源:去档案库里找出真正的文件来打脸)。

3. HART 是怎么工作的?(四步走)

想象一下,HART 在处理 AI 生成的错误信息时,会经历四个步骤:

第一步:精准定位(Span Localization)

就像在长篇小说里用红笔圈出具体哪一句话是假的。

  • 比喻: 故事大王说了一大段话,HART 能精准地圈出:“停!‘他写过《量子宇宙》这本书’这一句是假的。”

第二步:诊断病因(Mechanism Attribution)

HART 会分析 AI 为什么会在这里犯错。它把错误分成了几类:

  • 张冠李戴(Entity Mismatch): 把 A 的事安在 B 头上。
  • 过度概括(Overgeneralization): 把个例当成普遍规律。
  • 逻辑崩塌(Reasoning Failure): 推理过程断了。
  • 凭空捏造(Fabrication): 纯粹是编的,脑子里根本没这回事。
  • 上下文泄露(Context Leakage): 把别处的信息混进来了。
  • 比喻: 就像医生看病,不仅说“你发烧了”,还说“你是因为吃坏肚子引起的发烧,而不是感冒”。

第三步:寻找证据(Evidence Retrieval)

这是 HART 最厉害的地方。它不会只靠猜,而是会去巨大的外部知识库(像维基百科、权威网站组成的超级图书馆)里搜索。

  • 它会生成几个不同的“搜索问题”(比如“爱因斯坦写过什么书?”、“爱因斯坦在普林斯顿做了什么?”)。
  • 然后利用向量搜索技术(一种能理解语义的搜索,而不是简单的关键词匹配),在图书馆里找到最能反驳证实那句话的文档。
  • 比喻: 故事大王说“悉尼是澳大利亚首都”,HART 立刻去图书馆翻书,找到一张写着“堪培拉才是首都”的官方文件,并把它拍在桌子上。

第四步:因果追踪(Causal Tracing)

最后,HART 把“错误片段”、“错误类型”和“真实证据”串联起来,形成一个完整的证据链

  • 比喻: 它生成了一份报告:“因为 AI 犯了‘凭空捏造’的错误,所以它编造了悉尼是首都;而真实证据(文件 A)证明堪培拉才是首都。”

4. 为什么 HART 很牛?

  • 它不只是“抓鬼”,还能“破案”: 以前的系统只能告诉你“这里有鬼”,HART 能告诉你“鬼是谁、怎么变的、以及为什么它是假的”。
  • 它建立了“事实数据库”: 作者专门造了一个包含大量“错误 - 原因 - 证据”对应关系的数据集。这就像给 AI 准备了一本错题集,里面不仅记录了错题,还详细写了错误原因和正确答案。
  • 实验效果惊人: 在测试中,HART 找对证据的能力(召回率)远远超过了传统的搜索方法(比如 BM25 或 DPR)。它能把最关键的证据排在第一位,让人一眼就能看到真相。

总结

HART 就像是给 AI 装上了一副“透视眼”和“法槌”。

当 AI 在医疗、法律、金融这些高风险领域“胡说八道”时,HART 能迅速指出它哪里编了故事,分析它是“记性不好”还是“脑子短路”,并立刻甩出铁证如山的真实资料。这让 AI 不再是那个只会吹牛的故事大王,而变成了一个有根有据、可解释、可信赖的专家

这篇论文的核心思想就是:不要只盯着 AI 怎么生成的(内部机制),要盯着它生成的内容在现实世界里有没有证据(外部事实)。 这才是解决 AI 幻觉的终极方案。