DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality

该论文针对深度研究报告事实性验证的难题,指出静态基准的局限性,提出了通过“审计 - 评分”机制实现基准与智能体协同进化的 DeepFact 框架,显著提升了专家标注可靠性并构建了可审计的 DeepFact-Bench 基准及高性能验证代理。

Yukun Huang, Leonardo F. R. Ribeiro, Momchil Hardalov, Bhuwan Dhingra, Markus Dreyer, Venkatesh Saligrama

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何验证 AI 写出的“深度研究报告”是否真实可信的故事。

想象一下,现在的 AI(大语言模型)不仅能聊天,还能像高级研究员一样,花几个小时去搜索成千上万篇论文,然后写出一份几十页的深度研究报告(Deep Research Reports, DRRs)。这些报告看起来非常专业,充满了数据和引用。

但是,这里有一个巨大的隐患:AI 可能会一本正经地胡说八道(幻觉)。如果它引用了一篇不存在的论文,或者把两个不同的研究结论张冠李戴,普通读者根本看不出来。

这篇论文《DeepFact》就是为了解决"如何给 AI 写的复杂报告做事实核查"这个难题而诞生的。


1. 核心难题:专家也会“看走眼”

通常,我们要判断一个东西对不对,会找专家来把关。比如让一位物理学博士去检查一份物理报告。

但作者发现了一个令人惊讶的事实:即使是博士级别的专家,在检查这种长篇大论的 AI 报告时,也会犯错。

  • 比喻:想象让你在一堆几千页的杂乱文件中,找出几个特定的错误。哪怕你是专家,看久了也会眼花,或者因为太累而漏掉细节。
  • 实验结果:作者让真正的博士们去给 AI 报告“打分”,结果发现,即使是专家,在没有辅助的情况下,准确率只有 60.8%。这意味着,如果我们完全依赖专家来建立“标准答案”(Benchmark),这个标准答案本身可能就是错的。

2. 解决方案:像“科学进化”一样的动态审核

既然静态的“标准答案”不可靠,作者提出了一种**“边打边改”**的新方法,叫做 AtS (Audit-then-Score,先审计后评分)

  • 传统做法(静态)
    就像考试,老师(专家)先出好标准答案,学生(AI)做完后,老师拿着标准答案批改。如果老师改错了,学生就永远无法进步。

  • DeepFact 的做法(动态进化)
    就像科学界的同行评议过程

    1. 挑战者(AI 代理):一个新的 AI verifier(核查员)出来,它说:“我觉得这个结论是错的,我有新证据!”
    2. 审计员(专家或更强的 AI):这时候,人类专家(或更聪明的 AI)出来当“法官”。它不看谁声音大,而是看谁的证据更硬、逻辑更通顺
    3. 更新共识:如果挑战者的证据确实更强,那么“标准答案”就被更新了!
    4. 循环进化:这个“标准答案”不是一成不变的,它会随着新的发现不断修正,变得越来越准。
  • 比喻
    想象一个维基百科的编辑过程,但不是由一个人说了算,而是由一群专家和一个超级 AI 共同维护。

    • 一开始,大家写的词条可能都有错(准确率 60%)。
    • 后来,有个 AI 发现了一个错误,并贴出了铁证。
    • 专家一看:“哇,你说得对,我刚才漏看了。”于是词条被修正。
    • 经过几轮这样的“找茬 - 修正”,词条的准确率从 60% 飙升到了 90.9%

3. 两大成果

基于这个理念,作者做出了两样东西:

A. DeepFact-Bench(不断进化的“考卷”)

这是一个专门用来测试 AI 核查能力的基准数据集。

  • 特点:它不是死板的。如果未来的 AI 发现了新的证据,这个“考卷”的答案是可以被修改的。
  • 意义:它承认了人类和 AI 都会犯错,通过不断的“审计 - 修正”循环,让“真理”越来越清晰。

B. DeepFact-Eval(超级核查员 AI)

这是一个专门用来给 AI 报告“体检”的 AI 代理。

  • 能力:它不像以前的工具那样只盯着几个关键词,而是像侦探一样,把报告里的每一个观点都拆解开,去全网搜索证据,甚至去读整篇论文,看看引用是否真实、逻辑是否通顺。
  • 表现:在测试中,它比现有的其他核查工具都要强,准确率更高,而且还能节省成本(通过把相似的问题打包处理)。

4. 为什么这很重要?

  • 打破迷信:以前我们以为“专家说的就是对的”,但这篇论文告诉我们,在信息爆炸的时代,没有任何人是全知全能的。即使是专家,面对海量信息也会出错。
  • 人机协作的新范式:最好的模式不是“人管 AI",也不是"AI 管人”,而是**“人 + AI 互相审计”**。AI 提供强大的搜索和推理能力,人类提供最终的判断和伦理把关,两者结合,让事实核查变得像科学探索一样,是一个不断逼近真理的动态过程。

总结

这篇论文就像是在说:

“别指望有一本永远正确的‘天书’(静态标准答案)。面对 AI 生成的复杂报告,我们需要建立一个**‘活’的核查系统**。让 AI 去挑战旧观点,让人类专家去裁决新证据,通过不断的‘找茬’和‘修正’,让事实变得越来越清晰。这就是 DeepFact 的核心思想。”

这不仅是给 AI 做体检,更是给人类的知识体系建立了一套自我纠错的免疫系统