DeepReviewer 2.0: A Traceable Agentic System for Auditable Scientific Peer Review

DeepReviewer 2.0 是一种基于过程控制的代理系统,通过生成包含锚定注释和可执行后续行动的可追溯审查包,在 ICLR 2025 测试中显著优于现有模型并获得了人类审查委员会的高度认可,旨在作为辅助工具而非决策代理来提升科学同行评审的可审计性。

原作者: Yixuan Weng, Minjun Zhu, Qiujie Xie, Zhiyuan Ning, Shichen Li, Panzhong Lu, Zhen Lin, Enhao Gu, Qiyao Sun, Yue Zhang

发布于 2026-04-14
📖 1 分钟阅读☕ 轻松阅读

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DeepReviewer 2.0 的“超级审稿助手”。为了让你轻松理解,我们可以把学术论文的同行评审(Peer Review)想象成餐厅里的“美食评论”

🍽️ 以前的审稿助手:只会写“流水账”的评论家

想象一下,你开了一家新餐厅,端出一道菜。以前的 AI 审稿助手(或者很多现在的 AI)就像是一个只会写漂亮文章的评论家

  • 它会说:“这道菜味道有点怪,实验不够充分,创新性存疑。”
  • 问题在于:它只给了你一句模棱两可的结论。你作为厨师(作者)根本不知道:
    • 到底是哪道菜(哪段文字)味道怪?
    • 是盐放多了(数据错误),还是没放盐(缺少基线)?
    • 它凭什么说“味道怪”?它尝过隔壁老王做的菜吗?
  • 结果:作者一头雾水,不知道改哪里;主编(Area Chair)也不敢信,因为没法核实。

🕵️‍♂️ DeepReviewer 2.0:带“放大镜”和“证据链”的侦探

DeepReviewer 2.0 不一样,它不再是一个只会写文章的评论家,而是一个带着放大镜、笔记本和证据链的侦探。它的核心思想是:“没有证据的批评,都是耍流氓。”

它的工作流程就像破案一样,分三步走:

1. 建立“案情档案” (Claim-Evidence-Risk Ledger)

  • 比喻:侦探先把整篇论文(案发现场)读一遍,把作者说的每一个“大道理”(Claim)都记在小本本上。
  • 做法:它不只是读,它会问:“作者说这个结果很牛,证据在哪?是第 3 页的表格,还是第 5 段的公式?”
  • 产出:它生成一份“风险清单”。如果作者说“我是第一个做到的”,但清单里发现证据不足,它就会标记为“高风险疑点”。

2. 带着“搜查令”去查案 (Agenda-Driven Retrieval)

  • 比喻:侦探不会凭空猜。如果它怀疑作者的创新性不够,它会拿着“搜查令”(Agenda)去图书馆(数据库)里找最像的竞争对手。
  • 关键规则(Matched-Setting Gate):它非常较真。如果作者做的是“用 AI 做药物发现”,它绝不会拿“用 AI 做天气预报”的论文来对比。它必须找同一种任务、同一个数据集、同一个指标的论文来“对质”。
  • 产出:它会告诉你:“作者,你说你是第一个,但我找到了 3 篇和你做法几乎一样的论文,它们比你早发表。”

3. 留下“带图标注”的整改清单 (Traceable Review Package)

  • 比喻:这是它最厉害的地方。它不会只给你一张写满字的纸条,而是给你一份直接在原文上画了红圈、写了批注的 PDF
  • 做法
    • 它会在原文的第 4 页第 2 段画个红框,旁边写着:“这里说‘显著提升’,但数据只提升了 1%,而且没给误差范围,这是误导读者(风险:Major)。”
    • 它还会给出具体的“整改食谱”:“请在这里补充绝对数值,或者把‘显著提升’改成‘略有改善’。”
  • 强制出口(Export Gate):如果它没找到足够的证据,或者没画够红圈,它拒绝生成最终报告。这就像侦探如果没抓到真凶,就不能结案。

🏆 它表现如何?(实战成绩)

论文在 134 篇真实的 ICLR 2025 投稿上测试了它:

  • 抓错更准:相比其他 AI(比如 Gemini),它能多抓出 13% 的重大硬伤(以前漏掉的,现在抓到了)。
  • 人类更喜欢:在盲测中(人类不知道是 AI 写的),71% 的情况下,人类评审团更喜欢 DeepReviewer 2.0 的审稿意见,而不是其他 AI 的,甚至比人类评审团自己的意见更受青睐(特别是在“建设性价值”和“清晰度”上)。
  • 排名:在所有自动审稿系统中,它拿了第一名

💡 核心总结:它不是“法官”,它是“律师助理”

论文特别强调,DeepReviewer 2.0 不是要取代人类法官(最终决定录不录用)。

  • 它的作用是辅助
  • 它把那些“模糊的批评”变成了可追溯、可执行、有证据的“整改清单”。
  • 它让审稿过程变得透明:你可以随时点进它的批注,看到它引用的证据,甚至看到它对比了哪些论文。

一句话总结
以前的 AI 审稿是“我觉得你不行,因为我觉得”;DeepReviewer 2.0 是“我觉得你不行,因为在第 3 页你漏了数据,而且隔壁老王在 2023 年已经做过同样的事了,请看证据请这样改。”

这就让科学审查从“凭感觉”变成了“凭证据”,让作者知道怎么改,让主编知道怎么判。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →