VerifAI: A Verifiable Open-Source Search Engine for Biomedical Question Answering

本文介绍了 VerifAI,这是一个开源的生物医学问答专家系统,它通过结合检索增强生成(RAG)与新颖的事后声明验证机制,将生成答案分解为原子声明并利用自然语言推理引擎进行验证,从而显著减少幻觉并确保证据的可追溯性与事实一致性。

Miloš Košprdic, Adela Ljajic, Bojana Bašaragin, Darija Medvecki, Lorenzo Cassano, Nikola Miloševic

发布于 2026-04-13
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 VerifAI 的开源系统,它就像是一个拥有“超级侦探”能力的生物医学搜索引擎

想象一下,现在的普通 AI(比如聊天机器人)在回答医学问题时,就像是一个记忆力超群但偶尔会“胡编乱造”的学生。它可能记得很多知识,但有时候会自信地编造一些不存在的药物或错误的实验数据(这就是所谓的“幻觉”)。在医学领域,这种错误可能是致命的。

VerifAI 就是为了解决这个问题而生的“严谨学霸”。它不仅仅会回答问题,还会像侦探一样,对每一个答案进行严格的“背景调查”。

我们可以把 VerifAI 的工作流程想象成三个步骤

1. 第一步:超级图书管理员(信息检索模块)

  • 普通做法:就像你在图书馆随便找几本看起来相关的书。
  • VerifAI 的做法:它有一个双管齐下的搜索策略。
    • 一方面,它像传统的图书管理员,精准地寻找包含特定关键词(比如“阿司匹林”、“心脏病”)的书籍。
    • 另一方面,它像一位懂“言外之意”的专家,即使你没提到某个词,只要意思相近,它也能找到相关的书。
    • 结果:它把这两种方法结合起来,从 PubMed(全球最大的生物医学文献库)中,精准地捞出最相关的 10 篇论文摘要,作为回答问题的“证据”。

2. 第二步:严谨的撰稿人(生成模块)

  • 普通做法:AI 直接凭记忆写文章,容易编造。
  • VerifAI 的做法:这位“撰稿人”被严格训练过:“没有证据,不许下笔”
    • 它只使用第一步找到的那 10 篇论文来写答案。
    • 它写出的每一句话,后面都必须像脚注一样,标注出这句话是出自哪篇论文的(比如:[PubMed:12345])。
    • 如果它发现证据不足,它会老实说“我不知道”,而不是瞎编。
    • 比喻:这就像是一个带着脚注写论文的博士生,绝不敢在没有参考文献的情况下乱说话。

3. 第三步:铁面无私的质检员(验证模块)

  • 这是 VerifAI 最厉害的地方!
  • 普通做法:写完就发,没人检查。
  • VerifAI 的做法:在答案发给用户之前,会经过一位**“逻辑侦探”**的审查。
    • 这位侦探会把撰稿人写的每一句话(假设),和它引用的那篇论文(证据)进行逐字逐句的对比。
    • 它会判断:这句话是完全支持论文的?是完全反对论文的?还是论文里根本没提
    • 颜色标记
      • 🟢 绿色:这句话有证据支持,放心看。
      • 🟡 黄色:证据有点勉强,或者只支持了一部分,要小心。
      • 🔴 红色:这句话和证据矛盾,或者是瞎编的,千万别信!
      • 灰色:这句话没给出处,存疑。

为什么 VerifAI 很牛?

  1. 它比“大模型”更懂行
    通常大家觉得模型越大越聪明(比如 GPT-4),但在“找证据”和“验证逻辑”这种具体任务上,VerifAI 专门训练的小模型(DeBERTa)表现甚至超过了 GPT-4。这就像是一个专门练过逻辑题的专科医生,比一个什么都懂但没受过专业训练的通才,在诊断特定疾病时更靠谱。

  2. 它透明、可追溯
    普通 AI 给你答案,你不知道它从哪来的。VerifAI 给你答案的同时,把证据链全摆在你面前。你可以随时点击那个绿色的脚注,直接看到原始论文里的原话,自己判断它有没有撒谎。

  3. 它是开源的
    就像把食谱和厨房都公开了。任何人都可以下载它的代码,看看它是怎么工作的,甚至把它用到法律、金融等其他需要“严谨”的领域。

总结

如果把普通 AI 比作一个口才好但偶尔会吹牛的导游,那么 VerifAI 就是一个带着地图、拿着证据、并且会随时核对行程的“严谨向导”

它不追求“说得最漂亮”,而是追求“说得最真”。在关乎人类健康的生物医学领域,这种**“可验证的诚实”**比什么都重要。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →