Automation of Systematic Reviews with Large Language Models

该研究验证了名为 otto-SR 的大语言模型工作流在文献筛选、数据提取和偏倚风险评估等系统性综述核心任务中的卓越性能,证明其不仅能高效自动化这些耗时环节,还能快速复现并更新现有综述,从而为自动化、可扩展且可靠的知识合成奠定了基础。

Cao, C., Arora, R., Cento, P., Budak, A., Manta, K., Farahani, E., Cecere, M., Selemon, A., Sang, J., Gong, L. X., Kloosterman, R., Jiang, S., Saleh, R., Margalik, D., Lin, J., Jomy, J., Xie, J., Chen, D., Gorla, J., Lee, S., Zhang, K., Kuang, J., Ware, H., Whelan, M. G., Teja, B., Leung, A. A., Arora, R. K., Pillay, J., Hartling, L., Detsky, A., Noetel, M., Emerson, D. B., Tricco, A. C., Church, G. M., Moher, D., Bobrovitz, N.

发布于 2026-02-18
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何用人工智能(AI)给“医学侦探工作”加速的故事。

想象一下,**系统综述(Systematic Reviews)**就像是医学界的“终极侦探报告”。医生们为了回答“某种药到底有没有用”这个问题,需要把全世界成千上万篇相关的研究论文找出来,像筛沙子一样把没用的扔掉,把有用的留下来,然后仔细检查每篇论文有没有造假或漏洞,最后把数据汇总起来得出结论。

过去的问题:
这就好比让一群研究生去大海里捞针。

  • 太慢: 完成一份报告往往要花一年以上
  • 太累: 需要人工阅读成千上万篇论文,眼睛都要瞎了。
  • 容易出错: 人累了就会漏掉重要的线索,或者看走眼,导致结论不可靠。
  • 更新难: 等新论文出来了,想更新报告,往往得重头再来一遍。

这篇论文做了什么?
研究人员开发了一个叫 otto-SR 的 AI 系统(基于大语言模型),想看看它能不能代替人类完成最累人的三件事:

  1. 筛选文章(大海捞针,把不相关的扔掉)。
  2. 提取数据(从论文里把关键数字抄下来)。
  3. 评估风险(检查论文有没有造假或设计缺陷)。

他们是怎么测试的?(四个阶段的“大考”)

  • 第一阶段(找线索): 让 AI 和人类研究生一起看 3 万多篇论文标题和摘要。
    • 结果: AI 像个超级侦探,它找出了 96.7% 的相关论文(人类只找到 81.7%),而且很少误判。它比人类更敏锐,不容易漏掉好文章。
  • 第二阶段(抄数据): 让 AI 和人类从几百篇论文里提取具体数据。
    • 结果: AI 的准确率高达 93.1%,而人类只有 79.7%。AI 就像个不知疲倦的超级会计,抄写数据时几乎不会手抖或看错行。
  • 第三阶段(查漏洞): 让 AI 给论文“打分”,看它们质量好不好。
    • 结果: AI 和人类专家的意见高度一致,就像两个经验丰富的老侦探在互相确认线索,非常靠谱。
  • 第四阶段(实战演练): 这是最厉害的一步。研究人员让 AI 去重新做一份著名的“科克伦综述”(医学界的黄金标准报告),看看能不能把旧报告“复活”并更新。
    • 结果: AI 不仅完美复现了旧报告,还多挖出了 114 篇人类作者漏掉的论文(人类只找到了 64 篇)。
    • 因为多看了这些新文章,AI 得出的结论甚至改变了:有 2 个原本认为“有效”的结论变得“统计显著”(更确定了),有 1 个原本认为“有效”的结论被证明“其实没效果”。

总结一下(用大白话讲):

这就好比以前我们要整理一个巨大的图书馆,需要雇佣几百个图书管理员花一年时间,把书分类、记录、检查真伪,而且经常有人看累了把书放错。

现在,我们请来了一个不知疲倦、过目不忘的 AI 图书管理员(otto-SR)

  • 它看书的速度是人类的好几倍。
  • 它找书更准,不容易漏掉好书。
  • 它抄写数据几乎不出错。
  • 最重要的是,它能瞬间把旧的报告更新成最新的版本,甚至能发现人类专家以前没注意到的新证据,从而改变最终的医疗建议。

这意味着什么?
这项技术让“证据医学”变得更快、更准、更便宜。未来,医生和患者可能不再需要等一年才能知道某种药有没有用,AI 可以在几天甚至几小时内,基于最新的全世界数据,给出一个可靠的“侦探报告”。这为未来的医疗决策铺平了道路。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →