Automation of Systematic Reviews with Large Language Models

Cao, C., Arora, R., Cento, P., Budak, A., Manta, K., Farahani, E., Cecere, M., Selemon, A., Sang, J., Gong, L. X., Kloosterman, R., Jiang, S., Saleh, R., Margalik, D., Lin, J., Jomy, J., Xie, J., Chen, D., Gorla, J., Lee, S., Zhang, K., Kuang, J., Ware, H., Whelan, M. G., Teja, B., Leung, A. A., Arora, R. K., Pillay, J., Hartling, L., Detsky, A., Noetel, M., Emerson, D. B., Tricco, A. C., Church, G. M., Moher, D., Bobrovitz, N.

发布于 2026-02-18

📖 1 分钟阅读☕ 轻松阅读

查看于 medRxiv ↗PDF ↗

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何用人工智能（AI）给“医学侦探工作”加速的故事。

想象一下，**系统综述（Systematic Reviews）**就像是医学界的“终极侦探报告”。医生们为了回答“某种药到底有没有用”这个问题，需要把全世界成千上万篇相关的研究论文找出来，像筛沙子一样把没用的扔掉，把有用的留下来，然后仔细检查每篇论文有没有造假或漏洞，最后把数据汇总起来得出结论。

过去的问题：
这就好比让一群研究生去大海里捞针。

太慢： 完成一份报告往往要花一年以上。
太累： 需要人工阅读成千上万篇论文，眼睛都要瞎了。
容易出错： 人累了就会漏掉重要的线索，或者看走眼，导致结论不可靠。
更新难： 等新论文出来了，想更新报告，往往得重头再来一遍。

这篇论文做了什么？
研究人员开发了一个叫 otto-SR 的 AI 系统（基于大语言模型），想看看它能不能代替人类完成最累人的三件事：

筛选文章（大海捞针，把不相关的扔掉）。
提取数据（从论文里把关键数字抄下来）。
评估风险（检查论文有没有造假或设计缺陷）。

他们是怎么测试的？（四个阶段的“大考”）

第一阶段（找线索）： 让 AI 和人类研究生一起看 3 万多篇论文标题和摘要。
- 结果： AI 像个超级侦探，它找出了 96.7% 的相关论文（人类只找到 81.7%），而且很少误判。它比人类更敏锐，不容易漏掉好文章。
第二阶段（抄数据）： 让 AI 和人类从几百篇论文里提取具体数据。
- 结果： AI 的准确率高达 93.1%，而人类只有 79.7%。AI 就像个不知疲倦的超级会计，抄写数据时几乎不会手抖或看错行。
第三阶段（查漏洞）： 让 AI 给论文“打分”，看它们质量好不好。
- 结果： AI 和人类专家的意见高度一致，就像两个经验丰富的老侦探在互相确认线索，非常靠谱。
第四阶段（实战演练）： 这是最厉害的一步。研究人员让 AI 去重新做一份著名的“科克伦综述”（医学界的黄金标准报告），看看能不能把旧报告“复活”并更新。
- 结果： AI 不仅完美复现了旧报告，还多挖出了 114 篇人类作者漏掉的论文（人类只找到了 64 篇）。
- 因为多看了这些新文章，AI 得出的结论甚至改变了：有 2 个原本认为“有效”的结论变得“统计显著”（更确定了），有 1 个原本认为“有效”的结论被证明“其实没效果”。

总结一下（用大白话讲）：

这就好比以前我们要整理一个巨大的图书馆，需要雇佣几百个图书管理员花一年时间，把书分类、记录、检查真伪，而且经常有人看累了把书放错。

现在，我们请来了一个不知疲倦、过目不忘的 AI 图书管理员（otto-SR）。

它看书的速度是人类的好几倍。
它找书更准，不容易漏掉好书。
它抄写数据几乎不出错。
最重要的是，它能瞬间把旧的报告更新成最新的版本，甚至能发现人类专家以前没注意到的新证据，从而改变最终的医疗建议。

这意味着什么？
这项技术让“证据医学”变得更快、更准、更便宜。未来，医生和患者可能不再需要等一年才能知道某种药有没有用，AI 可以在几天甚至几小时内，基于最新的全世界数据，给出一个可靠的“侦探报告”。这为未来的医疗决策铺平了道路。

Automation of Systematic Reviews with Large Language Models

论文技术摘要：利用大语言模型自动化系统评价

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键贡献 (Key Contributions)

4. 研究结果 (Results)

5. 意义与影响 (Significance)

Automation of Systematic Reviews with Large Language Models

论文技术摘要：利用大语言模型自动化系统评价

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键贡献 (Key Contributions)

4. 研究结果 (Results)

5. 意义与影响 (Significance)

类似论文

A case report on gendered biases in a Finnish healthcare AI assistant

Spine Reviews: Crowdsourcing Global Spine Expert Knowledge via Digital Ledger Technology

Individualised evoked response detection based on the spectral noise colour

Mechanistic Insights into Skin Sympathetic Nerve Activity Dynamics in Healthy Subjects Through a Two-Layer Signal-Analytical and Closed-Loop Physiological Modeling Framework

Wearable sleep staging using photoplethysmography and accelerometry across sleep apnea severity: a focus on very severe sleep apnea