Accuracy and efficiency of using artificial intelligence for data extraction in systematic reviews. A noninferiority study within reviews

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“人工智能（AI）能否像人类专家一样，甚至更出色地完成繁琐的文献数据提取工作”**的故事。

想象一下，做系统综述（Systematic Review）就像是在建造一座巨大的图书馆。研究人员需要从成千上万本书（研究论文）中，把特定的信息（比如：用了什么药、病人是谁、结果怎么样）一页页抄写下来，整理成表格。

过去，这项工作完全靠人类抄写员（研究人员）手工完成。这不仅慢，而且人累了容易出错（就像抄写时看错行、写错字）。

现在，有人发明了一个**“超级智能助手”**（这篇论文里用的是叫 Elicit® 的 AI 工具），想看看它能不能帮人类分担这项工作。

1. 这场“比赛”是怎么进行的？

研究者找来了50 篇关于儿童肥胖干预的随机对照试验（RCT）论文，把它们分成了两组，让两位经验丰富的“抄写员”分别用不同的方法处理：

人类组（传统模式）： 像往常一样，打开 PDF 文件，人工阅读，然后手动把数据填进 Excel 表格里。
AI 辅助组（新模式）： 把 PDF 文件上传给 AI 助手。AI 会自动阅读并提取数据，生成一个草稿。人类抄写员只需要检查AI 填得对不对，如果有错就改一下，没有错就直接确认。

这就好比：

人类组是**“从零开始手写”**。
AI 辅助组是**“让机器先打草稿，人再当编辑校对”**。

2. 比赛结果如何？

研究者从三个维度来评判谁赢了：

🏆 准确性（抄得对不对？）

结果： 平局！甚至 AI 组稍微好一点点（但在统计学上不算显著差异）。
比喻： 就像两个学生做数学题，一个完全手算，另一个用计算器算完再检查。最后发现，两人的得分几乎一样高。
惊喜点： 在提取“干预措施和控制组”（比如具体用了什么药、剂量多少）这种复杂信息时，AI 辅助组反而比纯人类组更准确。这说明 AI 在处理结构化数据时，可能比容易疲劳的人类更靠谱。

⏱️ 速度（谁做得快？）

结果： AI 辅助组完胜！
数据： 每处理一篇论文，AI 辅助组平均比纯人类组快了 25 分钟。
比喻： 如果人类抄写员是骑自行车，那 AI 辅助组就是骑电动车。虽然都要去同一个地方，但电动车显然更快。
意义： 如果处理 50 篇论文，AI 组总共节省了1200 多分钟（约 20 个小时）。这相当于省下了一个人整整一周的工作时间！

💰 成本（谁更省钱？）

结果： AI 辅助组更便宜。
数据： 尽管要付 AI 的订阅费，但因为省下了大量的人工时间，最终总成本比纯人工组少了约 182 澳元。
比喻： 就像你雇人搬砖，虽然租了一台挖掘机（AI）要花钱，但因为挖掘机干得飞快，你省下的工人工资比租机器的钱还多，所以总账是赚的。

3. 关于“犯错”的担忧

大家最担心的是：AI 会不会**“胡说八道”**（也就是所谓的“幻觉”，Hallucination）？比如编造一个不存在的实验数据？

结果： 放心！AI 编造数据的概率极低（和人类犯错率差不多，都在 1% 左右）。
比喻： AI 就像一个**“有点小马虎但绝不撒谎的实习生”。它偶尔会漏掉一点细节（比如没写全城市名），或者算错一个小数点，但它不会凭空捏造事实**。而且，因为有人类在旁“校对”，这些错误很容易被发现并修正。

4. 这篇论文的结论是什么？

这篇研究告诉我们：

AI 不是来取代人类的，而是来当“超级助手”的。 使用 AI 辅助提取数据，不会降低研究的准确性。
效率大提升。 它能帮研究人员节省大量时间，让他们把精力集中在更重要的事情上（比如分析数据、写结论、做决策），而不是浪费在枯燥的“抄写”工作上。
省钱又省力。 对于资金有限的研究团队，这是一个非常划算的选择。

总结

这就好比在做饭：
以前，厨师要自己切菜、洗菜、炒菜（纯人工），累得满头大汗。
现在，有了智能切菜机（AI），它先把菜切好，厨师只需要检查一下有没有切坏，然后下锅炒。
结果发现：菜切得一样好（甚至更好），做饭时间少了一半，而且因为省了力气，总成本还降低了。

所以，未来的系统综述，很可能就是**“人类专家 + AI 助手”**的黄金搭档模式。这不仅能加快科学发现的步伐，还能让研究结果更及时地服务于公众健康。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于利用人工智能（AI）辅助系统评价中数据提取的非劣效性研究（Noninferiority Study）的详细技术总结。该研究发表在预印本服务器 medRxiv 上，题为《人工智能在系统评价中数据提取的准确性与效率：一项基于评价的研究（SWAR）》。

1. 研究背景与问题 (Problem)

核心痛点：系统评价（Systematic Reviews）是制定公共卫生政策的关键，但数据提取（Data Extraction）环节极其耗时且容易出错（错误率高达 50%）。传统做法需要两名作者独立提取并解决分歧，平均耗时约 107-172 分钟/研究。
现有挑战：尽管已有工具（如 Excel, Covidence）辅助，但效率提升有限。生成式人工智能（GenAI）被视为潜在的解决方案，但缺乏针对其准确性（Accuracy）和效率（Efficiency）的严格、稳健的实证证据，特别是关于其是否能在不降低质量的前提下替代或辅助人工提取。
研究缺口：现有的 AI 评估研究多采用概念验证设计，缺乏盲法、样本量小或未考虑成本效益。需要一项严谨的非劣效性试验来验证 AI 辅助工具（具体为 Elicit®）是否能在准确性上“不劣于”纯人工提取，同时在时间和成本上更具优势。

2. 研究方法 (Methodology)

研究设计：
- 类型：两项臂、平行组、非劣效性研究（Noninferiority Study Within a Review, SWAR）。
- 样本：从 2022 年更新的 Cochrane 系统评价中随机选取了 50 项 关于儿童肥胖预防的随机对照试验（RCTs）。
- 参与者：2 名具有相关领域知识的研究生/博士后研究员（Research Assistants）。
- 分组：参与者被随机分配，对同一组 50 项研究分别采用两种方法：
  1. AI 辅助组：使用 Elicit®（Pro 订阅版，开启“高准确度模式”）提取数据。研究人员可审查、修改 AI 生成的结果，但需人工确认。
  2. 纯人工组：仅使用 PDF 文件和标准提取表进行人工提取。
干预细节：
- Elicit® 设置：使用了 51 个数据变量（分为 6 个数据组）。针对 Elicit® 的提示词（Prompts）进行了定制化开发（29 个通用，22 个特定），并在非目标研究中进行了测试和迭代。
- 盲法：数据提取者知晓分组（无法完全盲），但准确性评估者（一位独立的博士后研究员）对分组情况完全盲，并依据原始 PDF 和评分标准进行独立评估。
主要结局指标：
1. 准确性：使用三点量表（0=错误，1=部分正确，2=正确）评分，标准化为 0-100 分。非劣效性界值设定为 10%（即 AI 组平均分比人工组低不超过 10 分）。
2. 完成时间：记录从准备到提取完成的所有时间。
次要结局指标：
- 错误类型与严重程度：分类为遗漏、分配错误、不完整、幻觉（False data）、计算错误等；严重程度分为重大、轻微、无关紧要。
- 成本：计算包括人员劳务、培训、文件准备及 Elicit® 订阅费在内的总成本（澳元 AUD）。
统计分析：使用配对 t 检验比较两组差异，设定单侧显著性水平 $\alpha=0.025$ 。

3. 关键贡献 (Key Contributions)

首个非劣效性 SWAR：这是首个严格评估 GenAI 辅助数据提取在准确性上是否非劣于人工提取的随机对照试验。
严谨的评估框架：引入了独立盲法评估者和三点评分量表（区分部分正确），避免了以往研究中以人工提取为“金标准”可能带来的基准偏差（Benchmark Bias）。
全面的成本效益分析：不仅比较了时间，还详细拆解了包括订阅费、提示词工程（Prompt Engineering）和人工工时在内的总成本。
错误模式分析：特别关注了 AI 特有的“幻觉”（False data/Hallucination）现象，并将其与人工错误进行对比。

4. 研究结果 (Results)

准确性（Accuracy）：
- 总体：AI 辅助组与纯人工组在总体准确性上无显著差异，且满足非劣效性标准。
  - AI 组平均分：85.8 (SD 5.4)
  - 人工组平均分：85.3 (SD 5.5)
  - 平均差值 (MD)：0.57 (95% CI: -1.29, 2.43)，远小于 10 分的非劣效界值。
- 亚组分析：在“干预与对照组”（Intervention and control group）变量上，AI 辅助组显著优于人工组（MD 4.75, 95% CI 2.13, 7.38）。其他数据组（如方法、参与者等）无显著差异。
效率（Time-to-completion）：
- AI 辅助组显著更快。
- 平均节省时间：24.82 分钟/研究 (95% CI 18.80, 30.84)。
- AI 组平均耗时：48.5 分钟；人工组：73.3 分钟。
错误类型与严重程度：
- 错误率：AI 组 (9.7%) 与人工组 (10.1%) 非常接近。
- 主要错误类型：两组最常见的错误均为“遗漏数据”和“数据不完整”。
- 幻觉（False Data）：两组发生率极低且相似（AI 组 1.0%，人工组 1.0%）。
- 严重程度：大多数错误为“轻微错误”（AI 组 34.1%，人工组 33.1%），未出现大量重大错误。
成本（Costs）：
- AI 辅助组总成本：$3,469 AUD。
- 纯人工组总成本：$3,651 AUD。
- 节省：AI 辅助组比人工组节省 $181.98 AUD（主要源于大幅减少的人工提取工时，抵消了订阅费和提示词工程成本）。

5. 意义与结论 (Significance & Conclusion)

主要结论：使用 Elicit® 进行 AI 辅助数据提取在准确性上非劣于纯人工提取，且能显著缩短时间（约 25 分钟/篇）并降低成本。
实践建议：
- AI 辅助提取可以作为未来系统评价中替代一名人工提取者的可行方案（即采用"1 名 AI 辅助 + 1 名人工”或"1 名人工 + 1 名 AI"的模式）。
- 这种模式在保持质量的同时，能有效缓解研究人员疲劳，将专家精力集中在证据综合与解释等 AI 难以胜任的任务上。
局限性：
- 研究基于已公开的数据，存在 AI 模型可能已在训练数据中见过这些文献的潜在风险（数据污染）。
- 参与者经验相对有限（虽经培训），可能影响整体准确率上限。
- 结果仅适用于当前版本的 Elicit®，AI 技术迭代迅速，未来版本性能可能变化。
未来方向：建议进一步探索“双 AI 辅助”、“AI 初筛 + 人工复核”或"AI 仅提取 + 人工二次确认”等混合工作流，并在真实的“活体系统评价”（Living Systematic Reviews）中验证其长期成本效益。

总结：该研究为在系统评价中引入生成式 AI 提供了强有力的实证支持，表明在“人机协作”模式下，AI 不仅能大幅提升效率，且不会牺牲数据的准确性，是优化循证医学工作流程的重要一步。

Accuracy and efficiency of using artificial intelligence for data extraction in systematic reviews. A noninferiority study within reviews

1. 这场“比赛”是怎么进行的？

2. 比赛结果如何？

🏆 准确性（抄得对不对？）

⏱️ 速度（谁做得快？）

💰 成本（谁更省钱？）

3. 关于“犯错”的担忧

4. 这篇论文的结论是什么？

总结

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

3. 关键贡献 (Key Contributions)

4. 研究结果 (Results)

5. 意义与结论 (Significance & Conclusion)

类似论文

The effect of sedentary behaviour and physical activity on 1719 diseases: a Mendelian randomisation phenome-wide association study (MR-PheWAS)

Years Lived without Chronic Diseases after Statutory Retirement - A Register Linkage Follow-up Study in Finland 2000-2021

Policy Levers of HIV Control: Targeted Service Coverage, Financial Protection, and Estimated New HIV Infections in Southeast Asia, 2013-2022

Invasive cervical cancers after an HPV-negative test: insights from screening histories

Patterns and predictors of antibiotic use among livestock owners in northeast Madagascar