📄 health informatics

AERO: An AI Agent for Adaptive Eligibility Refinement and Optimization of Clinical Trial Criteria in Real-World Trial Emulation

本文介绍了AERO，这是一个人工智能代理框架，它利用大语言模型对临床试验的纳入标准进行系统分类与优化，以实现对真实世界数据的模拟，正如在WARCEF试验模拟中所证明的那样，该方法提高了治疗效果估计的普遍性和准确性。

原作者： Li, X., James, J., Pellikka, P. A., Zong, N.

发布于 2026-05-01

📖 1 分钟阅读☕ 轻松阅读

原作者： Li, X., James, J., Pellikka, P. A., Zong, N.

原始论文采用 CC BY 4.0 许可（https://creativecommons.org/licenses/by/4.0/）。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

想象一下，你正试图利用一个装满来自成千上万个家庭食材的巨大、杂乱的现实世界储藏室（即你的电子健康记录），来重现一场著名且控制完美的烹饪比赛（即随机对照试验，RCT）。

在原比赛中，评委们有一张非常严格的规则清单：“仅使用 2 岁以下鸡所产的蛋”、“若厨师有特定过敏史则不加盐”、“厨师必须能够连续站立 4 小时而不休息”。这些规则确保了比赛的公平性，并使结果清晰明了。

然而，当你试图在现实世界的储藏室中寻找这些确切的食材时，你碰壁了。你无法仅通过观察鸡蛋就判断鸡的年龄。你没有每位厨师过敏史的记录。如果厨师从未实际需要站立 4 小时，你肯定无法知道他们是否能够做到。如果你试图完全按照原文应用这些原始规则，你可能会最终扔掉储藏室中 90% 的食材，导致你几乎没有可供研究的厨师。更糟糕的是，你可能会无意中只保留了“完美”的厨师，从而使你的结果看起来与现实世界大相径庭。

AERO 登场：智能副厨师长

这篇论文介绍了AERO（自适应资格细化与优化的人工智能代理）。将 AERO 想象为一位博学多才、极具智慧的副厨师长，他帮助你将这些严格的比赛规则转化为适合你杂乱无章的现实世界储藏室的可操作方案，同时不丢失原比赛的精神。

以下是 AERO 的工作原理，使用简单的比喻：

1. “四格”分类系统

AERO 不是盲目地试图遵循每一条规则，而是审视每一条规则，并问：“这条规则真正的目的是什么？”它将每条规则归入以下四个类别之一：

第 1 格：“必备项”（严格纳入）：这些是定义比赛对象的核心规则。例如：“厨师必须正在制作汤。”AERO 将这些保留为硬性过滤器。如果你不在做汤，你就出局了。
第 2 格：“安全警告”（严格排除）：这些是关于危险的规则。例如：“患有严重坚果过敏的人不得入场。”AERO 也保留这些规则，因为安全是不可协商的，并且在记录中通常很容易识别。
第 3 格：“背景噪音”（混杂因素）：这些规则描述了厨师，但不一定使他们失去资格。例如：“厨师过去必须使用过特定品牌的盐。”在现实世界中，这可能只是一个让汤味道不同的因素，而不是将厨师踢出局的原因。AERO 会说：“不要把他们踢出去！只需记录下来，等我们品尝汤时再对此进行调整。”这样可以将更多人保留在研究中。
第 4 格：“不可能完成的任务”（剔除/操作性）：这些规则在现实世界的储藏室中毫无意义。例如：“厨师必须能够不间断地遵循 4 小时的方案。”你无法在数据库中检查这一点。AERO 会说：“我们无法测量这一点，所以让我们完全剔除这条规则，以免我们意外地排除了优秀的厨师。”

2. “知识图书管理员”

AERO 并非凭空猜测。它像一位图书管理员，在做出决定前会调出三本不同的书：

一本医学百科全书（UpToDate），用于了解疾病。
一位智能 AI 助手（Claude），用于解读上下文。
一本药物安全手册（ToolUniverse），用于检查危险的相互作用。

通过将原始试验规则与这些额外知识相结合，AERO 决定保留哪些规则、调整哪些规则以及剔除哪些规则。

3. 试驾：WARCEF 试验

为了验证 AERO 是否有效，研究人员利用它重现了WARCEF 试验。

原始试验：比较了华法林（一种血液稀释剂）与阿司匹林对心力衰竭患者的效果。结果如何？没有差异。这两种药物的效果大致相同。
问题：如果你试图使用原始严格规则在现实世界的医院记录中寻找这些患者，你很可能会得到一个极小且奇怪的群体，他们看起来不像真实的人。
AERO 的解决方案：AERO 重新分类了规则。它保留了心力衰竭诊断（必备项）和安全排除项（安全警告）。但它将诸如“近期安装起搏器”或“特定用药史”之类的内容移入了“背景噪音”格，这意味着他们保留了这些患者，但稍后在数学计算中进行了调整。

结果：
当他们使用 AERO 优化的规则运行研究时，他们得到了HR = 1.56的结果（这是一种统计学说法，意为“无显著差异”）。这与原始试验的结论（HR = 1.01，“无差异”）相符。

“消融”教训（“如果”实验）
这篇论文还进行了一项有趣的实验，以证明 AERO 分类的重要性。他们选取了一条特定规则：“不接受使用特定血液稀释剂（LMWH）的患者。”

情景 A（严格规则）：他们将所有使用该血液稀释剂的人排除在研究之外。突然间，结果改变了！看起来一种药物优于另一种。为什么？因为通过剔除这些人，他们意外地排除了病情最严重的患者，从而扭曲了群体。
情景 B（AERO 的方式）：他们保留了这些患者，但将血液稀释剂视为“背景噪音”以便稍后调整。结果回到了“无差异”，符合原始真相。

核心启示

该论文声称，你如何决定谁进入研究，会改变结果。

如果你试图将严格的实验室试验直接复制到杂乱的现实世界中，你可能会破坏实验。AERO 充当了翻译的角色。它利用 AI 和医学知识指出：“这条规则关乎安全，请保留。这条规则关乎后勤，请剔除。这条规则只是一个特征，请对此进行调整。”

通过这样做，AERO 允许研究人员使用现实世界的医院数据来回答通常需要昂贵、受控试验才能解决的问题，同时确保答案依然准确和公平。它架起了实验室“完美世界”与现实医院“杂乱世界”之间的桥梁。

AERO: An AI Agent for Adaptive Eligibility Refinement and Optimization of Clinical Trial Criteria in Real-World Trial Emulation

1. “四格”分类系统

2. “知识图书管理员”

3. 试驾：WARCEF 试验

核心启示

1. 问题陈述

2. 方法论：AERO 框架

3. 主要贡献

4. 结果：WARCEF 试验模拟

5. 意义与影响

1. “四格”分类系统

2. “知识图书管理员”

3. 试驾：WARCEF 试验

核心启示

1. 问题陈述

2. 方法论：AERO 框架

3. 主要贡献

4. 结果：WARCEF 试验模拟

5. 意义与影响

类似论文