EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EveryQuery 的新模型，它旨在解决医疗人工智能（AI）在预测病人未来健康状况时遇到的一个核心难题。

为了让你更容易理解，我们可以把现有的医疗 AI 模型和 EveryQuery 比作两种不同的**“算命”方式**。

1. 旧方法：像“疯狂掷骰子”的预言家

目前的顶尖医疗模型（被称为“自回归模型”）工作方式是这样的：

怎么工作？ 当你问它“这个病人未来 30 天会得肺炎吗？”，它不会直接回答“是”或“否”。相反，它会像掷骰子一样，在脑海里模拟这个病人未来可能发生的20 种不同的人生剧本（比如：剧本 A 他得了肺炎，剧本 B 他没事，剧本 C 他又发烧了……）。
怎么算结果？ 它把这 20 个剧本跑完，然后数一数：“哎呀，20 个剧本里有 2 个剧本里他得了肺炎，所以概率是 10%。”
有什么缺点？
1. 太慢了： 为了算一个概率，它要跑 20 次模拟，非常消耗算力。
2. 太吵了（不准）： 如果是一个罕见病（比如只有 1% 的人得病），它掷 20 次骰子可能一次都没中。这时候它只能瞎猜，或者给出"0%"这种不准确的数字。
3. 不灵活： 你不能直接问它具体的问题。它只能顺着时间线往下“编故事”，很难针对特定的医疗问题（比如“明天会不会发烧”）进行精准提问。

2. 新方法：EveryQuery（像“超级医生”的直觉）

这篇论文提出的 EveryQuery 模型，换了一种完全不同的思路。它不再“编故事”，而是直接“回答问题”。

怎么工作？ 它把病人的病历看作一本历史书，把你想问的问题（比如"30 天内是否发生肺炎”）看作一个具体的指令。
- 它不再模拟未来，而是直接看着病人的历史，结合你的指令，一眼就能看出答案。
- 这就好比一个经验丰富的老医生，看一眼病历，再听你问“这病人会不会得肺炎？”，他直接凭经验给出一个概率，不需要在脑子里重演病人的一生。
核心魔法：任务条件化预训练
- 作者在训练这个模型时，给它看了海量的“病历 + 问题”组合。
- 比如：给模型看“张三的病历” + “问题：30 天内会得糖尿病吗？”，然后告诉它正确答案。
- 通过这种训练，模型学会了：只要看到特定的问题，就调动病历里相关的信息来回答。

3. EveryQuery 的三大超能力

🚀 超快（效率）

比喻： 旧模型是“跑 20 圈马拉松再算平均速度”，EveryQuery 是“直接冲刺终点看时间”。
结果： 在同样的任务上，EveryQuery 比旧模型快了 3000 倍！以前算一次要几秒，现在只要几毫秒。

🎯 超准（特别是罕见病）

比喻： 想象你要找一颗藏在沙滩里的特定贝壳（罕见病）。
- 旧模型是“随机挖 20 个坑”，如果运气不好，20 个坑里都没有，它就以为没有贝壳。
- EveryQuery 是“拿着金属探测器直接找”。它不需要挖坑，它直接分析沙滩的纹理（病历特征），知道贝壳藏在哪。
结果： 对于罕见病，旧模型经常猜错，而 EveryQuery 依然很准。在测试的 39 个任务中，EveryQuery 赢了 82% 的任务。

💬 超级灵活（可提问）

比喻： 旧模型像是一个只会写小说的作家，你只能让它“接着写下去”；EveryQuery 像是一个问答机器人。
结果： 你可以直接输入结构化的问题（比如“代码 X 在未来 30 天出现吗？”），模型直接回答。不需要重新训练，也不需要复杂的设置。

4. 它有什么小缺点？（目前的局限）

虽然 EveryQuery 很厉害，但它也有个“死脑筋”的地方：

比喻： 它擅长回答“是不是A？”或者“是不是B？”。但如果问题是“是不是A 或者 B 或者 C？”（比如：30 天内任何一种原因导致的再次住院），它就有点懵了。
原因： 它目前的“语言”只能处理单一的具体问题。要回答“或者”这种复杂逻辑，它得把 70 种可能的原因一个个问一遍再拼起来，效果就不如旧模型那种“直接看整个未来剧本”的方法了。
未来计划： 作者说，未来会教它更复杂的“语言”，让它能处理这种“或者”、“并且”的复杂逻辑。

总结

EveryQuery 就像是把医疗 AI 从“只会写长篇大论的作家”进化成了“一眼看穿病情的专家”。

它不再模拟未来，而是直接回答现在的问题。
它更快、更准，特别是对于那些很难预测的罕见病。
它让医生可以像聊天一样，直接问 AI 具体的临床问题，而不用去管背后复杂的计算过程。

这篇论文的核心思想就是：与其让 AI 瞎猜未来会发生什么，不如让它学会如何精准地回答我们提出的具体问题。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

背景：
基于电子健康记录（EHR）的预训练基础模型（Foundation Models）在临床预测领域展现出巨大潜力。目前的主流方法（如 ETHOS, CoMET）采用**自回归（Autoregressive, AR）**架构，通过生成未来的合成患者轨迹并聚合统计量来实现零样本（Zero-Shot）预测。

现有方法的局限性：
尽管自回归模型具有通用性，但在实际临床应用中存在三个主要缺陷：

计算昂贵（Inefficiency）： 为了获得一个预测结果，模型需要采样大量（如 K=20）的未来轨迹并聚合统计，计算成本极高。
统计噪声大（High Variance）： 预测结果依赖于采样轨迹的数量。对于罕见事件（低发病率），由于采样轨迹中可能根本未出现该事件，导致概率估计被严重量化（Quantized）且方差极大，甚至出现零概率估计。
缺乏原生提示能力（Not Promptable）： 用户无法直接通过特定的临床问题（Prompt）来条件化模型的预测。自回归模型生成的是通用未来，若要针对特定任务，需设计复杂的聚合流程或重新定义推理管道。

核心目标：
构建一个同时满足以下三个理想的 EHR 基础模型：

零样本推理： 无需针对特定任务微调即可预测任意任务。
高效性： 单次前向传播即可推理，避免轨迹展开。
可提示性（Promptability）： 用户可通过结构化查询直接指定临床任务。

2. 方法论 (Methodology)

作者提出了 EveryQuery，一种基于**任务条件化预训练（Task-Conditioned Pretraining）**的 EHR 基础模型。

2.1 核心思想

不同于自回归模型学习 $p(x)$ （生成未来），EveryQuery 直接学习 $p(y | x, q)$ （给定患者历史 $x$ 和任务查询 $q$ ，预测结果 $y$ ）。

查询语言（Query Language）： 将绝大多数临床预测任务统一参数化为：“代码 $c$ 是否会在时间窗口 $\Delta t$ 内发生？”
输入形式： 模型输入由两部分组成：患者的医疗历史序列 $x$ 和结构化的任务查询 $q = (c, \Delta t)$ 。

2.2 模型架构

骨干网络： 使用双向 Transformer（ModernBERT-base 架构），包含 22 层，隐藏层维度 768，约 1.49 亿参数。
查询前置（Query Prepending）： 查询代码 $c$ 被映射为单个 Token，并前置到患者历史序列之前，形成输入 $[q; x_1, ..., x_L]$ 。
注意力机制： 查询 Token 与所有患者 Token 进行双向注意力交互（Cross-attention），使得查询能够动态关注患者历史中相关的信号。
预测头（Prediction Heads）： 基于查询 Token 的最终隐藏状态，通过两个 MLP 头分别输出：
1. $\hat{y}_{occurs}$ ：事件发生的概率。
2. $\hat{y}_{cens}$ ：数据截断（Censoring）的概率（即随访时间不足 30 天）。

2.3 预训练策略

数据构建： 从 MEDS 标准的 11,467 个代码中随机采样 10,000 个作为查询目标（Query Targets），其余代码作为分布外（OOD）测试集。
训练样本： 每个样本包含患者历史和一个随机分配的任务查询。
损失函数： 多任务目标函数 $L = L_{cens} + \lambda L_{occurs}$ $L = L_{ce n s} + λ L_{occ u r s}$ 。
- $L_{cens}$ ：所有样本的二元交叉熵。
- $L_{occurs}$ ：仅在非截断样本（已知结果）上计算二元交叉熵。
推理过程： 用户输入查询 $q$ ，模型仅通过单次确定性前向传播直接输出概率，无需采样或微调。

3. 关键贡献 (Key Contributions)

提出任务条件化预训练范式： 首次将 EHR 基础模型从“生成未来轨迹”转变为“直接回答结构化查询”，实现了零样本、高效且可提示的推理。
解决罕见事件预测难题： 证明了基于轨迹采样的自回归方法在低发病率事件上存在根本性缺陷，而 EveryQuery 通过直接关注相关证据，实现了与发病率无关的稳健预测。
揭示表示空间的组织机制： 通过嵌入分析发现，EveryQuery 的表示空间是由**查询（Query）**主导组织的，而非由患者主导。这意味着模型真正学会了根据任务调整对患者的关注点，而非学习固定的患者嵌入。
实证性能突破： 在 MIMIC-IV 数据集上，EveryQuery 在 39 个随机采样任务中，有 82% 的任务表现优于自回归基线，平均 AUC 提升 +0.16。

4. 实验结果 (Results)

实验在 MIMIC-IV 数据集上进行，对比基线为 MEDS-EIC-AR（自回归模型）。

零样本性能：
- EveryQuery 在 39 个任务中赢了 32 个（82%）。
- 平均 AUC 提升：+0.16 (95% CI: [0.10, 0.22])。
- 统计显著性：Wilcoxon 符号秩检验 $p < 10^{-5}$ 。
分布外泛化（Generalization）：
- 对于预训练时未见过作为“查询目标”的代码（OOD），EveryQuery 依然保持高性能（18 个 OOD 任务中赢了 17 个，94%）。
- 这表明模型学会了通用的任务条件化机制，而非死记硬背特定的代码。
罕见事件优势（Rare Event Advantage）：
- 负相关性： EveryQuery 的相对优势与事件发病率呈显著负相关（Spearman $\rho = -0.32$ ）。
- 机制分析： 自回归模型的 AUC 与发病率强正相关（ $\rho = 0.64$ ），因为罕见事件在采样轨迹中难以出现；而 EveryQuery 的 AUC 与发病率几乎无关（ $\rho = 0.18$ ），因为它直接查询特定代码的证据。
计算效率：
- EveryQuery 比自回归基线快约 3,000 倍。
- 自回归模型需生成 20 条轨迹（约 6 秒/患者），EveryQuery 仅需单次前向传播（约 20 毫秒/患者）。
局限性（Readmission 任务）：
- 在"30 天再入院”任务上表现不佳（AUC 0.56 vs 基线 0.64）。
- 原因： 再入院定义为“任意 70 种入院代码之一发生”，这是一个**析取（Disjunction）**逻辑。当前查询语言仅支持单代码，需对 70 个查询进行后处理聚合，导致信息丢失和误差累积。

5. 意义与未来展望 (Significance & Future Work)

意义：

范式转变： 证明了对于结构化临床数据，任务条件化判别式预训练比自回归生成式预训练更具优势，特别是在效率和罕见病预测方面。
临床实用性： 解决了自回归模型“计算贵、噪声大、难交互”的痛点，使得基础模型能直接响应临床医生的具体询问。
理论洞察： 揭示了基于采样的推理在低概率事件上的统计缺陷，为 EHR 建模提供了新的理论视角。

局限与未来方向：

查询语言表达力： 当前语言仅支持单代码时间谓词，无法处理复杂的逻辑组合（如“或”、“与”、“非”）。未来需扩展查询代数以支持析取（如再入院）和复合任务。
评估规模： 目前仅在 MIMIC-IV 和单一基线上进行了评估，未来需在更多数据集和更复杂的基线（如更多采样轨迹的 AR 模型）上验证。
混合架构： 探索结合 EveryQuery 的高效定向预测与自回归模型的探索性/复合任务生成能力。

总结：
EveryQuery 通过引入任务条件化预训练，成功构建了一个高效、零样本且可提示的 EHR 基础模型。它在绝大多数任务上超越了自回归基线，特别是在解决罕见事件预测这一长期痛点上取得了突破性进展，尽管目前仍受限于查询语言的表达复杂度。