HealthFormer: Dual-level time-aware Transformers for irregular electronic health record events

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 HealthFormer 的人工智能系统，它就像是一位超级懂行的“健康历史侦探”，专门用来阅读和分析人们杂乱无章的医疗记录。

为了让你更容易理解，我们可以把这篇论文的核心内容想象成是在整理一本极其混乱的“人生健康日记”。

1. 面临的挑战：一本乱糟糟的日记

想象一下，你有一本记录了某人过去 10 年所有看病经历的日记。这本日记有几个让人头疼的特点：

时间不规律：有时候一天看三次病，有时候三年没去过医院。
内容混杂：每次看病（事件）里，可能同时记着“发烧”（诊断）、“开了阿司匹林”（药物）、“做了 X 光”（检查）和“在哪家医院”（地点）。这些信息来自不同的系统，格式五花八门。
传统方法的局限：以前的 AI 就像是一个只会数数的会计，它可能把这一页所有的字都揉成一团（比如“发烧 + 药+医院”），或者只关注时间间隔是“长”还是“短”，却忽略了每次看病时具体发生了什么细节，以及这些细节之间微妙的联系。

2. HealthFormer 的解决方案：双级“侦探”架构

HealthFormer 就像是一个拥有双重智慧的侦探，它把整理日记的过程分成了两步：

第一步：微观侦探（ intra-Event Encoder）——“读懂每一次看病”

当侦探面对日记中的某一次看病记录时，他不会把“发烧”、“药”和“医院”混为一谈。

比喻：就像你在整理一个工具箱。虽然工具箱里既有锤子（诊断），又有螺丝刀（药物），还有说明书（医院信息），但侦探知道它们属于不同的类别。
做法：HealthFormer 会先分别理解这些不同的工具（代码），然后把它们组合成一个完整的“工具箱画像”（事件嵌入）。这样，它就能明白“这次看病”到底是一个复杂的综合治疗，还是一次简单的开药。

第二步：宏观侦探（Inter-Event Encoder）——“串联整个人生轨迹”

看完每一次看病后，侦探需要把这些分散的“工具箱画像”按时间顺序串起来，看看整个人生的健康趋势。

比喻：这就像是在看电影。以前的方法可能只记得电影里有哪些场景，但 HealthFormer 特别关注场景之间的时间流逝。
时间魔法：它不像普通电影那样按“第 1 帧、第 2 帧”来数，而是像感知时间一样。如果两个场景相隔了 5 年，它会觉得这中间发生了很多事；如果相隔只有 1 天，它会觉得这两件事紧密相关。它使用了一种叫"ALiBI"的魔法（一种时间注意力机制），让 AI 能敏锐地感知到“时间间隔”带来的不同含义，而不是生硬地切分时间块。

3. 如何学习？——“自我修炼”的预训练

在成为真正的医生之前，HealthFormer 先进行了一场大规模的“自我修炼”（自监督预训练）。

方法：它阅读了匈牙利全国数千万人的十年医疗记录（就像读完了整个图书馆的书）。
游戏：它玩了几种“填空游戏”来锻炼大脑：
1. 猜词游戏：遮住一个药名，让它根据上下文猜出来。
2. 猜类型游戏：遮住整个看病记录，让它猜这是“住院”还是“门诊”。
3. 预测未来：根据过去的记录，猜下一次会发生什么类型的看病。
4. 猜时间：猜下一次看病距离现在还有多久。
成果：通过这种训练，它学会了医疗代码之间的深层关系。比如，它发现“糖尿病”和“胰岛素”经常一起出现，而且这种关系在几何空间上是有规律的（就像把相似的词放在地图的同一个区域）。

4. 实战表现：预测癌症的“水晶球”

训练好的 HealthFormer 被用来做一个具体的任务：预测某人未来 30、60 或 90 天内是否会患上某种癌症（如结直肠癌或前列腺癌）。

对比：它和传统的“老式会计”（逻辑回归模型，只数数、算算时间）进行了比赛。
结果：HealthFormer 大获全胜！
- 在预测结直肠癌时，它的准确率（AUC）达到了 0.81，而最好的老式模型只有 0.68。
- 在预测前列腺癌时，它的准确率更是高达 0.94，远超对手。
意义：这说明 HealthFormer 真的“读懂”了医疗记录中那些隐藏的时间模式和复杂联系，而不仅仅是数数。

5. 总结：为什么这很重要？

通用性强：就像同一个侦探可以查盗窃案，也可以查诈骗案一样，HealthFormer 不需要为每个新任务重新设计大脑。只要微调一下，它就能用来预测心脏病、流感或其他疾病。
可解释性：因为它保留了“事件”的结构，医生可以问：“为什么 AI 觉得这个人会得癌？”AI 可以回答：“因为他在 3 年前有过一次特定的住院，且中间隔了 2 年没复查，这种模式很危险。”这让 AI 的决策不再是黑箱。
适应现实：它专门处理现实中那种“时间乱、内容杂”的医疗数据，而不是只处理完美的实验室数据。

一句话总结：
HealthFormer 是一个既懂细节又懂时间的 AI 医生，它通过阅读海量杂乱的医疗日记，学会了像人类专家一样理解病情发展的脉络，从而能更准确地预测未来的健康风险。

Each language version is independently generated for its own context, not a direct translation.

论文标题

HealthFormer: 用于不规则电子健康记录事件的双层级时间感知 Transformer

1. 研究背景与问题 (Problem)

电子健康记录（EHR）通常是纵向的、不规则的时间序列数据，具有以下显著特征和挑战：

数据异构性与不规则性：数据混合了多种临床编码系统（如 ICD 诊断、hPCS 手术、ATC 药物）和不同的护理场景（门诊、住院、急诊等）。事件发生的时间间隔极不规则，从几天到几年不等。
事件内部结构的丢失：现有的许多模型将复杂的就诊记录（Encounter）扁平化为单个 Token 或无序的“代码袋”（Bag-of-codes），这抹去了单次就诊内部不同代码之间的共现结构和跨域交互信息。
时间信息的利用不足：传统的基于位置编码或时间分桶（Time Binning）的方法无法充分利用临床上具有信息量的连续时间间隔（如两次就诊间的具体天数）。
迁移学习的困难：缺乏一种通用的预训练框架，能够在保留事件结构的同时，无需针对特定任务进行繁琐的特征工程即可适应新的监督预测任务。

2. 方法论 (Methodology)

HealthFormer 提出了一种双层级（Dual-level）、时间感知（Time-aware）的 Transformer 架构，旨在解决上述问题。

2.1 数据表示与事件构建

统一的事件本体：将患者历史表示为有序的事件序列 $E = [e_1, e_2, ..., e_T]$ 。每个事件 $e_t$ 是一个类型化的容器，包含事件类型（如 GP 就诊、住院、手术）、日期、特定领域的代码组（ICD, hPCS, ATC）以及元数据（如机构 ID）。
复杂病例分解：将复杂的住院过程分解为原子事件（如入院事件、期间的手术事件），以保持时间保真度。
分层 Token 化：
- 对分层编码（如 ICD-10, ATC）进行分层展开，将代码分解为其祖先路径，并添加深度嵌入。
- 对高基数元数据使用确定性特征哈希。

2.2 双层级 Transformer 架构

模型分为两个主要部分，分别处理事件内部和事件之间的信息：

事件内编码器 (Intra-Event Encoder)：
- 目的：聚合单个事件内来自不同领域的异构 Token（如诊断、手术、药物）。
- 机制：使用代码特定嵌入模块（Code-specific embedding modules）处理不同领域的 Token，并通过**注意力池化（Attention Pooling）**将它们聚合为一个单一的事件嵌入（Event Embedding）。查询向量（Query）来自事件类型嵌入，键（Key）和值（Value）来自事件内的 Token 嵌入。
- 优势：保留了单次就诊内部的代码共现结构。
事件间编码器 (Inter-Event Encoder)：
- 目的：建模长程的患者纵向轨迹。
- 时间集成：
  - 日期编码器：使用 Time2Vec 基函数将绝对日期（及年龄等衍生信号）编码为时间嵌入，并加性注入到事件表示中。
  - 连续时间注意力偏置 (Continuous-time Attention Bias)：基于 ALiBI (Attention with Linear Biases) 的变体。不使用离散的位置编码，而是根据事件间的对数时间间隔（ $\log(1 + \Delta t)$ ）计算注意力偏置。这使模型能够感知物理时间的连续性，同时保持长程交互能力。

2.3 多任务自监督预训练

模型在匈牙利全国行政健康记录（约 1000 万人，12 年数据）上进行预训练，包含四个互补的自监督任务：

代码级掩码语言建模 (Code-level MLM)：随机掩码特定领域的代码 Token，利用事件内剩余代码和纵向上下文进行预测。
事件级掩码语言建模 (Event-level MLM)：掩码整个事件（包括类型和代码），要求模型根据上下文推断事件类型。
下一事件预测 (Next-Event Prediction)：预测下一个事件的类型和代码（使用因果掩码防止信息泄露）。
下一事件时间间隔回归 (Time-to-next-event Regression)：预测距离下一个事件的天数（ $\Delta t$ ）。

2.4 下游微调

预训练后的模型可以通过标准的端到端微调或**冻结编码器（Probe）**方式适应新的监督任务（如癌症预测），无需设计特定任务的架构。

3. 核心贡献 (Key Contributions)

以事件为中心的异构 EHR 表示：构建了统一的、按类型排序的事件序列，每个事件携带特定领域的代码组，解决了扁平化表示丢失结构的问题。
双层级时间感知 Transformer：创新性地分离了“事件内编码”和“事件间序列建模”，并通过 ALiBI 风格的连续时间偏置直接注入时间间隔信息，无需粗粒度的时间分桶。
多任务自监督预训练框架：设计了涵盖代码、事件类型和时间间隔的互补预训练目标，增强了模型的表征能力。
实证分析与可解释性：
- 发现预训练诱导的 ICD-10 嵌入几何结构与医学分类层级（Hierarchy）一致，具有临床可解释性。
- 在结直肠癌和前列腺癌的发病预测任务中，显著优于传统的逻辑回归基线。

4. 实验结果 (Results)

实验在匈牙利全国数据上进行，主要评估了结直肠癌（CRC）和前列腺癌的发病预测（30/60/90 天窗口）。

性能表现：
- 结直肠癌 (CRC)：端到端微调后的 AUC 分别为 0.81 (30 天), 0.75 (60 天), 0.73 (90 天)。
- 前列腺癌：AUC 分别为 0.94 (30 天), 0.87 (60 天), 0.84 (90 天)。
对比基线：
- 显著优于包括“时间衰减代码袋”（Time-decayed bag-of-codes）在内的所有逻辑回归基线。
- 在 CRC 任务上，相比最强的基线（时间衰减代码袋），AUC 提升了约 0.13。
- 证明了预训练的事件中心序列模型捕捉到了单纯基于计数和衰减权重的模型无法获取的时序结构信号。
嵌入分析：
- t-SNE 可视化显示，学习到的 ICD 嵌入在低维空间中形成了与 ICD 层级结构一致的聚类，且高频代码的聚类更紧密，低频代码分布较分散。

5. 研究意义与结论 (Significance & Conclusion)

通用性与迁移性：HealthFormer 提供了一种通用的预训练骨干网络，无需针对特定终点重新设计架构即可通过微调适应多种临床预测任务，降低了部署成本。
临床可解释性：模型学习到的诊断嵌入与医学层级结构对齐，使得临床医生可以检查特定的代码邻域，理解模型决策背后的临床逻辑。
处理不规则数据的能力：通过显式建模事件内部结构和连续时间间隔，HealthFormer 更有效地利用了行政 EHR 中稀疏且不规则的数据特性。
未来展望：虽然目前仅在癌症预测上进行了验证，但该框架具有扩展性，未来可纳入实验室数值、非结构化文本等多模态数据，并需进行更广泛的基准测试和外部验证。

总结：HealthFormer 通过双层级架构和连续时间注意力机制，成功解决了行政 EHR 数据中事件结构复杂和时间不规则的建模难题，在保持高预测精度的同时，提供了具有临床意义的可解释表征。