HealthFormer: Dual-level time-aware Transformers for irregular electronic health record events

本文提出了 HealthFormer,一种利用双层级时间感知 Transformer 对不规则电子健康记录进行建模的预训练框架,该框架通过结合事件内代码聚合与基于 ALiBI 的连续时间注意力机制,在大规模匈牙利健康数据上实现了有效的自监督预训练,并在癌症预测任务中显著优于传统基线模型。

Körösi-Szabo, P., Kovacs, G., Csiszarik, A., Forrai, B., Laki, J., Szocska, M., Kovats, T.

发布于 2026-03-27
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 HealthFormer 的人工智能系统,它就像是一位超级懂行的“健康历史侦探”,专门用来阅读和分析人们杂乱无章的医疗记录。

为了让你更容易理解,我们可以把这篇论文的核心内容想象成是在整理一本极其混乱的“人生健康日记”

1. 面临的挑战:一本乱糟糟的日记

想象一下,你有一本记录了某人过去 10 年所有看病经历的日记。这本日记有几个让人头疼的特点:

  • 时间不规律:有时候一天看三次病,有时候三年没去过医院。
  • 内容混杂:每次看病(事件)里,可能同时记着“发烧”(诊断)、“开了阿司匹林”(药物)、“做了 X 光”(检查)和“在哪家医院”(地点)。这些信息来自不同的系统,格式五花八门。
  • 传统方法的局限:以前的 AI 就像是一个只会数数的会计,它可能把这一页所有的字都揉成一团(比如“发烧 + 药+医院”),或者只关注时间间隔是“长”还是“短”,却忽略了每次看病时具体发生了什么细节,以及这些细节之间微妙的联系

2. HealthFormer 的解决方案:双级“侦探”架构

HealthFormer 就像是一个拥有双重智慧的侦探,它把整理日记的过程分成了两步:

第一步:微观侦探( intra-Event Encoder)——“读懂每一次看病”

当侦探面对日记中的某一次看病记录时,他不会把“发烧”、“药”和“医院”混为一谈。

  • 比喻:就像你在整理一个工具箱。虽然工具箱里既有锤子(诊断),又有螺丝刀(药物),还有说明书(医院信息),但侦探知道它们属于不同的类别。
  • 做法:HealthFormer 会先分别理解这些不同的工具(代码),然后把它们组合成一个完整的“工具箱画像”(事件嵌入)。这样,它就能明白“这次看病”到底是一个复杂的综合治疗,还是一次简单的开药。

第二步:宏观侦探(Inter-Event Encoder)——“串联整个人生轨迹”

看完每一次看病后,侦探需要把这些分散的“工具箱画像”按时间顺序串起来,看看整个人生的健康趋势。

  • 比喻:这就像是在看电影。以前的方法可能只记得电影里有哪些场景,但 HealthFormer 特别关注场景之间的时间流逝
  • 时间魔法:它不像普通电影那样按“第 1 帧、第 2 帧”来数,而是像感知时间一样。如果两个场景相隔了 5 年,它会觉得这中间发生了很多事;如果相隔只有 1 天,它会觉得这两件事紧密相关。它使用了一种叫"ALiBI"的魔法(一种时间注意力机制),让 AI 能敏锐地感知到“时间间隔”带来的不同含义,而不是生硬地切分时间块。

3. 如何学习?——“自我修炼”的预训练

在成为真正的医生之前,HealthFormer 先进行了一场大规模的“自我修炼”(自监督预训练)。

  • 方法:它阅读了匈牙利全国数千万人的十年医疗记录(就像读完了整个图书馆的书)。
  • 游戏:它玩了几种“填空游戏”来锻炼大脑:
    1. 猜词游戏:遮住一个药名,让它根据上下文猜出来。
    2. 猜类型游戏:遮住整个看病记录,让它猜这是“住院”还是“门诊”。
    3. 预测未来:根据过去的记录,猜下一次会发生什么类型的看病。
    4. 猜时间:猜下一次看病距离现在还有多久。
  • 成果:通过这种训练,它学会了医疗代码之间的深层关系。比如,它发现“糖尿病”和“胰岛素”经常一起出现,而且这种关系在几何空间上是有规律的(就像把相似的词放在地图的同一个区域)。

4. 实战表现:预测癌症的“水晶球”

训练好的 HealthFormer 被用来做一个具体的任务:预测某人未来 30、60 或 90 天内是否会患上某种癌症(如结直肠癌或前列腺癌)。

  • 对比:它和传统的“老式会计”(逻辑回归模型,只数数、算算时间)进行了比赛。
  • 结果:HealthFormer 大获全胜!
    • 在预测结直肠癌时,它的准确率(AUC)达到了 0.81,而最好的老式模型只有 0.68
    • 在预测前列腺癌时,它的准确率更是高达 0.94,远超对手。
  • 意义:这说明 HealthFormer 真的“读懂”了医疗记录中那些隐藏的时间模式和复杂联系,而不仅仅是数数。

5. 总结:为什么这很重要?

  • 通用性强:就像同一个侦探可以查盗窃案,也可以查诈骗案一样,HealthFormer 不需要为每个新任务重新设计大脑。只要微调一下,它就能用来预测心脏病、流感或其他疾病。
  • 可解释性:因为它保留了“事件”的结构,医生可以问:“为什么 AI 觉得这个人会得癌?”AI 可以回答:“因为他在 3 年前有过一次特定的住院,且中间隔了 2 年没复查,这种模式很危险。”这让 AI 的决策不再是黑箱。
  • 适应现实:它专门处理现实中那种“时间乱、内容杂”的医疗数据,而不是只处理完美的实验室数据。

一句话总结
HealthFormer 是一个既懂细节又懂时间的 AI 医生,它通过阅读海量杂乱的医疗日记,学会了像人类专家一样理解病情发展的脉络,从而能更准确地预测未来的健康风险。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →