Deep Learning-Based Missing Value Imputation for Heart Failure Mortality risk Prediction Data from MIMIC-III: A Comparative Study of DAE, SAITS, and MICE+LightGBM

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一下，ICU（重症监护室）里的医生就像是在驾驶一艘在暴风雨中航行的巨轮，而电子病历（EHR）就是他们的雷达和航海图。对于患有心力衰竭的病人来说，这张航海图至关重要，因为它能告诉医生如何调整航向，挽救生命。

但是，现实很骨感：就像雷达偶尔会被海浪干扰、信号偶尔会中断一样，病人的监测设备也会出故障，导致病历上出现很多**“空白格”**（缺失的数据）。如果医生看着一张残缺不全的地图做决定，风险就太大了。

这篇论文就是为了解决这个问题：如何最聪明地把这些“空白格”填上？

作者们从著名的医疗数据库（MIMIC-III）里找来了 14,090 位心衰病人的数据，并挑选了 19 个最关键的“生命体征”作为研究对象。为了测试哪种方法最靠谱，他们故意在数据里制造了 20%、30% 甚至 50% 的“空白”，然后派出了三位“填坑高手”来比赛：

MICE+LightGBM（传统老派选手）：
这就像是一位经验丰富的老会计，他擅长用“查账”和“逻辑推理”来填补缺失。比如，如果“血压”缺了，他就看看“心率”和“年龄”来推测。这种方法很经典，但面对复杂多变的 ICU 数据时，它显得有点力不从心。
DAE（去噪自编码器 - 深度学习选手 A）：
这像是一个**“超级记忆大师”**。它见过成千上万张完整的病历，大脑里建立了一个庞大的“正常模式库”。当它看到一张有缺口的图时，它能瞬间回忆起“通常这种情况下，缺少的部分应该长什么样”，然后凭直觉和模式识别把它补全。
SAITS（自注意力时间序列插补 - 深度学习选手 B）：
这像是一个**“时间侦探”**。它不仅看现在的状态，还特别擅长分析“过去”和“未来”的联系。比如，它知道病人的心率在 10 分钟前是 80，10 分钟后是 85，那么中间的缺失值它就能通过这种时间上的“连贯性”精准地推断出来。

作者们给这三位选手出了一道道难题（从 20% 到 50% 的缺失率），看看谁填得最准：

当缺失不多（20%）时：两位深度学习选手（DAE 和 SAITS）表现非常出色，它们填补的数据几乎和真实值一模一样，误差极小。而那位“老会计”（MICE）虽然也尽力了，但留下的“补丁”痕迹比较明显，误差稍大。
当缺失很多（50%）时：这就相当于把地图撕掉了一半！这时候，“老会计”彻底懵了，因为线索太少，它猜不准了。而两位深度学习选手依然稳如泰山，尤其是SAITS，它凭借对时间规律的敏锐捕捉，表现最佳，DAE 紧随其后。

这篇论文告诉我们一个道理：在 ICU 这种复杂、动态的环境下，传统的“填表”方法已经不够用了。

就像在暴风雨中航行，我们需要的是能理解海浪规律、拥有超强记忆和预测能力的AI 智能导航，而不是仅仅依靠简单的逻辑推理。

结论：将这种基于深度学习的“填坑”技术（特别是 SAITS 和 DAE）应用到医院的决策系统中，能让医生在面对残缺数据时，依然能做出最接近真相的判断，从而更好地挽救心衰病人的生命。这不仅仅是填补几个数字，更是为生命加了一道更安全的保险。

基于深度学习的缺失值填补在心力衰竭死亡率预测中的应用：一项基于 MIMIC-III 数据库的比较研究