Machine Learning Estimation of Gestational Age at Delivery Using Linked Mother-Infant Electronic Health Records Across Two Health Systems

本研究证明,基于关联的母婴电子健康记录训练的监督机器学习模型,能够准确且具泛化能力地估算不同医疗体系中的分娩孕周,从而为支持大规模母婴健康研究提供稳健框架。

原作者: Bejan, C. A., Yang, X., Pham, A., Qassem, L., Abraham, A. A., Choi, L., Rosenbloom, S. T., Gamire, L. X., Phillips, E. J.

发布于 2026-05-25
📖 1 分钟阅读☕ 轻松阅读

原作者: Bejan, C. A., Yang, X., Pham, A., Qassem, L., Abraham, A. A., Choi, L., Rosenbloom, S. T., Gamire, L. X., Phillips, E. J.

原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

想象一下,你正试图仅通过查看患者的病历来准确推测一次妊娠持续了多久。有时,病历中缺失了预产期的具体日期,或者记录潦草难辨。这对于试图研究药物如何影响婴儿的研究人员来说是一个大问题,因为如果时间推算错误,整个研究都可能存在缺陷。

本文介绍了一种智能数字侦探的构建,它能够在官方记录缺失或模糊的情况下推算出妊娠时长(胎龄)。

以下是研究人员所做工作的简要说明:

1. 训练场:两大医学档案库

研究人员并未只查看一家医院的病历,而是利用了两大医学记录档案库:

  • 位于纳什维尔的范德比尔特大学医学中心(VUMC)
  • 位于安娜堡的密歇根大学(UMich)

可以将这两处视为两个不同的“训练健身房”。他们从这些健身房中提取了数百万份母婴记录,用以训练其计算机程序识别模式。

2. 侦探的工具包:它使用了哪些线索?

计算机程序(机器学习模型)并非凭空猜测。它像侦探拼凑拼图一样,在病历中寻找特定线索。研究人员测试了三种不同的“工具包”,以查看哪种效果最佳:

  • 工具包 A(仅母亲): 仅查看母亲的历史(年龄、种族、既往妊娠史)。
  • 工具包 B(母亲 + 医院记录): 增加了通用医院数据(如 ICD 编码,即医疗状况的简写标签)。
  • 工具包 C(全套方案): 还加入了婴儿的数据!这包括婴儿的出生体重、其“阿普加评分”(出生后即刻的快速健康检查)以及婴儿自身的医疗标签。

类比: 想象你试图推测蛋糕烘烤了多久。

  • 工具包 A 就像仅根据烘焙师的经验进行猜测。
  • 工具包 B 就像查看食谱卡片。
  • 工具包 C 则是同时观察烘焙师、食谱,以及成品蛋糕的大小和质地。不出所料,全套方案(工具包 C)最为准确。

3. “智能猜测”与“平均猜测”

在使用其高级人工智能之前,研究人员尝试了一种简单的方法:直接猜测所有人的平均妊娠时长。

  • 结果: 简单的平均值往往偏差很大,就像不管蛋糕大小如何,都猜测每个蛋糕恰好需要 45 分钟。
  • AI 结果: 机器学习模型要敏锐得多。它们能在一周内预测出妊娠时长,准确率约为85% 至 93%。在两周内,其准确率达到94% 至 98%

4. “跨城市”测试

为了确保他们的侦探并非仅仅死记硬背了纳什维尔的档案库,研究人员将相同的规则应用到了密歇根档案库。

  • 结果: 效果同样出色,甚至在密歇根的表现更好。这证明该“侦探”不仅仅是一位本地专家,而是一位能在不同医院工作的通才。

5. 侦探的失足之处

该论文诚实地指出了该系统尚不完美之处:

  • 早产儿: 该系统在推测足月妊娠(在“正确”时间出生的婴儿)的时长方面表现出色。然而,对于早产儿,它的表现稍显吃力。这就像侦探擅长解决常规案件,但面对罕见、复杂的谜团时会感到困惑。
  • 较旧的数据: 该系统在近年来的记录上表现更好。这可能是因为较旧的记录(2015 年之前)使用了不同的编码系统,或者超声技术精度较低,使得线索更难解读。

核心结论

该论文得出结论,我们现在拥有一个可靠、便携的“计算器”,可以填补病历中缺失的妊娠日期。通过结合母亲的历史、医院记录和婴儿的详细信息,该工具能帮助研究人员以前所未有的精度研究妊娠安全性。

重要提示: 作者特别指出,这是用于研究以修复研究中缺失数据的工具。他们并未声称该工具应立即用于医院环境中由医生为个别患者做出即时临床决策。它是一种清理数据的方式,以便科学家能更深入地了解母婴健康。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →