✨ 要点🔬 技术摘要
想象一下,你正试图仅通过查看患者的病历来准确推测一次妊娠持续了多久。有时,病历中缺失了预产期的具体日期,或者记录潦草难辨。这对于试图研究药物如何影响婴儿的研究人员来说是一个大问题,因为如果时间推算错误,整个研究都可能存在缺陷。
本文介绍了一种智能数字侦探 的构建,它能够在官方记录缺失或模糊的情况下推算出妊娠时长(胎龄)。
以下是研究人员所做工作的简要说明:
1. 训练场:两大医学档案库
研究人员并未只查看一家医院的病历,而是利用了两大医学记录档案库:
位于纳什维尔的范德比尔特大学医学中心(VUMC) 。
位于安娜堡的密歇根大学(UMich) 。
可以将这两处视为两个不同的“训练健身房”。他们从这些健身房中提取了数百万份母婴记录,用以训练其计算机程序识别模式。
2. 侦探的工具包:它使用了哪些线索?
计算机程序(机器学习模型)并非凭空猜测。它像侦探拼凑拼图一样,在病历中寻找特定线索。研究人员测试了三种不同的“工具包”,以查看哪种效果最佳:
工具包 A(仅母亲): 仅查看母亲的历史(年龄、种族、既往妊娠史)。
工具包 B(母亲 + 医院记录): 增加了通用医院数据(如 ICD 编码,即医疗状况的简写标签)。
工具包 C(全套方案): 还加入了婴儿的数据!这包括婴儿的出生体重、其“阿普加评分”(出生后即刻的快速健康检查)以及婴儿自身的医疗标签。
类比: 想象你试图推测蛋糕烘烤了多久。
工具包 A 就像仅根据烘焙师的经验进行猜测。
工具包 B 就像查看食谱卡片。
工具包 C 则是同时观察烘焙师、食谱,以及 成品蛋糕的大小和质地。不出所料,全套方案(工具包 C)最为准确。
3. “智能猜测”与“平均猜测”
在使用其高级人工智能之前,研究人员尝试了一种简单的方法:直接猜测所有人的平均妊娠时长。
结果: 简单的平均值往往偏差很大,就像不管蛋糕大小如何,都猜测每个蛋糕恰好需要 45 分钟。
AI 结果: 机器学习模型要敏锐得多。它们能在一周 内预测出妊娠时长,准确率约为85% 至 93% 。在两周 内,其准确率达到94% 至 98% 。
4. “跨城市”测试
为了确保他们的侦探并非仅仅死记硬背了纳什维尔的档案库,研究人员将相同的规则应用到了密歇根档案库。
结果: 效果同样出色,甚至在密歇根的表现更好。这证明该“侦探”不仅仅是一位本地专家,而是一位能在不同医院工作的通才。
5. 侦探的失足之处
该论文诚实地指出了该系统尚不完美之处:
早产儿: 该系统在推测足月妊娠(在“正确”时间出生的婴儿)的时长方面表现出色。然而,对于早产儿,它的表现稍显吃力。这就像侦探擅长解决常规案件,但面对罕见、复杂的谜团时会感到困惑。
较旧的数据: 该系统在近年来的记录上表现更好。这可能是因为较旧的记录(2015 年之前)使用了不同的编码系统,或者超声技术精度较低,使得线索更难解读。
核心结论
该论文得出结论,我们现在拥有一个可靠、便携的“计算器”,可以填补病历中缺失的妊娠日期。通过结合母亲的历史、医院记录和婴儿的详细信息,该工具能帮助研究人员以前所未有的精度研究妊娠安全性。
重要提示: 作者特别指出,这是用于研究 以修复研究中缺失数据的工具。他们并未声称该工具应立即用于医院环境中由医生为个别患者做出即时临床决策。它是一种清理数据的方式,以便科学家能更深入地了解母婴健康。
技术摘要:利用关联的母婴电子健康记录通过机器学习估算分娩时孕周
问题陈述 准确估算孕周(GA)对于妊娠及子代健康研究至关重要,特别是在药物流行病学研究中,定义暴露窗口和胎儿易感性依赖于精确的妊娠日期。然而,由于提供者录入错误、缺乏超声检查记录或系统基础设施限制,电子健康记录(EHR)和行政索赔数据库中的孕周数据经常存在缺失、不完整或错误。这些不准确之处可能导致药物暴露的错误分类,引入偏差并削弱研究的有效性。虽然先前的研究侧重于利用行政索赔数据估算孕周,但有必要利用 EHR 系统中更丰富的关联母婴数据,以提高估算准确性并在多样化的医疗环境中增强其普适性。
方法学 这项回顾性队列研究开发并验证了监督式机器学习算法,利用来自两所学术医疗系统的关联母婴 EHR 数据估算分娩时孕周:范德比尔特大学医学中心(VUMC,2005–2025 年)和密歇根大学(UMich,2012–2024 年)。
数据来源与队列 :研究使用了 VUMC 的研究衍生数据集和 UMich 的 EHR 数据库。初始队列包括 91,471 对(VUMC)和 55,733 对(UMich)母婴配对。在应用排除标准(每例母亲仅保留一名婴儿、排除非活产、要求有足够的产前护理)后,最终分析队列在 VUMC 包含 54,344 对,在 UMich 包含 34,345 对。
参考标准 :分娩时母体记录中记录的临床孕周(CGA)估算值作为真实值。这些文本模式(例如"39 周 2/7")被解析为数值天数。
预测变量 :特征源自三个来源:
母体记录 :人口统计学特征(年龄、种族/民族),早产/足月/过期产、胎儿生长受限及胎儿过度生长的 ICD 编码。
EHR 系统数据 :标准就诊信息及 ICD 编码频率(编码为不同的天数或就诊次数)。
婴儿记录 :出生体重、1 分钟和 5 分钟 Apgar 评分,以及婴儿特异性 ICD 编码(早产、小于胎龄儿 SGA、大于胎龄儿 LGA)。出生体重和 Apgar 评分的缺失值使用中位数进行填补。
模型配置 :为了评估不同数据环境下的性能,测试了三种配置:
C1(母体) :仅使用母体预测变量。
C2(母体 + EHR) :母体 + 标准 EHR 特征。
C3(母体 + EHR + 儿科) :所有可用预测变量,包括婴儿记录(代表关联数据环境)。
算法 :训练了随机森林(RF)、梯度提升(GB)以及一个集成模型(平均 RF 和 GB 预测值)。通过 5 折交叉验证优化超参数。应用了分位数变换以解决 CGA 的左偏分布问题。
评估 :在保留的测试集上使用预测值与参考标准在±1 周和±2 周内的比例以及平均绝对误差(MAE)来评估性能。使用自助法(1,000 次重采样)计算 95% 置信区间。
主要结果
整体性能 :集成模型达到了最高的准确性。在 VUMC 测试集上,它预测了 85.2% 的妊娠在±1 周内,94.3% 在±2 周内,MAE 为 4.4 天。在 UMich 测试集上,性能提升至 93.1%(±1 周)和 97.8%(±2 周),MAE 为 2.8 天。
与基线的比较 :机器学习模型显著优于简单的均值和中位数基线。例如,在 VUMC 测试集上,与均值基线(12.3 天)相比,ML 模型将 MAE 降低了 6.8 至 7.9 天。
预测变量影响 :随着更多数据源的加入,性能持续改善(C1 < C2 < C3)。纳入婴儿特异性数据(出生体重、Apgar 评分、儿科 ICD 编码)提供了最显著的准确性提升。
时间和分层分析 :
ICD 转换 :与 ICD-9-CM 时代相比,模型在 2015 年 10 月 1 日或之后(ICD-10-CM 时代)分娩的妊娠中表现更好。
分娩状态 :模型在足月和晚期分娩中表现最佳。早产分娩的性能明显较低。
普适性 :在 VUMC 数据上训练并在 UMich 数据上复现的模型展示了强大的可移植性,UMich 的复现结果显示出与参考标准更高的一致性。
意义与主张 作者声称,本研究提出了一个稳健且可推广的机器学习框架,用于利用关联的母婴 EHR 估算分娩时孕周。其主要意义在于:
利用关联数据 :证明结合母体和婴儿记录(C3 配置)显著优于仅依赖母体或行政数据的模型。
可移植性与可重复性 :成功在两个具有不同数据历史和患者人口统计特征的独立医疗系统中复现了建模流程,表明所学到的关联具有广泛的普适性,而非特定于站点。
研究效用 :为在大型真实世界临床研究中估算缺失或无效的孕周数据提供了可靠工具,从而减少药物流行病学和围产期研究中的偏差。
论文承认了局限性,包括早产分娩的性能次优,以及当前模型范围排除了非活产结局(死产、终止妊娠)。作者强调,虽然该框架是稳健的,但未来的工作需要解决早产估算中的性能差距,并评估与健康差异相关的潜在偏差。
每周获取最佳 obstetrics and gynecology 论文。
受到斯坦福、剑桥和法国科学院研究人员的信赖。
请查收邮箱确认订阅。
出了点问题,再试一次?
无垃圾邮件,随时退订。