CLIN-SUMM: Incremental Longitudinal Summarization of Clinical Notes Enables Scalable Representation and Early Disease Prediction

本文提出了 CLIN-SUMM 框架,通过增量式地对临床笔记进行结构化纵向摘要,在大幅减少冗余信息的同时,为疾病预测(如痴呆症)和药物轨迹提取提供了高效且具有时间保真度的标准化患者表示层。

原作者: D'Souza, V., Pace, D. F., Azhir, A., Nargesi, A., Holbrook, E. B., He, W., Naumann, T., Friedman, S., Atlas, S. J., Anderson, C. D., Hung, J., Maddah, M.

发布于 2026-04-28
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

整理医疗笔记:让长期的病历记录变得清晰且有用

在医院里,医生会为每一位患者撰写大量的临床笔记。这些笔记记录了患者的症状、诊断结果、用药调整以及实验室检查的发现。随着时间的推移,一个人的病历可能会积累成千上万页。对于医生来说,要在这些庞杂、重复且碎片化的文字中快速找到关键信息非常困难;对于计算机模型来说,处理如此巨大的文本量也面临着效率低下的问题。

为了解决这个问题,研究人员开发了一种名为 CLIN-SUMM 的框架。这项研究的核心目标不是简单地把长篇大论缩减成一段话,而是将这些零散的笔记转化为一种有组织、按日期排序的结构化表示。

目前的许多技术通常只针对单次住院或单个病历进行总结,或者将多年的病史压缩成一个静态的摘要,这往往会掩盖病情随时间演变的细节。CLIN-SUMM 的做法不同:它采用了一种“增量式”的方法。当患者进行新的就诊时,系统不会重写整个病史,而是只提取本次就诊中产生的新信息,并将其添加到现有的结构化分类中(例如“诊断”、“药物与过敏”、“生命体征”等)。这种方式就像是在一本不断更新的日志中,每次只记录新发生的变动,并标注好日期,从而保留了病情的演变过程。

研究人员在麻省总医院的 12,356 名患者数据上测试了这一方法。结果显示,该框架能够将原始笔记的字数减少约 70%,同时在医生的评估中保持了很高的准确性和完整性。

为了验证这种结构化摘要的实际用途,研究人员以痴呆症为例进行了测试。他们训练了机器学习模型,让模型直接读取这些经过压缩的 CLIN-SUMM 摘要,而不是原始的冗长笔记。实验结果表明,使用摘要训练的模型在识别痴呆症诊断方面表现出色,其准确度(AUROC 0.86)显著高于仅使用年龄、性别和常见病史等结构化数据的传统模型。此外,该模型甚至能在患者正式确诊前的 3 年左右,通过捕捉笔记中细微的临床信号,展现出对未来风险的预测能力。

除了疾病预测,这项技术在提取药物信息方面也显示出优势。研究人员发现,通过阅读这些结构化的摘要,可以比直接查询医院的结构化数据库更完整地捕捉到患者的用药轨迹,例如药物剂量的逐渐调整。

研究人员指出,CLIN-SUMM 提供了一种在原始叙述文本与下游预测任务之间的中间层。这种方法不仅可以减轻医生查阅病历的负担,还可以作为一种可重复使用的信息层,用于多种不同的医疗分析任务,同时大幅降低了处理大规模医疗数据所需的计算成本。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →