A medical coding language model trained on clinical narratives from a population-wide cohort of 1.8 million patients

该研究利用来自丹麦东部 180 万患者的 580 万份电子健康记录训练了一个医疗编码语言模型,该模型在预测 ICD-10 编码方面表现优异,并揭示了二级诊断的系统性漏编问题,为自动化编码及流行病学研究提供了实用解决方案。

Joakim Edin, Sedrah Butt Balaganeshan, Annike Kjølby Kristensen, Lars Maaløe, Ioannis Louloudis, Søren Brunak

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“教 AI 医生如何给病历打标签”**的故事,但故事里藏着一个意想不到的反转:AI 不仅学得快,还发现人类医生在“偷懒”或者“漏记”了很多重要信息。

我们可以把这篇研究想象成**“一位超级实习生在整理巨大的医院档案库”**。

1. 背景:为什么需要这位“实习生”?

想象一下,医院里每天都有成千上万的病人。医生写完病历后,需要把这些复杂的病情翻译成一种**“国际通用代码”**(就像给商品贴条形码,比如把“感冒”变成代码 J06.9)。

  • 现状:以前全靠人工贴标签。这工作既枯燥又耗时,就像让一个人在几百万本书里找特定的词,还容易看错。
  • 问题:很多研究用的“教材”(数据)太少,只教了 AI 看 ICU 里的重症病人,就像只让实习生在急诊室实习,却指望他懂儿科、骨科和眼科的所有知识,结果一遇到复杂的病人就懵了。

2. 我们的“超级实习生”:海量数据训练

这次,研究团队给 AI 提供了一本**“超级百科全书”**:

  • 教材规模:来自丹麦东部 180 万病人的580 万份电子病历。
  • 覆盖范围:几乎涵盖了所有科室(除了成人精神科),时间跨度 10 年。
  • 任务:让 AI 阅读医生的笔记、化验单和用药记录,然后自动预测出应该贴什么“条形码”(ICD-10 诊断代码)。

结果如何?
这位“实习生”表现惊人:

  • 它能在**54.6%**的病例中,完全正确地贴上所有标签(相当于直接上岗,无需人类检查)。
  • 在剩下的病例中,只要人类医生看一眼它列出的前 10 个建议,就有**95.5%**的概率能找到正确的标签。
  • 比喻:以前医生要在几千个标签里大海捞针,现在 AI 直接递给他一个“精选清单”,他只需要从中挑一个就行,效率大大提升。

3. 意想不到的发现:AI 成了“纠错员”

这是论文最精彩的部分。团队发现,AI 在某些科室(比如儿童精神科)表现不好,但在另一些科室(如神经生理科)表现极好。

  • 为什么? 那些表现好的科室,病情很明确,像“骨折”就是骨折。而表现差的科室,病情复杂,或者医生写得很模糊。

更惊人的反转来了:
团队发现,当 AI 和人类医生意见不一致时,往往是人类医生“漏记”了,而不是 AI 错了。

他们抽查了三个具体的例子:

  1. 自杀相关行为:AI 发现很多病历里明明写了“想自杀”或“服药过量”,但人类医生没贴这个标签。为什么?因为贴这个标签可能让医院拿不到报销款,或者怕给病人贴“标签”太麻烦。
  2. 肥胖和高血压:这些通常作为“次要诊断”(比如病人是因为骨折住院,顺便有高血压)。人类医生为了省事,只记了骨折,忘了记高血压。但 AI 从病历里读出了高血压的信息。
  3. 验证结果:人工去复核 AI 找出的这些“漏记”病例,发现**76% 到 86%**的情况下,AI 是对的,病人确实有这些病,只是人类医生没写进代码里。

比喻
这就好比一个**“超级校对员”**。人类医生写文章(病历)时,因为赶时间或受限于“只记主要问题”的潜规则,漏掉了很多细节。AI 这个校对员不仅读得快,还特别细心,它把那些被人类忽略的“隐形细节”都挖了出来。

4. 为什么会这样?(系统的“潜规则”)

为什么人类医生会漏记?

  • 激励机制问题:在很多医疗体系里,医院主要靠“主要诊断”(比如骨折)拿钱。如果医生花时间去记“次要诊断”(比如高血压),不仅费时,还拿不到额外的钱,甚至像“自杀”这种标签在某些系统里根本不算钱。
  • 结果:医生们被迫“挑重点写”,导致病历数据不完整。AI 虽然学的是这些“不完整”的数据,但它通过阅读原始文本,反而比人类更敏锐地发现了被忽略的真相。

5. 结论与启示

这项研究告诉我们两件事:

  1. AI 很强大:它可以帮医生节省大量时间,把那些繁琐的“贴标签”工作自动化,让医生专注于看病。
  2. 数据有“偏见”:AI 表现不好,有时候不是因为它笨,而是因为人类提供的“教材”本身就有缺陷(漏记了次要病情)。

未来的希望
如果引入这种 AI 辅助系统,医生在写病历时,AI 会像**“智能助手”**一样提示:“嘿,这位病人虽然是因为骨折来的,但您好像忘了记他的高血压和肥胖问题,要不要补上?”
这样,既不会增加医生的工作量,又能让病历变得更完整、更准确。这对于研究疾病(比如研究高血压和骨折的关系)和制定公共卫生政策(比如监控自杀趋势)都至关重要。

一句话总结
这篇论文不仅展示了一个**“超级 AI 实习生”如何帮医生高效工作,更重要的是,它像一面镜子,照出了人类医疗记录中那些因为忙碌和制度限制而被“隐形”掉的真相**,并提供了填补这些空白的实用工具。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →