MKE-Coder: Multi-Axial Knowledge with Evidence Verification in ICD Coding for Chinese EMRs

本文提出了 MKE-Coder 框架,通过整合诊断的多轴知识并利用评分模型筛选临床证据,结合掩码语言建模策略进行验证,有效解决了中文电子病历中 ICD 自动编码面临的文本结构复杂及证据关联不足的挑战,显著提升了编码的准确性与效率。

Xinxin You, Xien Liu, Xue Yang, Ziyi Wang, Ji Wu

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,医院里每天都有成千上万份病历(EMR),医生在上面用极其简练、甚至有点“暗语”风格的中文写下病人的病情。现在,我们需要给这些病情贴上标准的“标签”(也就是 ICD 疾病编码),就像给图书馆里的书贴上分类标签一样,方便后续统计、医保报销和科研。

虽然给英文病历贴标签已经做得很好了,但给中文病历贴标签却是个大难题。这篇论文提出的 MKE-Coder 就像一个超级智能的“病历翻译官”和“审核员”,专门解决这个难题。

我们可以把整个过程想象成招聘一位完美的“疾病侦探”

1. 遇到的两大难题

  • 语言太“高冷”:中文病历写得非常简练,而且格式很特殊,就像侦探面对的是只有几个关键词的密码信,很难直接看出重点。
  • 缺乏“证据链”:以前的方法就像是一个只凭直觉猜谜的人,它知道大概是什么病,但说不清楚“为什么”,也找不到病历里具体的文字证据来支持它的判断。

2. MKE-Coder 是怎么工作的?(它的三大绝招)

这个系统不像是一个死板的机器,它更像是一个拥有“四维视角”的资深侦探团队

  • 第一招:多维拆解(多轴知识)
    以前的人看病可能只看“得了什么病”。但 MKE-Coder 会把一个病拆成四个维度来看(比如:这是什么病?发生在身体哪个部位?严重程度如何?有没有并发症?)。

    • 比喻:就像描述一个人,不能只说“他是张三”,而要说“张三,住在朝阳区,身高 180,职业是程序员”。MKE-Coder 就是要把病情的这四个维度都理清楚。
  • 第二招:寻找“铁证”(证据验证)
    它不会瞎猜。它会像侦探一样,在长长的病历原文里,把支持这四个维度的具体文字(证据)全部找出来。

    • 比喻:如果它怀疑病人是“肺炎”,它不会只说“我觉得是”,而是会指着病历里说“病人有咳嗽、发烧、肺部有阴影”的那几行字,说:“看,证据就在这儿!”
  • 第三招:逻辑大考(推理与验证)
    最后,它会进行一场“逻辑考试”。它会问自己:“既然我选了‘肺炎’这个标签,那么我找到的四个维度的证据,真的能完美支撑这个结论吗?”如果有一个维度对不上,它就会推翻重选,直到找到那个证据最充分、逻辑最严密的编码。

3. 效果如何?

研究人员拿了很多大医院的真实中文病历来测试这个系统。结果发现:

  • 更准:它贴的标签比以前的方法准确得多,因为它有“证据”撑腰。
  • 更快:在模拟真实工作场景的测试中,它不仅能帮人类编码员减少错误,还能让他们干活的速度变快。

总结一下:
MKE-Coder 就是一个懂中文病历“黑话”、会多角度思考、并且必须拿出“实锤”证据才能下结论的智能助手。它把原本枯燥、容易出错的编码工作,变成了一场逻辑严密的侦探游戏,让医院的疾病分类工作变得更聪明、更高效。