Evaluation and LLM-Guided Learning of ICD Coding Rationales

该论文通过构建基于 MIMIC-IV 和 ICD-10 的多粒度标注数据集,系统评估了 ICD 编码中不同解释性依据(实体链接、LLM 生成及注意力分数)的忠实度与合理性,并进一步利用 LLM 生成的合理性依据作为弱监督信号,显著提升了模型生成解释的说服力。

Mingyang Li, Viktor Schlegel, Tingting Mu, Wuraola Oyewusi, Kai Kang, Goran Nenadic

发布于 2026-03-13
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给医院的“病历翻译官”(AI 系统)做一场**“透明度体检”,并教它如何更好地“解释自己的工作”**。

为了让你更容易理解,我们可以把整个故事想象成:一位老练的医生(AI 模型)在诊断病人,但他总是只给出一张写着“确诊:糖尿病”的纸条,却不告诉你是因为看到了什么症状才这么判断的。

以下是这篇论文的核心内容,用大白话和比喻来讲:

1. 背景:为什么我们需要“解释”?

  • 现状:现在的 AI 能把病人的病历(一堆乱糟糟的文字)自动转换成标准的疾病代码(ICD 代码),就像把方言翻译成普通话。这能帮医院省钱、省时间。
  • 问题:但是,AI 像个“黑盒子”。它告诉你“是糖尿病”,却不说“为什么”。医生和病人会想:“你是怎么看出来的?是不是看错了?”如果 AI 不能解释,大家就不敢信任它。
  • 过去的尝试:以前的方法就像让 AI 在病历上**“高亮”**几个词(比如把“血糖高”标红),告诉医生“我是看这个词才判断的”。但研究发现,这种“高亮”有时候是瞎蒙的,或者根本不够有说服力。而且,以前用来测试这些解释好坏的“题库”(数据集)太老了,用的是过时的编码系统。

2. 核心工作:我们做了什么?

这篇论文主要做了三件大事:

第一件事:造了一个新的“标准答案库” (RD-IV-10)

  • 比喻:以前用来考试的标准答案(MDACE 数据集)是几十年前的旧教材,而且答案很简略(比如只标了一个词)。
  • 创新:作者们找来了真正的医学专家,基于最新的病历数据(MIMIC-IV),重新标注了一份**“超级详细的答案库”**。
  • 特点:这份新答案不仅标出了关键词,还标出了整个句子甚至段落。比如,不仅标出“糖尿病”,还标出“病人长期服用胰岛素”、“家属有糖尿病史”等所有支持诊断的理由。这就像从只给一个单词的提示,变成了给了一篇完整的推理文章。

第二件事:给三种“解释方式”做了一场大比拼

作者找来了三种不同的“解释员”来比赛,看谁的解释最靠谱:

  1. 机器高亮法(Attention):AI 自己觉得重要的词就标出来。
    • 结果:就像让一个心不在焉的学生划重点,经常划错,医生看了直摇头(可信度低)。
  2. 实体链接法(Entity Linking):像查字典一样,把病历里的词直接对应到疾病代码。
    • 结果:比第一种好点,但太死板,只能找到直接提到的词,找不到隐含的意思。
  3. 大语言模型法(LLM Generated):请一个超级聪明的 AI(像 Gemini 2-Flash)来读病历,然后像人一样写出:“因为病人提到了 X 和 Y,所以判断是 Z。”
    • 结果大获全胜! 这种解释最像人写的,医生看了觉得“嗯,这逻辑通顺,有道理”。

第三件事:用“聪明 AI"教“笨 AI" (LLM-Guided Learning)

  • 痛点:虽然“聪明 AI"(LLM)能写出好解释,但它太贵、太慢,不能直接用在医院里。我们需要训练一个“学生 AI"(普通的编码模型),让它也能写出好解释。
  • 方法
    • 远程辅导:让“聪明 AI"先写出好解释,然后把这些解释当作“标准答案”(虽然没经过人亲手写,但质量很高),去训练“学生 AI"。
    • 少样本提示(Few-shot):就像教学生做题时,先给他看几个**“人类专家写的完美范例”**,再让他去写。
  • 效果:经过这种“辅导”和“看范例”的训练,“学生 AI"不仅编码更准了,而且它生成的解释也更像人话了,医生更愿意相信它。

3. 核心发现与结论

  • 信任的关键:AI 生成的解释,不能只看它“是不是模型自己算出来的”(忠实度),更要看“人觉得它有没有道理”(合理性)。
  • 大模型是神器:大语言模型(LLM)在生成解释方面表现极佳,甚至超过了传统的医学编码模型。
  • 以强带弱:用大模型生成的解释作为“老师”,可以教会小模型如何更好地解释自己。
  • 人类范例很重要:哪怕只给大模型看几个人类专家写的例子(Few-shot),它的表现也会突飞猛进,生成的解释更精准。

总结

这篇论文就像是在说:

“以前的 AI 医生只会给结论,不会给理由,大家不敢信。现在我们造了一个最新的、详细的‘理由库’,发现大语言模型最会写理由。于是,我们让大语言模型当老师,教那些普通的 AI 医生学会像人一样思考并解释,而且只要给它们看几个人类专家的范例,它们就能学得特别好。这样,未来的 AI 医生就能既准又快,还能把道理讲得清清楚楚,让医生和患者都放心。”

这项研究让 AI 在医疗领域的应用从“黑盒”走向了“透明”,是迈向可信赖医疗 AI的重要一步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →