Automated Extraction of Cancer Registry Data from Pathology Reports: Comparing LLM-Based and Ontology-Driven NLP Platforms

该研究通过对比基于大语言模型的 Brim Analytics 系统与基于本体的 DeepPhe 系统在胰腺癌和乳腺癌病理报告中的表现,证实了前者在多种注册变量提取上具有更高且更稳定的准确率,能够有效支持癌症登记数据的自动化处理流程。

McPhaul, T., Kreimeyer, K., Baris, A., Botsis, T.

发布于 2026-03-23
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一场**“自动阅卷机”的实战大比拼**。

想象一下,医院里每天都有成千上万份病理报告(就像学生的考卷),上面写满了医生手写的、格式各异的诊断文字。癌症登记处的工作人员(就像老师)需要把这些文字里的关键信息(比如肿瘤有多大、有没有扩散)提取出来,填进一个标准的电子表格里。

过去,这项工作全靠人工,既累人又容易出错,就像让老师一份份手抄试卷内容,效率极低。现在,科学家们想试试用两种不同的**“智能阅卷机”**(AI 系统)来自动完成这个任务。

这场“考试”的两位选手

  1. 选手 A:Brim Analytics(基于大语言模型的“聪明导师”)

    • 特点:它像是一个读过很多书、非常聪明的人类导师。你给它一本“操作手册”(告诉它要提取什么、遇到模糊的词该怎么办),它就能像人一样去理解报告里的上下文。
    • 优势:它很灵活,能读懂各种花哨的写法,甚至能处理医生写得乱七八糟的段落。
  2. 选手 B:DeepPhe(基于“字典”的“死板图书管理员”)

    • 特点:它像是一个拿着厚厚专业字典的图书管理员。它只认字典里有的词,如果报告里出现了字典里没有的写法,它就容易懵圈。
    • 优势:如果报告写得非常规范(像填好的表格),它跑得很快且很准。

考试题目(数据)

为了测试它们,研究人员从约翰霍普金斯医院找来了两类“考卷”:

  • 胰腺癌报告(330 份):这是“困难模式”,因为胰腺的位置复杂,医生写法千奇百怪,有的像写文章,有的像填表格。
  • 乳腺癌报告(34 份):这是“跨学科测试”,看选手能不能在不重新学习的情况下,直接处理另一种癌症的报告。

考试结果

1. 总体表现:选手 A 完胜

  • Brim(导师):在胰腺癌考试中,它的准确率高达 96.7%。即使到了乳腺癌考试,准确率也只下降了 3 个百分点,依然保持在 93.7% 的高水平。它就像个全能学霸,不管题目怎么变,都能稳稳拿高分。
  • DeepPhe(图书管理员):在“淋巴结(N 分期)”这种比较标准的题目上,它表现不错(96.4%)。但在“肿瘤大小(T 分期)”这种需要灵活理解的题目上,它栽了跟头,胰腺癌准确率只有 83.6%,乳腺癌更是跌到了 70.6%

2. 为什么会有差距?

  • Brim 的“小心谨慎”:Brim 犯错的类型主要是“漏判”(比如把有肿瘤说成没肿瘤,或者把大肿瘤说小)。在医学上,这通常比“误判”更安全,因为漏掉的可以人工复查,但误判可能会让病人接受不必要的大手术。
  • DeepPhe 的“过度自信”:DeepPhe 犯错的类型主要是“乱猜”(比如把没有肿瘤说成有,或者把小肿瘤说大)。因为它太依赖字典,一旦遇到字典里没有的写法,它就倾向于强行匹配,导致“假阳性”很多。

3. 速度对比
两个系统都很快!处理一份报告平均只需要 1 到 4 秒。这就像从“人工抄写一小时”变成了“机器秒出结果”,效率提升巨大。

核心发现与比喻

  • 格式很重要

    • 如果报告是结构化表格(像填空题),两个系统都表现很好。
    • 如果报告是自由文本(像作文),DeepPhe 就“晕”了,错误率飙升;而 Brim 依然能读懂“作文”里的意思。
    • 比喻:DeepPhe 只能做填空题,Brim 既能做填空题,也能做阅读理解。
  • 跨疾病能力

    • Brim 在胰腺癌上训练好后,直接去考乳腺癌,成绩依然很好。这说明它学会了“医学逻辑”,而不是死记硬背。
    • DeepPhe 在乳腺癌上表现下滑明显,说明它太依赖特定疾病的“字典”,换个领域就不灵了。

这对我们意味着什么?

这项研究告诉我们,AI 已经准备好帮医生和登记员“打杂”了

未来的工作模式可能是这样的:

  1. AI 先做第一遍:像 Brim 这样的系统快速扫描所有报告,把 90% 以上的关键信息自动填好。
  2. 人类做最后把关:医生或登记员只需要检查 AI 标记的“不确定项”或“高风险项”。

这就好比自动驾驶:AI 负责在高速公路上平稳行驶(处理标准报告),人类司机只在复杂路况或紧急情况下接管方向盘(处理疑难杂症)。

总结
这篇论文证明了,基于大语言模型(LLM)的 AI 系统(如 Brim)比传统的基于字典的系统(如 DeepPhe)更聪明、更灵活,尤其是在面对医生千变万化的书写习惯时。它们不仅能大幅减轻人工负担,还能让癌症数据更标准、更快速,为未来的癌症研究和治疗提供强大的数据支持。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →