📄 health informatics

Automated Extraction of Cancer Registry Data from Pathology Reports: Comparing LLM-Based and Ontology-Driven NLP Platforms

该研究通过对比基于大语言模型的 Brim Analytics 系统与基于本体的 DeepPhe 系统在胰腺癌和乳腺癌病理报告中的表现，证实了前者在多种注册变量提取上具有更高且更稳定的准确率，能够有效支持癌症登记数据的自动化处理流程。

原作者： McPhaul, T., Kreimeyer, K., Baris, A., Botsis, T.

发布于 2026-03-23

📖 1 分钟阅读☕ 轻松阅读

原作者： McPhaul, T., Kreimeyer, K., Baris, A., Botsis, T.

原始论文采用 CC BY 4.0 许可（https://creativecommons.org/licenses/by/4.0/）。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

这篇论文就像是一场**“自动阅卷机”的实战大比拼**。

想象一下，医院里每天都有成千上万份病理报告（就像学生的考卷），上面写满了医生手写的、格式各异的诊断文字。癌症登记处的工作人员（就像老师）需要把这些文字里的关键信息（比如肿瘤有多大、有没有扩散）提取出来，填进一个标准的电子表格里。

过去，这项工作全靠人工，既累人又容易出错，就像让老师一份份手抄试卷内容，效率极低。现在，科学家们想试试用两种不同的**“智能阅卷机”**（AI 系统）来自动完成这个任务。

这场“考试”的两位选手

选手 A：Brim Analytics（基于大语言模型的“聪明导师”）
- 特点：它像是一个读过很多书、非常聪明的人类导师。你给它一本“操作手册”（告诉它要提取什么、遇到模糊的词该怎么办），它就能像人一样去理解报告里的上下文。
- 优势：它很灵活，能读懂各种花哨的写法，甚至能处理医生写得乱七八糟的段落。
选手 B：DeepPhe（基于“字典”的“死板图书管理员”）
- 特点：它像是一个拿着厚厚专业字典的图书管理员。它只认字典里有的词，如果报告里出现了字典里没有的写法，它就容易懵圈。
- 优势：如果报告写得非常规范（像填好的表格），它跑得很快且很准。

考试题目（数据）

为了测试它们，研究人员从约翰霍普金斯医院找来了两类“考卷”：

胰腺癌报告（330 份）：这是“困难模式”，因为胰腺的位置复杂，医生写法千奇百怪，有的像写文章，有的像填表格。
乳腺癌报告（34 份）：这是“跨学科测试”，看选手能不能在不重新学习的情况下，直接处理另一种癌症的报告。

考试结果

1. 总体表现：选手 A 完胜

Brim（导师）：在胰腺癌考试中，它的准确率高达 96.7%。即使到了乳腺癌考试，准确率也只下降了 3 个百分点，依然保持在 93.7% 的高水平。它就像个全能学霸，不管题目怎么变，都能稳稳拿高分。
DeepPhe（图书管理员）：在“淋巴结（N 分期）”这种比较标准的题目上，它表现不错（96.4%）。但在“肿瘤大小（T 分期）”这种需要灵活理解的题目上，它栽了跟头，胰腺癌准确率只有 83.6%，乳腺癌更是跌到了 70.6%。

2. 为什么会有差距？

Brim 的“小心谨慎”：Brim 犯错的类型主要是“漏判”（比如把有肿瘤说成没肿瘤，或者把大肿瘤说小）。在医学上，这通常比“误判”更安全，因为漏掉的可以人工复查，但误判可能会让病人接受不必要的大手术。
DeepPhe 的“过度自信”：DeepPhe 犯错的类型主要是“乱猜”（比如把没有肿瘤说成有，或者把小肿瘤说大）。因为它太依赖字典，一旦遇到字典里没有的写法，它就倾向于强行匹配，导致“假阳性”很多。

3. 速度对比
两个系统都很快！处理一份报告平均只需要 1 到 4 秒。这就像从“人工抄写一小时”变成了“机器秒出结果”，效率提升巨大。

核心发现与比喻

格式很重要：
- 如果报告是结构化表格（像填空题），两个系统都表现很好。
- 如果报告是自由文本（像作文），DeepPhe 就“晕”了，错误率飙升；而 Brim 依然能读懂“作文”里的意思。
- 比喻：DeepPhe 只能做填空题，Brim 既能做填空题，也能做阅读理解。
跨疾病能力：
- Brim 在胰腺癌上训练好后，直接去考乳腺癌，成绩依然很好。这说明它学会了“医学逻辑”，而不是死记硬背。
- DeepPhe 在乳腺癌上表现下滑明显，说明它太依赖特定疾病的“字典”，换个领域就不灵了。

这对我们意味着什么？

这项研究告诉我们，AI 已经准备好帮医生和登记员“打杂”了。

未来的工作模式可能是这样的：

AI 先做第一遍：像 Brim 这样的系统快速扫描所有报告，把 90% 以上的关键信息自动填好。
人类做最后把关：医生或登记员只需要检查 AI 标记的“不确定项”或“高风险项”。

这就好比自动驾驶：AI 负责在高速公路上平稳行驶（处理标准报告），人类司机只在复杂路况或紧急情况下接管方向盘（处理疑难杂症）。

总结：
这篇论文证明了，基于大语言模型（LLM）的 AI 系统（如 Brim）比传统的基于字典的系统（如 DeepPhe）更聪明、更灵活，尤其是在面对医生千变万化的书写习惯时。它们不仅能大幅减轻人工负担，还能让癌症数据更标准、更快速，为未来的癌症研究和治疗提供强大的数据支持。

Automated Extraction of Cancer Registry Data from Pathology Reports: Comparing LLM-Based and Ontology-Driven NLP Platforms

这场“考试”的两位选手

考试题目（数据）

考试结果

核心发现与比喻

这对我们意味着什么？

论文技术总结：基于 LLM 与本体驱动 NLP 平台的癌症登记数据自动化提取对比研究

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

2.1 研究设计

2.2 数据集

2.3 提取目标变量

2.4 评估指标

3. 关键结果 (Results)

3.1 胰腺癌表现 (Pancreatic Adenocarcinoma)

3.2 乳腺癌表现与跨癌种泛化性 (Breast Cancer & Generalizability)

3.3 报告格式的影响

3.4 处理效率

4. 主要贡献 (Key Contributions)

5. 意义与展望 (Significance)

这场“考试”的两位选手

考试题目（数据）

考试结果

核心发现与比喻

这对我们意味着什么？

论文技术总结：基于 LLM 与本体驱动 NLP 平台的癌症登记数据自动化提取对比研究

1. 研究背景与问题 (Problem)

2. 研究方法 (Methodology)

2.1 研究设计

2.2 数据集

2.3 提取目标变量

2.4 评估指标

3. 关键结果 (Results)

3.1 胰腺癌表现 (Pancreatic Adenocarcinoma)

3.2 乳腺癌表现与跨癌种泛化性 (Breast Cancer & Generalizability)

3.3 报告格式的影响

3.4 处理效率

4. 主要贡献 (Key Contributions)

5. 意义与展望 (Significance)

类似论文