Understanding Clinician Edits to Ambient AI Draft Notes: A Feasibility Analysis Using Large Language Models

该研究评估了利用大语言模型对临床医生修改环境 AI 生成的病历草稿进行句子级分类的可行性,发现通过提示工程可有效识别药物和症状等明确类别的编辑,但在处理复杂或边界模糊的编辑时更适合作为人工审查的筛选工具。

Guo, Y., Zhou, Y., Hu, D., Sutari, S., Chow, E., Tam, S., Perret, D., Pandita, D., Zheng, K.

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何让 AI 学会看懂医生修改病历”**的故事。

想象一下,医院里引入了一位**"AI 速记员”。这位 AI 非常聪明,它能听着医生和病人的对话,自动写出一份病历草稿。但是,医生在签字确认前,总是要像“编辑校对”**一样,对这份草稿进行修改、补充或删减。

这篇论文的核心问题就是:我们能不能用另一种更高级的 AI(大语言模型),自动分析出医生到底改了哪里?是改了药名?还是改了诊断?

为了回答这个问题,研究团队做了一场有趣的“实验”,我们可以把它拆解成以下几个部分:

1. 背景:为什么需要这个“超级编辑”?

  • 现状:AI 写的草稿虽然快,但经常有遗漏或表达不准的地方。医生必须手动修改。
  • 痛点:以前,如果我们想知道"AI 到底哪里写得不好”,只能靠人工去一条条读病历,找出医生改了什么。这就像让一个人去数大海里有多少颗沙子,太累、太慢,根本没法大规模做。
  • 目标:研究团队想训练一个“超级编辑 AI",让它自动帮我们要找出医生修改了哪些类型的信息(比如:是改了药?还是改了症状?)。

2. 实验方法:给 AI 发“填空题”

研究团队没有让 AI 从头学习(那样太费钱费时间),而是用了**“少样本提示”(Few-shot Prompting)**的方法。

  • 比喻:这就好比你要教一个刚入职的实习生(AI)怎么分类文件。你不会给他看几千本书让他自学,而是直接给他看几个具体的例子(比如:“这是改药的例子”,“这是改症状的例子”),然后告诉他:“看到类似的,你就这么分类。”
  • 任务:他们让 AI 判断每一个修改,是属于以下五类中的哪一类:
    1. 药物(药名、剂量变了没?)
    2. 症状(病人哪里不舒服变了没?)
    3. 诊断(医生下的结论变了没?)
    4. 检查/治疗(要不要抽血、做手术?)
    5. 社会背景(病人住哪?有没有钱?抽烟喝酒吗?)

3. 实验过程:像“打怪升级”一样优化

刚开始,AI 有点“笨”,经常看走眼。研究团队就像游戏里的教练,通过不断给 AI 加“提示”和“规则”来训练它:

  • 第一招:给例子。告诉 AI 什么是“改药”,什么是“没改药”。
  • 第二招:设陷阱(对抗性样本)。故意给 AI 看一些容易混淆的例子(比如:提到了药名但没改剂量),告诉它“这个不算改药”,防止它乱猜。
  • 第三招:设立“安检门”(验证机制)。强制要求 AI 在说“是”的时候,必须引用原文作为证据。如果它找不到原文证据,就不能乱下结论。

4. 实验结果:有的擅长,有的“偏科”

经过一番训练,AI 的表现出现了明显的**“偏科”**现象:

  • 🌟 表现优秀的“优等生”

    • 药物类症状类的修改。
    • 原因:这些内容通常很直白。比如把“阿司匹林”改成“布洛芬”,或者把“头痛”改成“头晕”。AI 只要看到这些具体的词,就能准确判断。
    • 比喻:就像找红苹果,目标很明确,一眼就能认出来。
  • 🐢 表现一般的“困难户”

    • 诊断类检查类社会背景类
    • 原因:这些内容往往很隐晦,需要结合上下文推理。比如,医生把“观察”改成“确诊”,中间可能没有明显的关键词,需要理解医生的逻辑。
    • 比喻:就像猜谜语,线索很模糊,AI 经常猜错,或者把“计划做检查”误认为是“已经做了检查”。

5. 结论与启示:人机协作才是王道

这篇论文最终告诉我们一个很实用的道理:

  • 对于简单的修改(如改药名):我们可以放心地让 AI 自动去统计和监控,它做得很好,能帮医院快速发现 AI 草稿的常见问题。
  • 对于复杂的修改(如改诊断逻辑):目前的 AI 还不太靠谱,如果完全依赖它,会出很多错。
  • 最佳方案"AI 当筛子,人当把关”。让 AI 先快速把那些“看起来像改了诊断”的病历挑出来(哪怕挑错几个也没关系,宁可多挑),然后交给医生去重点复核

总结

这就好比**“自动分拣快递”**:

  • 对于形状规则、标签清晰的包裹(药物、症状),机器手臂可以全自动分拣,又快又准。
  • 对于形状怪异、标签模糊的包裹(复杂的诊断逻辑),机器手臂可能会拿不稳,这时候最好的办法是机器先把它们挑出来,放在一个篮子里,让人类工人最后确认一下。

这项研究证明了,虽然 AI 还不能完全替代人类去理解所有复杂的医疗逻辑,但它已经是一个得力的**“助手”**,能帮医生和医院更高效地监控 AI 写病历的质量,让未来的医疗记录更准确、更安全。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →