Extracting patient reported cannabis use and reasons for use from electronic health records: a benchmarking study of large language models

该研究通过评估多种大语言模型策略,证明了结合微调临床模型与提示工程可从电子病历中高效、精准地提取自身免疫性风湿病患者的大麻使用状态及原因,从而为相关观察性研究和临床决策支持提供可扩展的解决方案。

Wang, Y., Bozkurt, S., Le, N., Alagappan, A., Huang, C., Rajwal, S., Lewis, A., Kim, J., Falasinnu, T.

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在教一群超级聪明的“数字侦探”如何从海量的医疗笔记中,找出谁在用大麻,以及他们为什么用

想象一下,医院里堆积如山的病历本(电子健康记录 EHR),就像是一片巨大的、杂乱无章的文字森林。医生们在这些笔记里随手写下的只言片语,可能藏着关于患者是否使用大麻的重要线索,但人工去读几百万份笔记,就像试图在森林里一片一片地数树叶,既慢又容易看花眼。

为了解决这个问题,研究团队(来自斯坦福和埃默里大学等)请来了几位**“人工智能侦探”**(也就是大语言模型,LLM),看看谁能最快、最准地找到这些线索。

1. 任务是什么?

他们有两个主要任务:

  • 任务一:抓现行(状态识别)。医生在笔记里提到大麻时,到底是在说“患者正在用”、“患者以前用过但停了”、“患者否认用过”,还是“这根本不是在说大麻”(比如只是提到“大麻风”这种病)?
  • 任务二:问原因(动机识别)。如果患者确实在用,是为了什么?是为了止痛助眠止吐缓解焦虑,还是增进食欲

2. 他们请了哪些“侦探”?

研究团队测试了两种不同类型的“侦探”:

  • 通用型侦探(通用大模型):像 GPT-OSS-20BGeminiLLaMA 等。它们见多识广,读过互联网上几乎所有的书,非常聪明,擅长理解复杂的上下文和潜台词。
  • 专科型侦探(医疗专用模型):像 GatorTron。这位侦探专门读过无数医学文献和病历,虽然它可能不如通用侦探那么“博学”,但它对医学术语和病历的“行话”非常熟悉。

3. 他们是怎么训练的?(给侦探做“模拟考”)

在正式上岗前,研究团队先找了两名人类专家(就像资深教官),从病历里随机挑出几百段文字,人工标注出正确答案。

  • 比如,教官指着一段话告诉侦探:“看,这里医生写‘患者自述用大麻缓解关节痛’,这属于‘正在使用’且原因是‘止痛’。”
  • 然后,他们让不同的 AI 侦探去猜这些答案,看看谁猜得最准。

4. 结果如何?(谁赢了?)

这就好比一场**“田忌赛马”**,不同的任务需要不同的侦探:

  • 在“抓现行”(判断是否在用)的任务中:
    专科型侦探(GatorTron)赢了!
    因为它经过专门的“特训”(微调),非常擅长处理这种分类明确的医疗任务。它的准确率高达 90%。这就像是一个经验丰富的老护士,一眼就能看出病历里是“真话”还是“假话”,而且速度极快,不需要像通用侦探那样绕弯子思考。

  • 在“问原因”(为什么要用)的任务中:
    通用型侦探(GPT-OSS-20B)赢了!
    因为“为什么用大麻”这个问题很复杂,有时候医生写得模棱两可,或者藏在长句子里。通用侦探更擅长理解语境和潜台词,能像老练的心理咨询师一样,从字里行间读出患者是为了“止痛”还是为了“助眠”。它的准确率达到了 77%,比其他模型都要好。

一个小插曲: 研究还发现,给这些侦探设置不同的“思考温度”(Temperature)很重要。如果把温度调得太高,它们就会变得像喝醉了一样,胡言乱语;把温度调低(比如 0.3),它们就会变得冷静、严谨,准确率更高。

5. 发现了什么新大陆?(临床洞察)

当这些 AI 侦探跑完了所有病历(从 2015 年到 2024 年),他们画出了一幅**“大麻使用地图”**:

  • 趋势上升:像滚雪球一样,从 2015 年的 7.4% 涨到了 2024 年的 13.0%。
  • 谁在用?:类风湿关节炎(RA)患者用得最多,强直性脊柱炎(AS)患者用得最少。
  • 为什么用?止痛永远是头号原因。但有趣的是,从 2022 年开始,助眠成了第二大原因,而且越来越流行。
  • 疼痛的悖论:以前,用大麻的患者通常痛得更厉害(说明他们在努力自救);但到了 2023-2024 年,情况似乎反过来了,没用大麻的人反而报告了更高的疼痛。这可能意味着大麻的止痛效果因人而异,或者随着时间推移,患者的疼痛管理策略发生了变化。

6. 总结:这告诉我们什么?

这篇论文就像是在说:“不要迷信一个万能的神器。”

  • 如果你需要快速、准确地分类(比如判断有没有病),用专门训练过的医疗小模型(像 GatorTron)既省钱又高效。
  • 如果你需要理解复杂的故事和原因(比如为什么生病、为什么用药),强大的通用大模型(像 GPT-OSS)更有优势。

最终意义:
这项技术让研究人员能够像“读心术”一样,从海量的、杂乱的医生手写笔记中,自动提取出患者真实的自我管理行为。这不仅帮助科学家更好地理解疾病,未来甚至可能帮助医生在诊室里更精准地询问:“您最近是不是因为睡不着在尝试用大麻?”从而提供更个性化的治疗方案。

简单来说,这就是用 AI 把“乱糟糟的病历”变成了“清晰的临床数据”,让医疗研究跑出了加速度。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →