Biomedical Large Language Models and Prompt Engineering for Causality Assessment of Individual Case Safety Reports in Pharmacovigilance

本研究评估了五种生物医学大语言模型与提示工程及因果关系算法的组合在药物警戒个案报告因果关系评估中的表现,发现尽管特定模型组合(如 Medicine LLaMA-3 8B 结合 Naranjo 算法和思维链提示)与人类专家的一致性最高(64%),但整体而言,这些模型在关键评估项上仍存在显著不足,尚无法可靠地替代人工进行个案报告的因果关系判定。

Heckmann, N. S., Papoutsi, D. G., Barbieri, M. A., Battini, V., Molgaard, S. N., Schmidt, S. O., Melskens, L., Sessa, M.

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在测试**“人工智能医生助手”**能不能帮人类专家判断:病人出现的副作用,到底是不是药引起的?

为了让你更容易理解,我们可以把整个研究想象成一场**“新实习生考核大赛”**。

1. 背景:为什么需要 AI 助手?

在药物安全领域(药监),有一个核心任务叫**“因果关系评估”**。

  • 场景:有人吃了药 A,结果出现了副作用 B。
  • 问题:是药 A 导致的吗?还是病人自己本来就有病?或者是吃了药 C 导致的?
  • 现状:以前全靠人类专家(像老中医或资深法官)一个个看病例,工作量巨大,累得半死,而且容易出错。
  • 新希望:大家想试试用大型语言模型(LLM),也就是那种像“超级聊天机器人”的 AI,来帮人类干活。

2. 实验设计:这场“考核”是怎么进行的?

研究人员找来了150 个真实的病例(就像 150 份复杂的考卷),然后让5 组不同的 AI 实习生来做题,最后把 AI 的答案和2 位人类专家的答案进行对比。

  • 考生(AI 模型)
    • 他们不是普通的聊天机器人(比如普通的 Siri),而是**“医学特化版”**的 AI(就像专门读过医书、背过医学文献的实习生)。
    • 主要测试了三个不同体型的模型(有的像小个子,有的像中等身材)。
  • 考题(评估工具)
    • 用了两套标准的“评分规则”:
      1. Naranjo 量表:像做选择题,有 10 道题,每题打分,最后算总分。
      2. WHO-UMC 量表:像写作文,需要综合判断,逻辑更复杂,更依赖叙事。
  • 解题技巧(提示工程)
    • 研究人员教了 AI 两种解题思路:
      1. 链式思维 (CoT):像**“一步步推导”**,先想 A,再想 B,最后得出结论。
      2. 分解法 (Decomposition):像**“把大任务拆成小任务”**,逐个击破。

3. 考核结果:AI 表现如何?

🏆 最佳表现:

  • 冠军组合“医学版 LLaMA-3 8B" + “链式思维 (CoT)" + "Naranjo 选择题”
  • 成绩:这个组合和人类专家的答案最像,大约有 64% 的情况判断一致。
  • 比喻:这就像是一个读过很多医书、且懂得“一步步推理”的聪明实习生,在做结构化选择题时,能跟上老专家的思路。

❌ 遇到的困难(AI 的“死穴”):

尽管比以前的通用 AI 强了很多,但 AI 还是有很多**“翻车”**的地方:

  1. 分不清“已知”和“未知”
    • 人类专家:如果病历里没写清楚,专家会说“我不确定”或“存疑”。
    • AI 实习生:即使信息不全,也强行自信地给出一个确定的答案(比如“肯定是药引起的”)。这叫**“幻觉”**,就像学生不会做题时瞎蒙一个答案,还信誓旦旦。
  2. 搞不定“复杂逻辑”
    • Naranjo 选择题里,AI 表现尚可。
    • 但在WHO-UMC 作文题里,AI 就彻底懵了,和人类专家的意见几乎对不上号。
    • 比喻:AI 擅长做填空题,但一遇到需要综合判断、写小作文的复杂病例,它就只会“胡言乱语”或者**“复读机”**(把题目里的话重复一遍,假装在回答)。
  3. 缺乏“证据意识”
    • 有时候 AI 猜对了答案,但理由全是错的,或者根本给不出理由。
    • 比喻:就像学生做数学题,答案蒙对了,但解题过程全是乱画的。在医疗领域,**“为什么”“是什么”**更重要,因为需要解释给监管者听。

4. 核心发现与启示

  • 专业训练很重要:专门学过医学文献的 AI,比普通的聊天机器人强很多(几乎翻倍)。这说明**“专业对口”**很关键。
  • 题目类型决定成败:AI 做结构化、有固定步骤的题(如 Naranjo)表现不错;做开放式、依赖叙事的题(如 WHO-UMC)表现很差。
  • 还没法完全替代人类
    • 目前的 AI 就像是一个**“有点小聪明的实习生”。它能帮人类快速筛选,但不能做最终决定**。
    • 特别是在欧洲等严格监管的地区,必须有人类专家在背后把关(Human-in-the-loop),因为 AI 经常**“瞎自信”或者“理由不充分”**,无法解释清楚,这在医疗安全上是不可接受的。

5. 总结

这篇论文告诉我们:AI 在药物安全评估上已经迈出了重要的一步,变得更有“医学常识”了。

但是,它目前还不够成熟,特别是在处理复杂逻辑和提供可信证据方面。它现在更像是一个**“辅助工具”,能帮人类专家分担一些繁琐的选择题工作,但最终的“法官”角色**,还得由人类专家来担任。未来的方向是让 AI 变得更聪明、更诚实(不知道就说不知道),并学会如何更好地与人类配合。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →