Implementation of Human-in-the-Loop ChatGPT-based Patient Screening Across Multiple Diverse Clinical Trials

该研究展示了一种基于大语言模型(LLM)的人机协同患者预筛选工作流,通过在 26 项临床试验中对 39,182 名患者进行低成本(每位患者 0.12 美元)且高效的筛选,实现了高达 94% 的准确率和 98% 的灵敏度,并证明了结合协调员反馈的自动化学习机制能有效提升筛选效率。

Dohopolski, M., Esselink, K., Desai, N., Grones, B., Patel, T., Jiang, S., Peterson, E., Navar, A. M.

发布于 2026-03-27
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个非常聪明的“医疗招聘助手”的故事。想象一下,医院里正在进行几十场不同的“临床试验”(就像是在寻找特定条件的志愿者来测试新药或新疗法)。

过去,寻找这些志愿者全靠人工:协调员(就像招聘专员)得一本本翻阅厚厚的病历,像大海捞针一样寻找符合几十条复杂规则的病人。这既慢又累,还容易漏掉好人选。

为了解决这个问题,研究团队开发了一个**"AI 招聘助手”,并给它配备了一位“人类主管”**。这就是所谓的“人在回路(Human-in-the-Loop)”模式。

以下是用通俗语言和比喻对这篇论文核心内容的解读:

1. 核心任务:从“大海捞针”到“智能筛选”

  • 以前的做法:就像让招聘专员在 39,000 份简历里,凭肉眼逐行阅读,看谁符合“身高 180cm、会法语、有 5 年经验”等几十条苛刻条件。效率极低。
  • 现在的做法:他们训练了一个AI 大模型(LLM)。这个 AI 就像是一个超级速读员,它能在几秒钟内“阅读”完病人的电子病历(包括医生写的笔记、化验单、影像报告等)。
  • 它的技能:它不仅能读懂文字,还能理解复杂的医学逻辑。比如,它能判断:“这个病人虽然没直接写‘没有化疗’,但病历里提到‘正在服用某种新药’,而该药通常用于化疗,所以可能不符合条件。”

2. 工作流程:三级过滤网

为了让 AI 更聪明且节省人力,他们设计了一个**“漏斗式”**的筛选流程:

  • 第一道门(Tier 1,守门员)
    AI 先看最关键的“一票否决”条件。比如,如果试验要求“必须是某种特定癌症”,AI 先确认病人是不是这个病。
    • 比喻:就像招聘时先看“是否持有相关学位”。如果没有,直接淘汰,后面的技能测试都不用看了。
  • 第二道门(Tier 2,详细考核)
    只有通过了第一道门的病人,AI 才会去检查其他几十条细节(如年龄、过往病史、最近的化验指标等)。
  • 打分与排序
    AI 会给每个病人打分。如果 AI 觉得某人符合 80% 以上的条件,它就把这个人排在列表的最前面,标记为“高潜力候选人”。

3. 人类的角色:不是被取代,而是“升级”

这是这篇论文最精彩的地方:AI 并没有完全取代人类,而是让人类的工作变得更高效。

  • 人类主管(协调员)
    他们不再需要看所有 39,000 个病人。AI 已经把那些明显不符合条件的人(比如完全没病或病不对口)过滤掉了。人类主管只需要看 AI 挑出来的那几百个“高潜力候选人”。
  • 人机协作
    人类主管会检查 AI 的判断。如果 AI 说“符合”,人类确认一下;如果 AI 说“不符合”,人类再确认一下。
  • 反馈学习(AI 的进化)
    如果人类主管发现 AI 错了(比如 AI 没认出某种特殊的药物),他们会告诉 AI:“嘿,这个药其实也算化疗,下次要注意。”
    • 比喻:这就像教一个实习生。实习生(AI)一开始会犯错,但主管(人类)指出错误后,实习生会立刻更新自己的“知识库”,下次就不再犯同样的错。论文中提到,系统甚至能自动根据反馈更新规则,越用越聪明。

4. 成果:快、准、省

  • 速度:在不到一年的时间里,AI 筛查了39,182名患者。
  • 准确性:AI 在判断具体条件(比如“是否做过手术”)时,准确率高达**94%**以上。它几乎不会漏掉真正符合条件的病人(敏感度极高),这很重要,因为漏掉一个潜在病人可能意味着错过一次救命机会。
  • 成本:非常便宜!筛查一个病人的成本平均只有12 美分(约合人民币 0.8 元)。这比人工翻阅病历便宜太多了。
  • 效果:当 AI 认为某病人符合 80% 以上条件时,人类主管去复核,发现**43.5%**的人最终真的被确认为合格。而当 AI 认为符合度在 60-80% 时,复核通过率只有 19%。这说明 AI 非常擅长把“最像样”的人挑出来。

5. 遇到的挑战与解决

  • 时间差问题:病历里有时候会写“去年做过手术”,但 AI 可能没注意到那是去年的事,而试验要求是“最近没做过”。
    • 解决:AI 学会了按时间排序,优先看最近的记录,就像你找东西时先看桌子上的,再看抽屉里的。
  • 模糊信息:有些病历写得很含糊。
    • 解决:AI 会标记为“不确定”,然后交给人类主管做最终决定。

总结

这篇论文展示了一个**“超级实习生 + 资深主管”**的完美搭档模式。

  • AI 是那个不知疲倦、阅读速度极快、能记住所有规则但偶尔会犯错的超级实习生
  • 人类 是那个经验丰富、负责最终把关、并能教实习生改错的资深主管

这种模式不仅让临床试验的招募速度快了、成本低了,更重要的是,它让那些真正需要新药治疗的病人更容易被找到,同时也让医生和协调员从繁琐的文书工作中解放出来,去关注更重要的医疗决策。

一句话概括:用 AI 做“海选”,让人类做“复试”,既省钱又高效,让新药试验不再因为“找不到人”而停滞不前。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →