想象一下繁忙的医院急诊室，但走进门的不是人，而是成千上万的人对着电脑屏幕输入问题。有些人询问轻微感冒，有些人需要预约常规就诊，有些人出现需要一天内医生关注的症状，还有少数人面临危及生命的紧急情况。

医院的挑战在于：如何在没有人工阅读每一条信息的情况下，快速且安全地分类这些成千上万条消息？

这篇论文就像是对一种新型“数字分拣员”（利用人工智能 AI）的试驾。以下用简单的类比，拆解他们做了什么以及发现了什么。

问题：“嘈杂”的收件箱

在线患者消息杂乱无章。人们不像医生那样说话，而是像朋友一样书写。他们可能会忘记提及患病时长、疼痛程度，或者是否患有其他健康问题。

目标： 将这些消息归入四个类别：
1. 自我护理： “待在家里，喝点茶，你会没事的。”
2. 预约就诊： “预约下周的就诊。”
3. 紧急审查： “今天或明天联系医生。”
4. 紧急情况： “立即拨打 911 或前往急诊室。”

实验：“老师”与“聪明学生”的较量

研究人员想看看，新型的强大 AI 模型（称为大语言模型或 LLM）是否能在没有大量预先标注的示例可供学习的情况下，比旧式、更简单的计算机程序更好地完成这种分类。

旧方法（监督模型）： 想象一个学生必须死记硬背 700 个具体的患者消息示例及其答案来学习规则。他们是在“银标签”（由 AI 生成而非人类医生提供的答案）上进行训练的。
新方法（提示式 LLM）： 想象一个读过数百万本书的非常聪明的学生。你不需要让他们死记硬背 700 个示例，只需给他们几条规则和几个示例（称为“少样本提示”），然后问：“这是一条新消息；它属于哪一类？”

结果：谁赢得了比赛？

1. “聪明学生”（LLM）表现更好，但优势并非压倒性。
当给定 12 个示例进行学习时，最佳 AI 模型（Claude Haiku 4.5）的正确答案率约为 47.5%。最佳“旧方法”模型（BioBERT）的正确答案率约为 37.8%。

局限性： 差异不够巨大，无法在统计学意义上断言新 AI 绝对“更好”；它们的得分存在重叠。这就像两名赛跑选手冲过终点线，其中一人略微领先，但差距太小，除非重新比赛，否则无法百分之百确定谁更快。

2. “安全评分”比“成绩”更重要。
在分类任务中，漏掉火灾（紧急情况）比将非紧急情况误报给消防部门（过度分诊）更糟糕。

研究人员发现，虽然 AI 模型在整体“成绩”（Macro-F1）上有所提升，但它们在安全性方面表现出色得多。
AI 模型几乎从未漏掉真正的紧急情况（测试中严重漏诊率为 0%），而旧模型约有 30% 的时间会漏掉危险病例。
类比： AI 就像一名检查身份证件时稍慢，但识别真实威胁能力强得多的保安。

3. “令人困惑的中间地带”仍然很难。
AI 在识别“自我护理”（简单）和“紧急情况”（明显）方面表现出色。但它在中间地带——“需要临床医生紧急审查”——上遇到了困难。

类比： 区分割纸刀伤和心脏病发作很容易。但区分需要明天看医生的严重胃痛和可以等一周的胃痛则非常困难。即使是最高级的 AI 在这里也会感到困惑。

4. “双头”策略（共识）
研究人员尝试了一个巧妙的技巧：如果他们使用两个不同的 AI 模型来分类消息会怎样？

如果两个 AI 达成一致： “好吧，我们都认为这是‘自我护理’。那就接受它。”（这非常有效）。
如果 AI 意见不一： “我们无法达成一致。让我们把这条消息交给人类医生查看。”
结果： 这种“双头”方法创造了一个安全网。这并不意味着 AI 可以独立工作，而是意味着 AI 可以充当过滤器，帮助人类专注于棘手的病例。

结论：有用的助手，而非替代品

论文得出结论，这些 AI 模型尚未准备好独立工作。它们不是“自主”医生。

相反，请将它们视为高科技分诊护士助手：

它们可以快速筛选出简单的“自我护理”问题。
它们可以标记明显的紧急情况，确保无人遗漏。
但对于令人困惑的中间地带病例，它们必须始终将消息转交给人类医生。

简而言之： AI 是帮助人类优先处理工作负载的绝佳工具，但它绝不应成为患者安全的最终决策者。

技术摘要：用于在线患者咨询可操作分诊分类的少样本大语言模型

问题陈述

健康平台上的在线患者咨询通常是非正式、不完整且在专业评估之前撰写的。尽管存在这些局限性，医疗系统仍需要可扩展的方法将这些消息路由到适当级别的临床随访。本研究将该问题框架化为一个四类可操作分诊任务，区别于诊断生成或一般医学文本分类。其目标是为患者咨询分配恰好一个路由标签：

自我护理：可在家庭环境中管理，无需临床接触。
预约就诊：需要非紧急的临床评估（数天至数周内）。
紧急临床审查：需要在 24–48 小时内及时审查。
紧急转诊：需要立即进行急诊评估。

该任务具有挑战性，原因在于患者撰写的文本中缺乏关键临床细节（持续时间、严重程度、生命体征），高危急病例罕见，且临床错误的不对称性使得漏分诊（遗漏紧急病例）比过度分诊更为危险。

方法论

数据构建

本研究利用了HealthCareMagic-100K语料库，这是一个匿名的患者 - 医生交流公开数据集。

预处理：过滤记录，移除少于 20 个词元或多于 500 个词元的消息，剩余 110,163 条可用消息。
分层采样：为解决类别不平衡（特别是紧急病例稀缺）问题，采用了基于关键词的分层采样策略。根据紧急关键词和医生升级短语对记录进行评分，然后分配到各个类别（自我护理、预约就诊、紧急、紧急转诊），以丰富工作池中高危急程度的咨询。
数据划分：从包含 1,040 条记录的工作池中，创建了三个互不相交的集合：
- 银标训练集 (N=700)：由 Claude Sonnet 4.5 自动标注。用于训练监督基线。
- 金标评估集 (N=300)：由两名研究人员使用细化的标注指南进行人工校准。用于最终评估。
- 少样本池 (N=40)：高置信度、经人工验证的示例，用于上下文学习演示。

标注与标签

通过两人试点和六轮细化制定了结构化的标注指南。该指南强调“仅凭文本进行分诊”，区分主动症状与信息性查询，并对脆弱人群应用较低的阈值。

银标：由 Claude Sonnet 4.5 生成。
金标校准：人工评审员将其独立标签与初始的 Sonnet 标签进行比较。在金标集中，38% 的标签被修订，导致 Sonnet 与人工之间的 Cohen's $\kappa$ 为 0.35，突显了人工校准的必要性。

实验设置

本研究在低资源条件下比较了监督基线与提示的大语言模型 (LLMs)。

监督基线：
- TF-IDF：在 700 条记录的银标集上训练的逻辑回归、随机森林和 XGBoost。
- BioBERT：在银标集上微调的 BioBERT-v1.1。
- 注：评估了“默认”（全部 700 个示例）和“平衡”（每类下采样至 91 个示例）两种训练条件。
提示的 LLM：评估了六个模型（Llama3.1-8B, Qwen3-8B, Mistral-7B, DeepSeek-R1-7B, GPT-4o-mini, Claude Haiku 4.5），未进行参数更新。
提示条件：模型在0 样本、4 样本（每类一个示例）和12 样本（每类三个示例）设置下进行了测试。

评估指标

主要指标：宏平均 F1 分数（以考虑类别不平衡）。
安全感知指标：紧急召回率、紧急或更高级别召回率、漏分诊率（预测的严重程度低于真实情况）以及严重漏分诊率（差距 $\ge$ 2 个级别）。
一致性分析：一种神谕式人机回环 (HITL) 模拟，仅当两个模型达成一致时才自动接受预测；否则，案例将升级至人工审查。

主要结果

分类性能

监督基线：最强的监督基线是BioBERT-v1.1 (默认)，宏平均 F1 为0.378。其在紧急转诊类别上的表现明显较弱（F1 $\approx$ 0.26）。
LLM 性能：少样本提示提高了性能。表现最强的模型是Claude Haiku 4.5 (12 样本)，宏平均 F1 达到0.475。其他表现优异的模型包括 Llama3.1-8B (0.464) 和 Qwen3-8B (0.444)。
统计显著性：虽然 LLM 在点估计上优于基线，但置信区间存在重叠。McNemar 检验表明，只有 Llama3.1-8B 显著优于 BioBERT-v1.1；顶级 LLM 之间无显著差异。

特定类别与安全性能

类别难度：“自我护理”是 LLM 最容易处理的类别（F1 > 0.65）。“紧急临床审查”在所有模型中仍然是最困难的类别（F1 < 0.35），反映了中间危急程度病例的模糊性。
安全指标：与监督基线相比，LLM 表现出更优越的安全概况。
- 漏分诊：所有顶级 LLM 配置在金标集上实现了0.000 的严重漏分诊率，而监督基线的范围在 0.269 到 0.308 之间。
- 召回率：GPT-4o-mini (12 样本) 实现了最高的紧急或更高级别召回率 (0.984) 和最低的漏分诊率 (0.053)，尽管其宏平均 F1 低于 Claude Haiku 4.5。

提示敏感性与一致性

提示敏感性：少样本提示带来的性能提升并非单调或均匀的。虽然 Claude Haiku 4.5 随着样本数量增加而单调提升，但 Qwen3-8B 在 4 样本时达到峰值，而 Llama3.1-8B 在 4 样本时的表现反而不如 0 样本。
双模型一致性：模型间的一致性高度依赖于标签。
- 自我护理：高一致性可靠性（一致性准确率 > 90%）。
- 紧急临床审查：低一致性可靠性（一致性准确率 $\approx$ 25%）。
- 神谕式 HITL：模拟将分歧升级至人工的工作流，产生了高达0.708的理论宏平均 F1（GPT-4o-mini + Llama3.1-8B），表明决策支持具有巨大潜力。

意义与主张

本文得出结论：提示的 LLM 可以支持分诊优先级排序和选择性人工审查，但尚未准备好进行自主部署。

决策支持而非替代：作者认为，LLM 的价值在于其能够解释自由文本症状并遵循复杂指南，而无需针对特定任务进行微调。然而，分类“紧急临床审查”病例的持续困难以及在高风险场景中漏分诊的风险，排除了自主路由的可能性。
工作流集成：本研究提出了一种选择性预测策略，即 LLM 处理低风险且可靠的“自我护理”一致案例，并将高风险或不确定的案例标记出来供人工审查。
安全感知评估：本文强调，宏平均 F1 等聚合指标会掩盖关键的安全权衡。如果模型能最小化漏分诊，即使 F1 分数较低也可能更可取，这一发现要求在临床自然语言处理中采用安全感知评估框架。
局限性：作者承认了局限性，包括使用单一公开语料库、金标集规模较小（特别是紧急病例）、依赖银标进行监督训练以及评估的离线性质。他们指出，在做出关于工作量减少或安全性的声明之前，需要进行带有临床医生评审员的前瞻性验证。

总之，这项工作为在线患者分诊中的 LLM 提供了严格的基准，表明虽然少样本 LLM 在低资源设置下优于传统的监督基线，但其部署必须严格受人力监督和标签依赖的置信度信号约束。

Few-Shot Large Language Models for Actionable Triage Categorization of Online Patient Inquiries