ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

本文提出了由临床专家构建的中文医疗基准 ClinConsensus,该基准涵盖全周期护理、多专科及多任务类型,并通过双裁判评估框架与一致性评分指标,揭示了当前主流大模型在复杂临床场景中的能力差异与局限性。

Xiang Zheng, Han Li, Wenjie Luo, Weiqi Zhai, Yiyuan Li, Chuanmiao Yan, Tianyi Tang, Yubo Ma, Kexin Yang, Dayiheng Liu, Hu Wei, Bing Zhao

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ClinConsensus 的新项目,你可以把它想象成是给中文医疗大模型(AI 医生)举办的一场"超级实战演习",而不是传统的“死记硬背考试”。

为了让你更容易理解,我们用几个生活中的比喻来拆解这篇论文的核心内容:

1. 为什么要搞这个新考试?(背景与痛点)

以前的 AI 医疗考试(基准测试),就像是在做单选题试卷

  • 旧模式:问 AI“发烧了吃什么药?”或者“糖尿病的定义是什么?”。AI 只要背下教科书答案就能拿高分。
  • 现实问题:真实的看病过程不是做选择题。病人会描述复杂的症状,医生需要结合病人的年龄、经济状况、家庭情况,甚至还要考虑能不能挂上号、医保能不能报销。而且,看病是一个连续的过程:从预防生病,到急性治疗,再到长期的慢病管理。
  • 结论:以前的考试太简单、太死板,测不出 AI 在真实世界里能不能当个靠谱的“家庭医生”。

2. ClinConsensus 是什么?(核心创新)

ClinConsensus 就像是一个由顶级专家设计的“沉浸式剧本杀”题库

  • 题库规模:包含了 2,500 个 真实的、复杂的医疗案例。
  • 覆盖范围:涵盖了 36 个 医学专科(从心脏科到皮肤科),涉及 12 种 不同的任务(比如诊断、开药、长期随访、健康教育等)。
  • 难度分级
    • L1(简单):像普通感冒咨询。
    • L2(中等):涉及两个科室的复杂情况。
    • L3(地狱级):像是一个病人同时有心脏病、糖尿病,还要考虑手术风险和家庭经济压力,需要跨多个科室协作的复杂案例。

比喻:以前的考试是让你背“如何骑自行车”的说明书;现在的 ClinConsensus 是直接把你扔进暴雨、泥泞和交通堵塞中,看你能不能安全地把人送到医院。

3. 怎么给 AI 打分?(评估方法)

这是这篇论文最聪明的地方。他们不再只看 AI 答得“对不对”,而是看它答得“能不能用”。

  • 评分尺子(Rubric):每个案例都有 30 把“尺子”(评估标准)。比如:有没有问过敏史?有没有考虑药物相互作用?语气是否安抚了病人?
  • 双重裁判(Dual-Judge)
    1. 超级裁判(LLM-as-Judge):用最强的 AI 模型来当裁判,给每个案例打分。
    2. 本地裁判(Trained Judge):训练了一个小巧、便宜、可以装在本地电脑上的 AI 裁判,用来大规模快速打分。
    • 注:这两个裁判都经过人类医生的严格训练,确保它们像真正的医生一样思考。
  • 新分数 CACS@k
    • 以前的分数是“平均分”,哪怕 AI 答对了一半,错了一半,平均分可能还挺高。
    • CACS@k 就像是一个"及格线过滤器"。它规定:如果 AI 的回答连最核心的 7 个关键点(比如生命安全、关键用药)都没覆盖到,那不管它说了多少废话,直接算不及格。只有那些能稳定输出“临床可用”回答的 AI,分数才会高。
    • 比喻:以前是看谁背的单词多;现在是看谁在火灾现场真的能救活人。如果连灭火器都找不到,背再多消防理论也没用。

4. 发现了什么?(实验结果)

他们测试了 15 个 目前最厉害的 AI 模型(包括 GPT-5.2, 通义千问,Kimi 等),结果很有趣:

  • 总分看起来差不多:顶尖的 AI 模型在总分上差距不大,好像都很强。
  • 但“偏科”很严重
    • 有的 AI 擅长查资料(找指南),但在制定治疗方案时就很拉胯。
    • 有的 AI 擅长短期急救,但一到了长期慢病管理(比如让病人坚持吃药半年)就忘了前文,建议前后矛盾。
    • 有的 AI 在精神科表现很好,但在器官移植这种复杂场景就完全不行。
  • 最大的瓶颈:目前最强的 AI,在“制定可执行的临床治疗方案”上依然很弱。也就是说,语言说得好听,不代表能开出安全的药方。

5. 总结:这对我们意味着什么?

这篇论文告诉我们:

  1. 别被总分骗了:一个 AI 在医学问答上拿 90 分,不代表它在真实医院里能当医生。
  2. 安全是第一位的:ClinConsensus 强调,AI 必须能像人类医生一样,在复杂的现实约束下(没钱、没药、病人情绪激动)给出安全、一致、可执行的建议。
  3. 未来方向:我们需要更多像 ClinConsensus 这样的“实战演练场”,帮助 AI 从“只会背书的书呆子”进化成“能解决实际问题的临床伙伴”。

一句话总结
ClinConsensus 就是给 AI 医生发了一张真实的“行医执照”模拟考卷,告诉我们要想真正进入医院,光会背课本是不够的,还得能在风雨交加的复杂现实中,稳稳地救死扶伤。