Enabling clinical use of foundation models in histopathology

该研究提出通过在下游任务模型训练中引入新型鲁棒性损失函数,有效消除了基础模型对技术变异性的敏感性,从而在不重新训练基础模型的前提下,显著提升了计算病理学模型在真实临床数据中的鲁棒性和预测准确性。

Audun L. Henriksen, Ole-Johan Skrede, Lisa van der Schee, Enric Domingo, Sepp De Raedt, Ilyá Kostolomov, Jennifer Hay, Karolina Cyll, Wanja Kildal, Joakim Kalsnes, Robert W. Williams, Manohar Pradhan, John Arne Nesheim, Hanne A. Askautrud, Maria X. Isaksen, Karmele Saez de Gordoa, Miriam Cuatrecasas, Joanne Edwards, TransSCOT group, Arild Nesbakken, Neil A. Shepherd, Ian Tomlinson, Daniel-Christoph Wagner, Rachel S. Kerr, Tarjei Sveinsgjerd Hveem, Knut Liestøl, Yoshiaki Nakamura, Marco Novelli, Masaaki Miyo, Sebastian Foersch, David N. Church, Miangela M. Lacle, David J. Kerr, Andreas Kleppe

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让"AI 医生”变得更聪明、更可靠的故事。

想象一下,病理医生(专门看显微镜下细胞图片的医生)正在用一种超级强大的"AI 助手”来诊断癌症。这个 AI 助手是基于一种叫做**“基础模型”(Foundation Model)**的技术训练的,就像是一个读过全世界所有医学书籍的超级学霸。

但是,这个超级学霸有一个致命的坏习惯:它太“势利”了。

1. 问题:AI 被“外表”迷惑了

在现实世界中,医院用的显微镜扫描仪(就像相机的镜头)各不相同,有的医院染色剂颜色深一点,有的浅一点,有的切片厚一点,有的薄一点。

  • 比喻:这就好比你在不同光线下给同一个苹果拍照。在红光下,苹果看起来是深红色的;在蓝光下,它看起来是紫色的。
  • 现状:这个"AI 学霸”虽然很聪明,但它太容易分心了。它没有专注于苹果本身(癌细胞),而是记住了“红光”或“蓝光”(扫描仪的型号、染色剂的品牌)。
  • 后果:如果它在红光下训练过,到了蓝光下,它可能会把同一个病人的病情判断错。这就叫**“缺乏鲁棒性”**(不够稳健)。在临床实践中,这意味着如果医院换了台机器,AI 的诊断结果可能就会大相径庭,这非常危险。

2. 解决方案:给 AI 戴上“降噪耳机”

研究团队发现,他们不需要重新训练这个超级学霸(那太贵太慢了),只需要在教它做具体任务(比如预测癌症生存率或淋巴结转移)时,给它加一点特殊的“纪律训练”

  • 比喻:想象你在教一个学生做数学题。以前,你只让他做题。现在,你给他出了同一道题的两种不同版本(比如一张是黑白打印的,一张是彩色复印的,或者用不同牌子的纸印的)。
  • 新规则:你告诉学生:“不管这张纸是黑是白,不管印得清不清楚,这道题的答案必须是一样的!如果你因为纸张颜色不同就改了答案,我就要扣分。”
  • 技术实现:研究人员在训练 AI 时,加入了两个新的“惩罚机制”(损失函数):
    1. 特征惩罚:强迫 AI 认出,虽然图片颜色不同,但里面的细胞结构是一样的。
    2. 结果惩罚:强迫 AI 对同一病人的两张不同扫描图,给出完全相同的诊断分数。

3. 实验:一场大规模的“压力测试”

为了验证这个方法,他们搞了一个超级大的实验:

  • 样本量:收集了来自全球多个国家的6000 多名病人的27,000 多张病理切片。
  • 多样性:这些切片在5 种不同品牌的扫描仪上扫描过,有的还在不同国家的实验室处理过。
  • 任务:让 AI 预测结直肠癌患者的生存期,以及判断癌细胞是否转移到了淋巴结。

4. 结果:AI 变得“脱敏”且更准了

结果非常令人兴奋:

  • 不再看“脸色”行事:加上“纪律训练”后,AI 不再因为扫描仪不同而胡乱猜测。它对同一个病人的判断,无论用哪种机器扫描,结果都高度一致。
  • 更关注“本质”:有趣的是,当 AI 不再被“纸张颜色”(技术噪音)分散注意力时,它反而更关注“苹果本身”(生物学特征)
  • 准确率提升:不仅稳定性提高了,诊断的准确率也提升了!原本有些模型在特定任务上表现很差,加上这个方法后,表现甚至超过了那些原本表现最好的模型。

5. 总结:为什么这很重要?

这项研究就像给 AI 医生装上了一副**“防干扰眼镜”**。

以前,AI 医生可能因为医院换了台新机器就“水土不服”,导致诊断不可靠,无法真正进入医院日常使用。现在,通过这种简单而巧妙的方法(不需要重造 AI,只需调整训练方式),我们让 AI 学会了透过现象看本质

这意味着,未来这种 AI 模型可以真正地在世界各地的医院落地,无论那里的设备新旧、染色习惯如何,它都能给出稳定、可靠、值得信赖的诊断建议,真正造福患者。

一句话总结:研究人员给病理 AI 加了一道“不管设备怎么变,答案必须一致”的紧箍咒,结果 AI 不仅更听话了,而且看得更准了,终于能真正走进医院救死扶伤了。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →