Enabling clinical use of foundation models in histopathology

Audun L. Henriksen, Ole-Johan Skrede, Lisa van der Schee, Enric Domingo, Sepp De Raedt, Ilyá Kostolomov, Jennifer Hay, Karolina Cyll, Wanja Kildal, Joakim Kalsnes, Robert W. Williams, Manohar Pradhan, John Arne Nesheim, Hanne A. Askautrud, Maria X. Isaksen, Karmele Saez de Gordoa, Miriam Cuatrecasas, Joanne Edwards, TransSCOT group, Arild Nesbakken, Neil A. Shepherd, Ian Tomlinson, Daniel-Christoph Wagner, Rachel S. Kerr, Tarjei Sveinsgjerd Hveem, Knut Liestøl, Yoshiaki Nakamura, Marco Novelli, Masaaki Miyo, Sebastian Foersch, David N. Church, Miangela M. Lacle, David J. Kerr, Andreas Kleppe

发布于 2026-02-27

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让"AI 医生”变得更聪明、更可靠的故事。

想象一下，病理医生（专门看显微镜下细胞图片的医生）正在用一种超级强大的"AI 助手”来诊断癌症。这个 AI 助手是基于一种叫做**“基础模型”（Foundation Model）**的技术训练的，就像是一个读过全世界所有医学书籍的超级学霸。

但是，这个超级学霸有一个致命的坏习惯：它太“势利”了。

1. 问题：AI 被“外表”迷惑了

在现实世界中，医院用的显微镜扫描仪（就像相机的镜头）各不相同，有的医院染色剂颜色深一点，有的浅一点，有的切片厚一点，有的薄一点。

比喻：这就好比你在不同光线下给同一个苹果拍照。在红光下，苹果看起来是深红色的；在蓝光下，它看起来是紫色的。
现状：这个"AI 学霸”虽然很聪明，但它太容易分心了。它没有专注于苹果本身（癌细胞），而是记住了“红光”或“蓝光”（扫描仪的型号、染色剂的品牌）。
后果：如果它在红光下训练过，到了蓝光下，它可能会把同一个病人的病情判断错。这就叫**“缺乏鲁棒性”**（不够稳健）。在临床实践中，这意味着如果医院换了台机器，AI 的诊断结果可能就会大相径庭，这非常危险。

2. 解决方案：给 AI 戴上“降噪耳机”

研究团队发现，他们不需要重新训练这个超级学霸（那太贵太慢了），只需要在教它做具体任务（比如预测癌症生存率或淋巴结转移）时，给它加一点特殊的“纪律训练”。

比喻：想象你在教一个学生做数学题。以前，你只让他做题。现在，你给他出了同一道题的两种不同版本（比如一张是黑白打印的，一张是彩色复印的，或者用不同牌子的纸印的）。
新规则：你告诉学生：“不管这张纸是黑是白，不管印得清不清楚，这道题的答案必须是一样的！如果你因为纸张颜色不同就改了答案，我就要扣分。”
技术实现：研究人员在训练 AI 时，加入了两个新的“惩罚机制”（损失函数）：
1. 特征惩罚：强迫 AI 认出，虽然图片颜色不同，但里面的细胞结构是一样的。
2. 结果惩罚：强迫 AI 对同一病人的两张不同扫描图，给出完全相同的诊断分数。

3. 实验：一场大规模的“压力测试”

为了验证这个方法，他们搞了一个超级大的实验：

样本量：收集了来自全球多个国家的6000 多名病人的27,000 多张病理切片。
多样性：这些切片在5 种不同品牌的扫描仪上扫描过，有的还在不同国家的实验室处理过。
任务：让 AI 预测结直肠癌患者的生存期，以及判断癌细胞是否转移到了淋巴结。

4. 结果：AI 变得“脱敏”且更准了

结果非常令人兴奋：

不再看“脸色”行事：加上“纪律训练”后，AI 不再因为扫描仪不同而胡乱猜测。它对同一个病人的判断，无论用哪种机器扫描，结果都高度一致。
更关注“本质”：有趣的是，当 AI 不再被“纸张颜色”（技术噪音）分散注意力时，它反而更关注“苹果本身”（生物学特征）。
准确率提升：不仅稳定性提高了，诊断的准确率也提升了！原本有些模型在特定任务上表现很差，加上这个方法后，表现甚至超过了那些原本表现最好的模型。

5. 总结：为什么这很重要？

这项研究就像给 AI 医生装上了一副**“防干扰眼镜”**。

以前，AI 医生可能因为医院换了台新机器就“水土不服”，导致诊断不可靠，无法真正进入医院日常使用。现在，通过这种简单而巧妙的方法（不需要重造 AI，只需调整训练方式），我们让 AI 学会了透过现象看本质。

这意味着，未来这种 AI 模型可以真正地在世界各地的医院落地，无论那里的设备新旧、染色习惯如何，它都能给出稳定、可靠、值得信赖的诊断建议，真正造福患者。

一句话总结：研究人员给病理 AI 加了一道“不管设备怎么变，答案必须一致”的紧箍咒，结果 AI 不仅更听话了，而且看得更准了，终于能真正走进医院救死扶伤了。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于《Enabling clinical use of foundation models in histopathology》（使组织病理学中的基础模型能够用于临床）论文的详细技术总结。

1. 研究背景与问题 (Problem)

核心问题：
尽管组织病理学基础模型（Foundation Models, FMs）在自然语言处理领域取得了巨大成功，并被引入病理学作为通用特征提取器，但它们在临床应用中面临严重的鲁棒性（Robustness）问题。

非生物学特征的干扰： 现有的基础模型不仅捕捉生物学相关的特征，还过度学习了与生物学无关的“虚假相关性”（Spurious Correlations）。这些包括：
- 预分析因素： 组织处理流程、染色试剂差异。
- 扫描设备差异： 不同扫描仪（Scanner）产生的特定图像伪影或“机构签名”。
后果： 基于基础模型特征训练的下游任务模型（如生存预测、淋巴结转移预测）对技术变异极其敏感。同一患者的同一组织切片，在不同实验室或不同扫描仪上成像时，模型会给出差异巨大的预测结果，导致临床部署不可靠。
现有局限： 简单的染色归一化（Stain Normalization）无法消除这种依赖性；重新训练庞大的基础模型成本过高且不切实际。

2. 方法论 (Methodology)

作者提出了一种无需重新训练基础模型的下游任务特定网络（Downstream Task-Specific Network）训练策略，通过引入**双重鲁棒性损失函数（Robustness Losses）**来强制模型关注生物学特征。

核心架构：

输入： 使用 8 种流行的组织病理学基础模型（如 H-Optimus, Virchow2, UNI, Phikon-v2 等）提取的图像块（Tile）特征。
数据配对： 利用同一组织切片在不同扫描仪（如 Aperio AT2 vs. NanoZoomer XR）上的配对图像（Co-registered tiles）。
网络结构： 采用基于注意力的多示例学习（Attention-based Multiple Instance Learning, MIL）架构。

关键创新：双重损失函数
在标准的分类损失（Cross-Entropy Loss）基础上，增加了两个损失项，仅在训练阶段使用：

对比嵌入损失 (Contrastive Embedding Loss)：
- 基于 InfoNCE 损失。
- 目标： 拉近同一物理区域在不同扫描仪上的特征向量（正样本），推远不同患者的特征向量（负样本）。
- 作用： 强制特征提取层忽略扫描仪差异，聚焦于组织本身的生物学特征。
预测分数损失 (Prediction Score Loss)：
- 基于均方误差（MSE）。
- 目标： 惩罚同一患者在不同扫描仪上的最终切片级（Slide-level）预测分数之间的差异。
- 作用： 确保模型输出的最终决策在不同扫描条件下保持一致，防止微小的特征差异在后续网络层中被放大。

训练策略：

通过调节损失函数的权重系数（ $\lambda$ ），在鲁棒性（Robustness）和预测准确性（Prediction Accuracy）之间寻找最佳平衡点。
该方法不改变基础模型本身，也不改变下游网络架构，仅修改训练过程中的优化目标。

3. 实验设置 (Experimental Setup)

数据规模： 涉及 27,042 张全切片图像（WSIs），来自 6,155 名患者。
数据来源： 包含多个独立队列（如 TransSCOT, QUASAR 2, VICTOR 等），涵盖英国、挪威、德国、日本等多个国家的实验室和扫描仪。
任务：
1. 结直肠癌（CRC）生存结局预测： 早期阶段患者的预后分析。
2. pT1 期结直肠癌淋巴结转移（LNM）预测： 病理分期为 T1 的癌症淋巴结转移风险预测。
对比基准： 8 种主流基础模型，对比“标准训练”与“加入鲁棒性损失训练”的效果。

4. 主要结果 (Key Results)

A. 鲁棒性显著提升

不一致性降低： 引入鲁棒性损失后，同一患者在不同扫描仪上的预测分数标准差（Inconsistency Metric）显著降低。
- 对于大多数模型，不一致性从约 0.25 降至 0.1 以下（Hibou-L 和 Phikon-v2 除外，但也显著改善）。
- 分类一致性（Classification Agreement）从 80-90% 提升至 95% 以上。
线性探测验证： 实验证明，基础模型特征中包含极强的扫描仪信息（线性分类器识别扫描仪的准确率接近 100%）。加入鲁棒性损失后，模型成功抑制了这种非生物学信息的利用。

B. 预测准确性提升

意外发现： 提高鲁棒性不仅没有牺牲准确性，反而提升了预测性能。
- 生存预测： 在外部测试集上，C-index（一致性指数）保持或提升。
- LNM 预测： 平均 AUC 显著提升。例如，Virchow2 模型的 AUC 从 0.64 提升至 0.73；所有模型在加入鲁棒性损失后，平均 AUC 均超过 0.7。
解释： 正则化迫使模型关注真正的生物学信号，减少了过拟合于技术噪声，从而提高了泛化能力。

C. 空间一致性

热力图分析显示，经过鲁棒性训练的模型，对同一患者不同扫描图像的局部预测（Tile-level）具有高度一致性，消除了因扫描设备不同导致的预测波动。

D. 通用性

该方法在 8 种不同的基础模型和 2 种不同的临床任务中均表现出一致的有效性，证明了其作为通用解决方案的潜力。

5. 关键贡献与意义 (Contributions & Significance)

无需重训基础模型： 提出了一种轻量级的下游训练策略，无需重新训练昂贵的基础模型即可解决其鲁棒性问题，极大地降低了临床部署的门槛和成本。
解决“捷径学习”（Shortcut Learning）： 有效抑制了模型利用扫描仪特征等虚假相关性进行预测的倾向，引导模型学习真正的生物学特征。
提升临床实用性： 证明了通过简单的损失函数调整，可以开发出适用于真实世界多中心、多设备数据的鲁棒 AI 模型，这是病理 AI 走向临床常规应用的关键一步。
性能与鲁棒性的双赢： 打破了通常认为“增加约束会降低性能”的刻板印象，展示了鲁棒性训练实际上能提升模型的预测精度。
大规模验证： 基于 6000 多名患者、2.7 万张切片的大规模多中心数据验证，结果具有高度的统计显著性和外部有效性。

总结

该论文指出，当前组织病理学基础模型的主要瓶颈在于对技术变异的敏感性。作者通过引入对比嵌入损失和预测分数损失，成功训练出了对扫描仪和设备差异不敏感、且预测更准确的下游模型。这一方法为将基础模型安全、可靠地应用于常规临床病理诊断铺平了道路。

Enabling clinical use of foundation models in histopathology

1. 问题：AI 被“外表”迷惑了

2. 解决方案：给 AI 戴上“降噪耳机”

3. 实验：一场大规模的“压力测试”

4. 结果：AI 变得“脱敏”且更准了

5. 总结：为什么这很重要？

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 实验设置 (Experimental Setup)

4. 主要结果 (Key Results)

5. 关键贡献与意义 (Contributions & Significance)

总结

类似论文

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems