Widespread use of invalid statistical tests in biomedical machine learning

原作者： Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X.

发布于 2026-05-22

📖 1 分钟阅读☕ 轻松阅读

查看于 bioRxiv ↗PDF ↗

CC BY 4.0

原作者： Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X. Z., Mansour L., S., Ng, K. K., Nguyen, T. T., Ooi, L. Q. R., Pande, S., Qian, X., Ruan, J., Wang, Z., Xie, Y., Zhang, C., Zhang, Y., Patil, K., Parkes, L., Dhamala, E., Chopra, S., Zalesky, A., Holmes, A., Eickhoff, S., Zhou, J. H., Renaud, O., Dosenbach, N., Kording, K. P., Bzdok, D., Nichols, T., Yeo, B. T. T.

原始论文采用 CC BY 4.0 许可（https://creativecommons.org/licenses/by/4.0/）。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

想象你是一位法官，试图决定哪一份新食谱能做出最好的蛋糕。为了公平起见，你不会只用每种食谱各烤一个蛋糕并尝一次。相反，你会用食谱 A 烤十个蛋糕，用食谱 B 也烤十个蛋糕，然后请十位不同的朋友来品尝。

问题：“群体拥抱”错误

在生物医学机器学习（利用计算机在医疗数据中寻找模式）领域，科学家们进行一种类似的操作，称为“交叉验证”。他们将数据分成十份，用其中九份训练计算机模型，再用剩下的一份进行测试，并重复此过程十次。

该论文指出，大多数科学家在此处犯了一个关键错误。当他们比较这十次测试的结果时，会使用标准的数学工具（如配对 t 检验），这些工具假设每个测试结果都是完全独立的——就像请十位从未谋面的陌生人来品尝蛋糕一样。

但在现实中，这十次测试并非独立的。它们都在审视同一组底层数据，只是划分方式不同。这更像是请同一群十位朋友连续品尝十次蛋糕。由于朋友们彼此相识且口味相似，他们的意见是“相关的”。

该论文声称，通过忽视这种关联，科学家们使用的是一把略微弯曲的尺子。他们以为自己非常精确，但实际上却看到了“统计幽灵”。他们发现了模型之间并不存在的差异，从而导致大量的误报（假阳性）。

调查：全球审计

作者们并非凭空猜测，而是展开了一场侦探式的搜寻。他们审查了来自顶级医学期刊（具有高“影响因子”，意味着非常著名且具影响力）的 210 项高知名度研究。

发现：令人震惊的是，这些研究中**97%**都犯了“群体拥抱”错误。他们将相互依赖的测试结果当作独立的来处理。
范围：这不仅仅是少数“糟糕”研究的问题。无论期刊多么著名、规则多么严格，或者科学家们是否公开共享数据，这一问题都会发生。这是整个领域普遍存在的习惯。

模拟：情况有多糟糕？

为了证明这种错误的危险性，作者们运行了 420 种不同的计算机模拟。他们发现，当你忽略测试结果之间存在关联这一事实时：

你的“误报”率会急剧飙升。
如果你多次重复测试（一种称为“重复交叉验证”的常见做法），出现误报的几率可能升至近100%。这就像你抛硬币，却被告知每次都中了彩票，尽管你实际上并没有中奖。

解决方案："SHARP"测试

论文解释说，修复这一问题很困难，因为使用标准方法时，你无法分辨结果的相似性是因为模型确实优秀，还是仅仅因为数据块彼此过于相似。这就像试图弄清楚一群朋友达成一致是因为他们聪明，还是仅仅因为他们都在互相抄袭。

为了解决这个问题，作者们提出了一种名为SHARP（Split-HAlf RePeated，即分割 - 半重复）的新方法。

工作原理：想象一下，与其让这十位朋友品尝十次蛋糕，不如将他们分成两个独立的组。第一组在实验的前半段品尝蛋糕，第二组在后半段品尝。由于这两组是 distinct 且分离的，你终于可以测量他们自身的一致性，而不会受到“回声室”效应的影响。
结果：当作者们将 SHARP 与其他 12 种方法进行比较测试时，它无疑是赢家。它是唯一一种既能保持低误报率，又能检测出模型间真实差异的方法。

结论

论文最后指出，目前比较医疗 AI 模型的方法已经失效。这就像用一把坏掉的秤来称量救命药物的成分。作者们提供了一套新的、简单的规则（最佳实践），以帮助科学家修正他们的数学方法，确保当他们声称一个模型优于另一个时，他们说的是实话。

技术摘要：生物医学机器学习中无效统计检验的广泛使用

问题
机器学习已成为生物医学研究的基石，常被用于基准测试算法并识别科学见解（例如对生物标志物进行排序）。评估预测性能的标准方法是交叉验证（CV）。然而，一个关键的统计缺陷破坏了这一实践：源自不同 CV 折的预测性能估计并非相互独立。用于比较这些性能的标准统计检验（如配对 t 检验）依赖于独立性假设。当该假设被违反时，这些检验无法控制假阳性率，从而导致无效的推断。尽管这一问题普遍存在，但在高影响力的科学文献中仍未得到充分解决。

方法
作者采用多维度的方法学途径来诊断并解决这一问题：

荟萃分析：遵循 PRISMA 指南，对 2020 年 6 月 1 日至 2025 年 6 月 1 日期间发表在影响因子 $\ge$ 15 的期刊上的 210 项研究进行了综述。该综述具体考察了研究如何比较预测性能，以及是否考虑了折间依赖性。
模拟研究：利用四个多样化的数据集，在 420 种场景下进行了广泛的模拟。这些模拟测试了标准检验在不同条件下的性能，包括重复交叉验证的使用。
统计分析：作者分析了现有“折间依赖性感知”检验的理论局限性，指出在标准交叉验证下，折水平统计量的方差与折间相关性无法被解耦，迫使现有方法依赖于强假设（且这些假设往往未经过验证）。
提出新检验：为了克服这些局限性，作者提出了SHARP（Split-HAlf RePeated，分割 - 半重复）检验。该方法修改了标准交叉验证流程，使其能够直接估计方差和相关性，从而在无需依赖不可检验假设的情况下满足有效统计推断的要求。

主要结果

错误的普遍性：荟萃分析显示，**97%**的受审研究在比较预测性能时忽略了折间依赖性。这一疏漏在各个科学领域普遍存在，并未因高影响因子、促进严谨性的政策或开放科学实践而得到缓解。
对假阳性的影响：模拟表明，忽略折间依赖性会导致大多数情境下的假阳性控制失效。重复交叉验证加剧了这一问题；随着重复次数的增加，假阳性率可上升至100%。
SHARP 的性能：在与 12 种其他统计检验的基准测试中，SHARP 检验在三个关键指标上展现出最佳的整体平衡：假阳性控制、统计功效和置信区间校准。它在各种模拟方案中均一致地实现了这一性能。

意义与主张
该论文断言，目前生物医学研究中依赖标准检验来比较机器学习模型的做法存在根本性缺陷，导致得出虚假科学结论的高风险。通过指出尽管编辑标准很高，该问题依然存在，作者突显了统计严谨性方面的系统性差距。

这项工作的主要贡献是引入了 SHARP 检验，它通过直接估计必要的统计参数，为折间依赖性问题提供了切实可行的解决方案。此外，作者最后提供了具体的最佳实践和报告指南，旨在恢复生物医学机器学习及相关领域中模型比较推断的有效性。这项工作呼吁社区采用这些修正后的方法，以确保生物标志物排序等科学应用建立在统计上可靠证据的基础之上。

技术摘要：生物医学机器学习中无效统计检验的广泛使用

类似论文