Widespread use of invalid statistical tests in biomedical machine learning

本文揭示,生物医学机器学习中广泛使用的忽略交叉验证折间依赖性的无效统计检验会导致假阳性率虚高,促使作者提出SHARP检验作为稳健解决方案,并提供用于有效模型比较的新报告指南。

原作者: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X.
发布于 2026-05-22
📖 1 分钟阅读☕ 轻松阅读

原作者: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X. Z., Mansour L., S., Ng, K. K., Nguyen, T. T., Ooi, L. Q. R., Pande, S., Qian, X., Ruan, J., Wang, Z., Xie, Y., Zhang, C., Zhang, Y., Patil, K., Parkes, L., Dhamala, E., Chopra, S., Zalesky, A., Holmes, A., Eickhoff, S., Zhou, J. H., Renaud, O., Dosenbach, N., Kording, K. P., Bzdok, D., Nichols, T., Yeo, B. T. T.

原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

想象你是一位法官,试图决定哪一份新食谱能做出最好的蛋糕。为了公平起见,你不会只用每种食谱各烤一个蛋糕并尝一次。相反,你会用食谱 A 烤十个蛋糕,用食谱 B 也烤十个蛋糕,然后请十位不同的朋友来品尝。

问题:“群体拥抱”错误

在生物医学机器学习(利用计算机在医疗数据中寻找模式)领域,科学家们进行一种类似的操作,称为“交叉验证”。他们将数据分成十份,用其中九份训练计算机模型,再用剩下的一份进行测试,并重复此过程十次。

该论文指出,大多数科学家在此处犯了一个关键错误。当他们比较这十次测试的结果时,会使用标准的数学工具(如配对 t 检验),这些工具假设每个测试结果都是完全独立的——就像请十位从未谋面的陌生人来品尝蛋糕一样。

但在现实中,这十次测试并非独立的。它们都在审视同一组底层数据,只是划分方式不同。这更像是请同一群十位朋友连续品尝十次蛋糕。由于朋友们彼此相识且口味相似,他们的意见是“相关的”。

该论文声称,通过忽视这种关联,科学家们使用的是一把略微弯曲的尺子。他们以为自己非常精确,但实际上却看到了“统计幽灵”。他们发现了模型之间并不存在的差异,从而导致大量的误报(假阳性)。

调查:全球审计

作者们并非凭空猜测,而是展开了一场侦探式的搜寻。他们审查了来自顶级医学期刊(具有高“影响因子”,意味着非常著名且具影响力)的 210 项高知名度研究。

  • 发现:令人震惊的是,这些研究中**97%**都犯了“群体拥抱”错误。他们将相互依赖的测试结果当作独立的来处理。
  • 范围:这不仅仅是少数“糟糕”研究的问题。无论期刊多么著名、规则多么严格,或者科学家们是否公开共享数据,这一问题都会发生。这是整个领域普遍存在的习惯。

模拟:情况有多糟糕?

为了证明这种错误的危险性,作者们运行了 420 种不同的计算机模拟。他们发现,当你忽略测试结果之间存在关联这一事实时:

  • 你的“误报”率会急剧飙升。
  • 如果你多次重复测试(一种称为“重复交叉验证”的常见做法),出现误报的几率可能升至近100%。这就像你抛硬币,却被告知每次都中了彩票,尽管你实际上并没有中奖。

解决方案:"SHARP"测试

论文解释说,修复这一问题很困难,因为使用标准方法时,你无法分辨结果的相似性是因为模型确实优秀,还是仅仅因为数据块彼此过于相似。这就像试图弄清楚一群朋友达成一致是因为他们聪明,还是仅仅因为他们都在互相抄袭。

为了解决这个问题,作者们提出了一种名为SHARP(Split-HAlf RePeated,即分割 - 半重复)的新方法。

  • 工作原理:想象一下,与其让这十位朋友品尝十次蛋糕,不如将他们分成两个独立的组。第一组在实验的前半段品尝蛋糕,第二组在后半段品尝。由于这两组是 distinct 且分离的,你终于可以测量他们自身的一致性,而不会受到“回声室”效应的影响。
  • 结果:当作者们将 SHARP 与其他 12 种方法进行比较测试时,它无疑是赢家。它是唯一一种既能保持低误报率,又能检测出模型间真实差异的方法。

结论

论文最后指出,目前比较医疗 AI 模型的方法已经失效。这就像用一把坏掉的秤来称量救命药物的成分。作者们提供了一套新的、简单的规则(最佳实践),以帮助科学家修正他们的数学方法,确保当他们声称一个模型优于另一个时,他们说的是实话。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →