原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明
想象你是一位法官,试图决定哪一份新食谱能做出最好的蛋糕。为了公平起见,你不会只用每种食谱各烤一个蛋糕并尝一次。相反,你会用食谱 A 烤十个蛋糕,用食谱 B 也烤十个蛋糕,然后请十位不同的朋友来品尝。
问题:“群体拥抱”错误
在生物医学机器学习(利用计算机在医疗数据中寻找模式)领域,科学家们进行一种类似的操作,称为“交叉验证”。他们将数据分成十份,用其中九份训练计算机模型,再用剩下的一份进行测试,并重复此过程十次。
该论文指出,大多数科学家在此处犯了一个关键错误。当他们比较这十次测试的结果时,会使用标准的数学工具(如配对 t 检验),这些工具假设每个测试结果都是完全独立的——就像请十位从未谋面的陌生人来品尝蛋糕一样。
但在现实中,这十次测试并非独立的。它们都在审视同一组底层数据,只是划分方式不同。这更像是请同一群十位朋友连续品尝十次蛋糕。由于朋友们彼此相识且口味相似,他们的意见是“相关的”。
该论文声称,通过忽视这种关联,科学家们使用的是一把略微弯曲的尺子。他们以为自己非常精确,但实际上却看到了“统计幽灵”。他们发现了模型之间并不存在的差异,从而导致大量的误报(假阳性)。
调查:全球审计
作者们并非凭空猜测,而是展开了一场侦探式的搜寻。他们审查了来自顶级医学期刊(具有高“影响因子”,意味着非常著名且具影响力)的 210 项高知名度研究。
- 发现:令人震惊的是,这些研究中**97%**都犯了“群体拥抱”错误。他们将相互依赖的测试结果当作独立的来处理。
- 范围:这不仅仅是少数“糟糕”研究的问题。无论期刊多么著名、规则多么严格,或者科学家们是否公开共享数据,这一问题都会发生。这是整个领域普遍存在的习惯。
模拟:情况有多糟糕?
为了证明这种错误的危险性,作者们运行了 420 种不同的计算机模拟。他们发现,当你忽略测试结果之间存在关联这一事实时:
- 你的“误报”率会急剧飙升。
- 如果你多次重复测试(一种称为“重复交叉验证”的常见做法),出现误报的几率可能升至近100%。这就像你抛硬币,却被告知每次都中了彩票,尽管你实际上并没有中奖。
解决方案:"SHARP"测试
论文解释说,修复这一问题很困难,因为使用标准方法时,你无法分辨结果的相似性是因为模型确实优秀,还是仅仅因为数据块彼此过于相似。这就像试图弄清楚一群朋友达成一致是因为他们聪明,还是仅仅因为他们都在互相抄袭。
为了解决这个问题,作者们提出了一种名为SHARP(Split-HAlf RePeated,即分割 - 半重复)的新方法。
- 工作原理:想象一下,与其让这十位朋友品尝十次蛋糕,不如将他们分成两个独立的组。第一组在实验的前半段品尝蛋糕,第二组在后半段品尝。由于这两组是 distinct 且分离的,你终于可以测量他们自身的一致性,而不会受到“回声室”效应的影响。
- 结果:当作者们将 SHARP 与其他 12 种方法进行比较测试时,它无疑是赢家。它是唯一一种既能保持低误报率,又能检测出模型间真实差异的方法。
结论
论文最后指出,目前比较医疗 AI 模型的方法已经失效。这就像用一把坏掉的秤来称量救命药物的成分。作者们提供了一套新的、简单的规则(最佳实践),以帮助科学家修正他们的数学方法,确保当他们声称一个模型优于另一个时,他们说的是实话。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。