Evidence of Unreliable Data and Poor Data Provenance in Clinical Prediction Model Research and Clinical Practice

该研究揭示了 Kaggle 上广泛使用的中风和糖尿病数据集缺乏可验证的数据来源且疑似伪造,却仍被大量用于构建临床预测模型并影响医疗实践,因此呼吁期刊和数据库强制要求数据溯源报告,并严禁基于此类不可靠数据开发的模型直接指导患者护理决策。

Gibson, A. D., White, N. M., Collins, G. S., Barnett, A.

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“医疗界的食品安全检测报告”**。

想象一下,你正在经营一家名为“未来医疗”的餐厅。厨师们(研究人员)正在用一种神奇的“预测汤”来告诉顾客(医生和病人):你明天会不会中风?或者你未来会不会得糖尿病?

这本该是救命的汤,但作者发现,很多厨师用的**“食材”(数据)其实是从一个名为 Kaggle 的“自由市场”上随便买的,而且这些食材很可能是假的,甚至可能是用面粉捏出来的模型!**

以下是这篇论文的核心内容,用大白话和比喻讲给你听:

1. 问题的根源:来自“自由市场”的假食材

在医学研究中,有一种叫“临床预测模型”的工具,用来预测病情。为了训练这些工具,科学家需要大量的病人数据。

  • Kaggle 就像一个巨大的在线“自由市场”,任何人都可以上传数据,大家下载下来练习做模型。
  • 作者发现,有两个在这个市场上非常火爆的“食材包”(一个是关于中风的,一个是关于糖尿病的),被成千上万的人下载,甚至被写进了几百篇学术论文里。
  • 但是! 这两个“食材包”的卖家(上传者)自己都说:“别问我是哪来的,我也不能说,甚至这个中风的数据包只适合用来‘练手’,不适合做研究。”
  • 更可怕的是,经过作者像“验钞机”一样的仔细检查,发现这些数据包里的数字太完美了,或者分布太奇怪了(比如所有人的血糖值只有 18 种可能,这在真实世界里是不可能的)。这就像你在超市买鸡蛋,结果发现所有鸡蛋的重量都精确到小数点后三位,而且大小完全一样——这显然是人造的假鸡蛋

2. 后果:用假食材做出了“毒药”

既然食材是假的,那用它们做出来的“预测汤”自然也是不可信的。

  • 数量惊人:作者发现,竟然有 124 篇 已经发表的论文,是直接用这些“假食材”做出来的。
  • 传播广泛:这些论文被引用了 1500 多次,甚至被写进了86 篇综述文章(相当于教科书级别的总结)里,还被一家公司拿去申请了医疗器械专利
  • 真实危害:最让人担心的是,有 3 个 基于这些假数据做的模型,据说已经在医院里真正用来给病人看病了
    • 比喻:这就好比有人用面粉捏的假肉做成了“健康食谱”,结果医生真的拿着这个食谱告诉病人:“你吃这个能治病!”病人信了,结果不仅没病好,还可能耽误了真正的治疗,甚至带来生命危险。

3. 为什么大家还在用?

这就好比大家都在抢着用“假食材”做菜,原因有几个:

  • 为了发论文:很多研究人员为了快速发表文章(就像为了完成 KPI),不管食材真假,只要数据好拿、模型跑得快就行。
  • 缺乏检查:就像餐厅老板(期刊编辑)没有去检查食材来源,只要菜做得好看就收下了。
  • 盲目信任:大家看到别人都在用,就以为这东西肯定没问题,没人去问“这数据到底是哪来的?”

4. 作者的建议:给“自由市场”立规矩

作者非常着急,他们提出了几条“整改方案”,希望能让未来的“医疗餐厅”更安全:

  • 对“自由市场”(Kaggle 等数据平台)说

    • 以后上传数据,必须填一张**“身份证”**(数据溯源表)。必须说清楚:数据是谁收集的?什么时候收集的?在哪收集的?是真实的病人还是电脑生成的?
    • 如果说不清楚来源,就禁止上传
  • 对“餐厅老板”(期刊和出版社)说

    • 在收稿之前,必须检查“食材身份证”。如果作者拿不出数据来源的详细说明,直接拒稿
    • 对于已经发表但用了假数据的文章,要挂上“警示牌”(发表关注声明),甚至撤稿
  • 对“厨师”(研究人员)和“食客”(医生)说

    • 不要盲目相信别人做的模型。在决定给病人用之前,先问一句:“你的数据是从哪来的?是真的吗?”
    • 学会看“数据身份证”,如果来源不明,坚决不用。

总结

这篇论文就像是一个吹哨人,大声告诉全世界:
“我们在用假数据训练救命的 AI,这就像是在用面粉做的假心脏去给病人做手术,太危险了!”

作者呼吁,在人工智能和大数据飞速发展的今天,数据的“出身”(来源)比数据本身更重要。如果不搞清楚数据是不是真的,那么基于这些数据做出的所有医疗决策,都可能是一场巨大的冒险。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →