Evidence of Unreliable Data and Poor Data Provenance in Clinical Prediction… — 通俗解释

这篇论文就像是一份**“医疗界的食品安全检测报告”**。

想象一下，你正在经营一家名为“未来医疗”的餐厅。厨师们（研究人员）正在用一种神奇的“预测汤”来告诉顾客（医生和病人）：你明天会不会中风？或者你未来会不会得糖尿病？

这本该是救命的汤，但作者发现，很多厨师用的**“食材”（数据）其实是从一个名为 Kaggle 的“自由市场”上随便买的，而且这些食材很可能是假的，甚至可能是用面粉捏出来的模型！**

以下是这篇论文的核心内容，用大白话和比喻讲给你听：

在医学研究中，有一种叫“临床预测模型”的工具，用来预测病情。为了训练这些工具，科学家需要大量的病人数据。

Kaggle 就像一个巨大的在线“自由市场”，任何人都可以上传数据，大家下载下来练习做模型。
作者发现，有两个在这个市场上非常火爆的“食材包”（一个是关于中风的，一个是关于糖尿病的），被成千上万的人下载，甚至被写进了几百篇学术论文里。
但是！ 这两个“食材包”的卖家（上传者）自己都说：“别问我是哪来的，我也不能说，甚至这个中风的数据包只适合用来‘练手’，不适合做研究。”
更可怕的是，经过作者像“验钞机”一样的仔细检查，发现这些数据包里的数字太完美了，或者分布太奇怪了（比如所有人的血糖值只有 18 种可能，这在真实世界里是不可能的）。这就像你在超市买鸡蛋，结果发现所有鸡蛋的重量都精确到小数点后三位，而且大小完全一样——这显然是人造的假鸡蛋。

既然食材是假的，那用它们做出来的“预测汤”自然也是不可信的。

数量惊人：作者发现，竟然有 124 篇 已经发表的论文，是直接用这些“假食材”做出来的。
传播广泛：这些论文被引用了 1500 多次，甚至被写进了86 篇综述文章（相当于教科书级别的总结）里，还被一家公司拿去申请了医疗器械专利。
真实危害：最让人担心的是，有 3 个 基于这些假数据做的模型，据说已经在医院里真正用来给病人看病了！
- 比喻：这就好比有人用面粉捏的假肉做成了“健康食谱”，结果医生真的拿着这个食谱告诉病人：“你吃这个能治病！”病人信了，结果不仅没病好，还可能耽误了真正的治疗，甚至带来生命危险。

这就好比大家都在抢着用“假食材”做菜，原因有几个：

作者非常着急，他们提出了几条“整改方案”，希望能让未来的“医疗餐厅”更安全：

对“自由市场”（Kaggle 等数据平台）说：
- 以后上传数据，必须填一张**“身份证”**（数据溯源表）。必须说清楚：数据是谁收集的？什么时候收集的？在哪收集的？是真实的病人还是电脑生成的？
- 如果说不清楚来源，就禁止上传。
对“餐厅老板”（期刊和出版社）说：
- 在收稿之前，必须检查“食材身份证”。如果作者拿不出数据来源的详细说明，直接拒稿。
- 对于已经发表但用了假数据的文章，要挂上“警示牌”（发表关注声明），甚至撤稿。
对“厨师”（研究人员）和“食客”（医生）说：
- 不要盲目相信别人做的模型。在决定给病人用之前，先问一句：“你的数据是从哪来的？是真的吗？”
- 学会看“数据身份证”，如果来源不明，坚决不用。

这篇论文就像是一个吹哨人，大声告诉全世界：
“我们在用假数据训练救命的 AI，这就像是在用面粉做的假心脏去给病人做手术，太危险了！”

作者呼吁，在人工智能和大数据飞速发展的今天，数据的“出身”（来源）比数据本身更重要。如果不搞清楚数据是不是真的，那么基于这些数据做出的所有医疗决策，都可能是一场巨大的冒险。

Evidence of Unreliable Data and Poor Data Provenance in Clinical Prediction Model Research and Clinical Practice