✨ 要点🔬 技术摘要
这篇论文就像是一份**“医疗界的食品安全检测报告”**。
想象一下,你正在经营一家名为“未来医疗”的餐厅。厨师们(研究人员)正在用一种神奇的“预测汤”来告诉顾客(医生和病人):你明天会不会中风?或者你未来会不会得糖尿病?
这本该是救命的汤,但作者发现,很多厨师用的**“食材”(数据)其实是从一个名为 Kaggle 的“自由市场”上随便买的,而且这些食材很可能是假的,甚至可能是用面粉捏出来的模型!**
以下是这篇论文的核心内容,用大白话和比喻讲给你听:
1. 问题的根源:来自“自由市场”的假食材
在医学研究中,有一种叫“临床预测模型”的工具,用来预测病情。为了训练这些工具,科学家需要大量的病人数据。
Kaggle 就像一个巨大的在线“自由市场”,任何人都可以上传数据,大家下载下来练习做模型。
作者发现,有两个在这个市场上非常火爆的“食材包”(一个是关于中风 的,一个是关于糖尿病 的),被成千上万的人下载,甚至被写进了几百篇学术论文里。
但是! 这两个“食材包”的卖家(上传者)自己都说:“别问我是哪来的,我也不能说,甚至这个中风的数据包只适合用来‘练手’,不适合做研究。”
更可怕的是,经过作者像“验钞机”一样的仔细检查,发现这些数据包里的数字太完美了 ,或者分布太奇怪了 (比如所有人的血糖值只有 18 种可能,这在真实世界里是不可能的)。这就像你在超市买鸡蛋,结果发现所有鸡蛋的重量都精确到小数点后三位,而且大小完全一样——这显然是人造的假鸡蛋 。
2. 后果:用假食材做出了“毒药”
既然食材是假的,那用它们做出来的“预测汤”自然也是不可信的。
数量惊人 :作者发现,竟然有 124 篇 已经发表的论文,是直接用这些“假食材”做出来的。
传播广泛 :这些论文被引用了 1500 多次,甚至被写进了86 篇综述文章 (相当于教科书级别的总结)里,还被一家公司拿去申请了医疗器械专利 。
真实危害 :最让人担心的是,有 3 个 基于这些假数据做的模型,据说已经在医院里真正用来给病人看病了 !
比喻 :这就好比有人用面粉捏的假肉做成了“健康食谱”,结果医生真的拿着这个食谱告诉病人:“你吃这个能治病!”病人信了,结果不仅没病好,还可能耽误了真正的治疗,甚至带来生命危险。
3. 为什么大家还在用?
这就好比大家都在抢着用“假食材”做菜,原因有几个:
为了发论文 :很多研究人员为了快速发表文章(就像为了完成 KPI),不管食材真假,只要数据好拿、模型跑得快就行。
缺乏检查 :就像餐厅老板(期刊编辑)没有去检查食材来源,只要菜做得好看就收下了。
盲目信任 :大家看到别人都在用,就以为这东西肯定没问题,没人去问“这数据到底是哪来的?”
4. 作者的建议:给“自由市场”立规矩
作者非常着急,他们提出了几条“整改方案”,希望能让未来的“医疗餐厅”更安全:
对“自由市场”(Kaggle 等数据平台)说 :
以后上传数据,必须填一张**“身份证”**(数据溯源表)。必须说清楚:数据是谁收集的?什么时候收集的?在哪收集的?是真实的病人还是电脑生成的?
如果说不清楚来源,就禁止上传 。
对“餐厅老板”(期刊和出版社)说 :
在收稿之前,必须检查“食材身份证”。如果作者拿不出数据来源的详细说明,直接拒稿 。
对于已经发表但用了假数据的文章,要挂上“警示牌” (发表关注声明),甚至撤稿 。
对“厨师”(研究人员)和“食客”(医生)说 :
不要盲目相信别人做的模型。在决定给病人用之前,先问一句:“你的数据是从哪来的?是真的吗?”
学会看“数据身份证”,如果来源不明,坚决不用。
总结
这篇论文就像是一个吹哨人 ,大声告诉全世界:“我们在用假数据训练救命的 AI,这就像是在用面粉做的假心脏去给病人做手术,太危险了!”
作者呼吁,在人工智能和大数据飞速发展的今天,数据的“出身”(来源)比数据本身更重要 。如果不搞清楚数据是不是真的,那么基于这些数据做出的所有医疗决策,都可能是一场巨大的冒险。
这是一份关于该预印本论文《临床预测模型研究与临床实践中不可靠数据与不良数据溯源的证据》(Evidence of Unreliable Data and Poor Data Provenance in Clinical Prediction Model Research and Clinical Practice)的详细技术总结。
1. 研究背景与问题 (Problem)
核心问题 :临床预测模型(Clinical Prediction Models, CPMs)的研究正日益依赖大型、公开收集的数据集。然而,部分公开数据集(特别是来自 Kaggle 等竞赛平台的数据)缺乏明确的数据溯源(Data Provenance),甚至可能是模拟或伪造的。
具体风险 :
数据真实性存疑 :作者发现两个广泛使用的 Kaggle 数据集(中风和糖尿病),其上传者明确声明无法披露数据来源,甚至建议仅用于教育目的而非研究。
研究质量下降 :基于不可靠数据的“快速周转”(fast-churn)研究导致虚假发现,浪费科研资源,并可能误导临床决策,对患者安全构成威胁。
现有指南缺失 :尽管有 TRIPOD+AI 等报告指南,但目前的期刊和数据仓库缺乏强制性的数据溯源和真实性验证机制。
研究目标 :调查两个 Kaggle 数据集的溯源情况,评估基于这些数据集发表的临床预测模型研究的质量,并揭示其被用于临床实践或政策制定的潜在风险。
2. 方法论 (Methodology)
研究对象 :
数据集 :从 Kaggle 下载的两个公开数据集(中风预测数据集和糖尿病预测数据集)。
文献 :通过 Google Scholar 搜索引用这两个 Kaggle 链接的同行评审文章。
数据溯源评估 :
使用 TRIPOD+AI 声明中的 9 个与数据溯源相关的项目对数据集进行评估(包括数据来源、收集时间、地点、收集者、资助方等)。
对数据集网页上的上传者描述进行主观评估。
真实性探索性分析 :
统计异常检测 :检查 ID 变量与其他变量之间的异常模式、变量间不合理的关联性(如 BMI 与血糖水平)、异常分布(如均匀分布)以及重复行。
缺失值分析 :检查缺失数据的比例和分布模式(真实医疗数据通常有较高的缺失率)。
文献筛选与审查 :
纳入标准:使用 Kaggle 数据集进行临床预测模型开发或验证的同行评审文章。
排除标准:会议摘要、预印本、非英文文章等。
审查内容:伦理声明、TRIPOD+AI 合规性、是否声称用于临床实践、引用情况(OpenAlex, Altmetric)。
工具 :使用 R 语言(tidyverse, openalexR 包)进行分析,研究方案已在 AsPredicted 预注册。
3. 主要发现与结果 (Key Results)
A. 数据集本身的严重缺陷
溯源缺失 :两个数据集在 9 项 TRIPOD+AI 溯源指标中得分均为 0/9 。上传者明确表示因保密原因无法披露具体来源。
中风数据集异常 :
包含 5,110 名患者,缺失值极少(仅 0.3%),且缺失值分布呈现不自然的模式(集中在 ID 前半部分)。
平均血糖水平与患者 ID 之间存在明显的分布突变(Shift),暗示数据可能是按 ID 顺序生成的。
糖尿病数据集异常 :
包含恰好 100,000 名患者。
血糖和 HbA1c 水平仅呈现 18 个离散值 ,这在真实的大规模临床数据中极不可能,表明数据可能是重采样或伪造的。
发现 6,939 条(7%)重复的患者记录。
BMI 与血糖/HbA1c 之间缺乏临床预期的强相关性。
B. 基于这些数据集的研究现状
文献数量 :共筛选出 124 篇 符合条件的临床预测模型研究(103 篇使用中风数据,20 篇使用糖尿病数据,1 篇两者都用)。
伦理缺失 :仅 2% (3/124) 的文章声明获得了伦理批准,7% 声明无需伦理批准,90% 完全没有伦理声明。
TRIPOD+AI 合规性差 :在 1,116 个可能的溯源报告项中,仅报告了 75 项 (7%) 。
虚假来源声明 :部分作者在文章中编造了数据来源(如声称来自“孟加拉国诊所”、"AIMS 和 WHO"或“麦肯锡 EHR"),而这些信息在原始 Kaggle 数据中并不存在。
临床影响 :
68% 的中风文章和 80% 的糖尿病文章提出了具体的临床实践建议。
3 个 模型被作者声称已用于临床实践(尽管缺乏外部验证)。
1 个 中风模型被引用在加州理工学院和南加州大学的医疗设备专利中。
这些文章被引用 1,529 次 ,包括 86 篇 综述文章,表明错误数据正在污染更广泛的文献库。
增长趋势 :自 2021 年以来,使用这些数据集的出版物数量持续增加。
4. 关键贡献 (Key Contributions)
揭露“垃圾进,垃圾出”的危机 :首次系统性地证明了 Kaggle 等公开竞赛平台上的某些医疗数据集可能是模拟或伪造的,且已被大量用于发表同行评审论文。
量化传播风险 :揭示了基于不可靠数据的研究不仅数量庞大(124 篇),而且具有高影响力(高引用、进入专利、声称用于临床),形成了错误的证据链。
方法论示范 :展示了如何通过简单的统计检查(如 ID 分布、离散值分析、缺失值模式)来识别伪造或模拟的医疗数据。
提出强制性溯源框架 :针对期刊、数据仓库、研究人员和临床医生提出了具体的改进建议,特别是设计了一个强制性的数据溯源报告清单 (见表 5),要求明确数据来源、收集者、时间、地点及处理过程。
5. 意义与建议 (Significance & Recommendations)
对科研诚信的警示 :该研究指出,仅追求发表速度(Fast-churn)而忽视数据溯源,正在严重损害循证医学的基础。如果模型基于伪造数据,其预测结果对患者护理是无效甚至有害的。
对期刊和出版商的建议 :
强制要求所有数据可用性声明中包含详细的数据溯源信息(谁收集、何时、何地、为何)。
在提交时要求提供未处理的原始数据,以便快速识别错误。
对使用竞赛数据集的文章进行严格审查,除非作者能证明数据的真实性。
对数据仓库(如 Kaggle)的建议 :
实施强制性的数据溯源报告机制(如表 5 所示)。
建立机制检测并阻止伪造或无法验证的数据集上传。
对研究者和临床医生的建议 :
在使用公开数据集前必须进行“常识性检查”(Sense checks)和溯源验证。
不要盲目信任已发表的研究,特别是那些缺乏伦理声明或数据来源模糊的研究。
遵循 TRIPOD+AI 和 PROBAST+AI 指南。
结论 :该论文呼吁立即采取行动,防止基于不可靠数据的预测模型进入临床实践,并建议对已发表的相关研究进行重新评估或撤稿,以保护患者安全和维护科研诚信。
每周获取最佳 health systems and quality improvement 论文。
受到斯坦福、剑桥和法国科学院研究人员的信赖。
请查收邮箱确认订阅。
出了点问题,再试一次?
无垃圾邮件,随时退订。