Each language version is independently generated for its own context, not a direct translation.
这篇论文就像是一份**“医疗界的食品安全检测报告”**。
想象一下,你正在经营一家名为“未来医疗”的餐厅。厨师们(研究人员)正在用一种神奇的“预测汤”来告诉顾客(医生和病人):你明天会不会中风?或者你未来会不会得糖尿病?
这本该是救命的汤,但作者发现,很多厨师用的**“食材”(数据)其实是从一个名为 Kaggle 的“自由市场”上随便买的,而且这些食材很可能是假的,甚至可能是用面粉捏出来的模型!**
以下是这篇论文的核心内容,用大白话和比喻讲给你听:
1. 问题的根源:来自“自由市场”的假食材
在医学研究中,有一种叫“临床预测模型”的工具,用来预测病情。为了训练这些工具,科学家需要大量的病人数据。
- Kaggle 就像一个巨大的在线“自由市场”,任何人都可以上传数据,大家下载下来练习做模型。
- 作者发现,有两个在这个市场上非常火爆的“食材包”(一个是关于中风的,一个是关于糖尿病的),被成千上万的人下载,甚至被写进了几百篇学术论文里。
- 但是! 这两个“食材包”的卖家(上传者)自己都说:“别问我是哪来的,我也不能说,甚至这个中风的数据包只适合用来‘练手’,不适合做研究。”
- 更可怕的是,经过作者像“验钞机”一样的仔细检查,发现这些数据包里的数字太完美了,或者分布太奇怪了(比如所有人的血糖值只有 18 种可能,这在真实世界里是不可能的)。这就像你在超市买鸡蛋,结果发现所有鸡蛋的重量都精确到小数点后三位,而且大小完全一样——这显然是人造的假鸡蛋。
2. 后果:用假食材做出了“毒药”
既然食材是假的,那用它们做出来的“预测汤”自然也是不可信的。
- 数量惊人:作者发现,竟然有 124 篇 已经发表的论文,是直接用这些“假食材”做出来的。
- 传播广泛:这些论文被引用了 1500 多次,甚至被写进了86 篇综述文章(相当于教科书级别的总结)里,还被一家公司拿去申请了医疗器械专利。
- 真实危害:最让人担心的是,有 3 个 基于这些假数据做的模型,据说已经在医院里真正用来给病人看病了!
- 比喻:这就好比有人用面粉捏的假肉做成了“健康食谱”,结果医生真的拿着这个食谱告诉病人:“你吃这个能治病!”病人信了,结果不仅没病好,还可能耽误了真正的治疗,甚至带来生命危险。
3. 为什么大家还在用?
这就好比大家都在抢着用“假食材”做菜,原因有几个:
- 为了发论文:很多研究人员为了快速发表文章(就像为了完成 KPI),不管食材真假,只要数据好拿、模型跑得快就行。
- 缺乏检查:就像餐厅老板(期刊编辑)没有去检查食材来源,只要菜做得好看就收下了。
- 盲目信任:大家看到别人都在用,就以为这东西肯定没问题,没人去问“这数据到底是哪来的?”
4. 作者的建议:给“自由市场”立规矩
作者非常着急,他们提出了几条“整改方案”,希望能让未来的“医疗餐厅”更安全:
对“自由市场”(Kaggle 等数据平台)说:
- 以后上传数据,必须填一张**“身份证”**(数据溯源表)。必须说清楚:数据是谁收集的?什么时候收集的?在哪收集的?是真实的病人还是电脑生成的?
- 如果说不清楚来源,就禁止上传。
对“餐厅老板”(期刊和出版社)说:
- 在收稿之前,必须检查“食材身份证”。如果作者拿不出数据来源的详细说明,直接拒稿。
- 对于已经发表但用了假数据的文章,要挂上“警示牌”(发表关注声明),甚至撤稿。
对“厨师”(研究人员)和“食客”(医生)说:
- 不要盲目相信别人做的模型。在决定给病人用之前,先问一句:“你的数据是从哪来的?是真的吗?”
- 学会看“数据身份证”,如果来源不明,坚决不用。
总结
这篇论文就像是一个吹哨人,大声告诉全世界:
“我们在用假数据训练救命的 AI,这就像是在用面粉做的假心脏去给病人做手术,太危险了!”
作者呼吁,在人工智能和大数据飞速发展的今天,数据的“出身”(来源)比数据本身更重要。如果不搞清楚数据是不是真的,那么基于这些数据做出的所有医疗决策,都可能是一场巨大的冒险。
Each language version is independently generated for its own context, not a direct translation.
这是一份关于该预印本论文《临床预测模型研究与临床实践中不可靠数据与不良数据溯源的证据》(Evidence of Unreliable Data and Poor Data Provenance in Clinical Prediction Model Research and Clinical Practice)的详细技术总结。
1. 研究背景与问题 (Problem)
- 核心问题:临床预测模型(Clinical Prediction Models, CPMs)的研究正日益依赖大型、公开收集的数据集。然而,部分公开数据集(特别是来自 Kaggle 等竞赛平台的数据)缺乏明确的数据溯源(Data Provenance),甚至可能是模拟或伪造的。
- 具体风险:
- 数据真实性存疑:作者发现两个广泛使用的 Kaggle 数据集(中风和糖尿病),其上传者明确声明无法披露数据来源,甚至建议仅用于教育目的而非研究。
- 研究质量下降:基于不可靠数据的“快速周转”(fast-churn)研究导致虚假发现,浪费科研资源,并可能误导临床决策,对患者安全构成威胁。
- 现有指南缺失:尽管有 TRIPOD+AI 等报告指南,但目前的期刊和数据仓库缺乏强制性的数据溯源和真实性验证机制。
- 研究目标:调查两个 Kaggle 数据集的溯源情况,评估基于这些数据集发表的临床预测模型研究的质量,并揭示其被用于临床实践或政策制定的潜在风险。
2. 方法论 (Methodology)
- 研究对象:
- 数据集:从 Kaggle 下载的两个公开数据集(中风预测数据集和糖尿病预测数据集)。
- 文献:通过 Google Scholar 搜索引用这两个 Kaggle 链接的同行评审文章。
- 数据溯源评估:
- 使用 TRIPOD+AI 声明中的 9 个与数据溯源相关的项目对数据集进行评估(包括数据来源、收集时间、地点、收集者、资助方等)。
- 对数据集网页上的上传者描述进行主观评估。
- 真实性探索性分析:
- 统计异常检测:检查 ID 变量与其他变量之间的异常模式、变量间不合理的关联性(如 BMI 与血糖水平)、异常分布(如均匀分布)以及重复行。
- 缺失值分析:检查缺失数据的比例和分布模式(真实医疗数据通常有较高的缺失率)。
- 文献筛选与审查:
- 纳入标准:使用 Kaggle 数据集进行临床预测模型开发或验证的同行评审文章。
- 排除标准:会议摘要、预印本、非英文文章等。
- 审查内容:伦理声明、TRIPOD+AI 合规性、是否声称用于临床实践、引用情况(OpenAlex, Altmetric)。
- 工具:使用 R 语言(tidyverse, openalexR 包)进行分析,研究方案已在 AsPredicted 预注册。
3. 主要发现与结果 (Key Results)
A. 数据集本身的严重缺陷
- 溯源缺失:两个数据集在 9 项 TRIPOD+AI 溯源指标中得分均为 0/9。上传者明确表示因保密原因无法披露具体来源。
- 中风数据集异常:
- 包含 5,110 名患者,缺失值极少(仅 0.3%),且缺失值分布呈现不自然的模式(集中在 ID 前半部分)。
- 平均血糖水平与患者 ID 之间存在明显的分布突变(Shift),暗示数据可能是按 ID 顺序生成的。
- 糖尿病数据集异常:
- 包含恰好 100,000 名患者。
- 血糖和 HbA1c 水平仅呈现 18 个离散值,这在真实的大规模临床数据中极不可能,表明数据可能是重采样或伪造的。
- 发现 6,939 条(7%)重复的患者记录。
- BMI 与血糖/HbA1c 之间缺乏临床预期的强相关性。
B. 基于这些数据集的研究现状
- 文献数量:共筛选出 124 篇 符合条件的临床预测模型研究(103 篇使用中风数据,20 篇使用糖尿病数据,1 篇两者都用)。
- 伦理缺失:仅 2% (3/124) 的文章声明获得了伦理批准,7% 声明无需伦理批准,90% 完全没有伦理声明。
- TRIPOD+AI 合规性差:在 1,116 个可能的溯源报告项中,仅报告了 75 项 (7%)。
- 虚假来源声明:部分作者在文章中编造了数据来源(如声称来自“孟加拉国诊所”、"AIMS 和 WHO"或“麦肯锡 EHR"),而这些信息在原始 Kaggle 数据中并不存在。
- 临床影响:
- 68% 的中风文章和 80% 的糖尿病文章提出了具体的临床实践建议。
- 3 个 模型被作者声称已用于临床实践(尽管缺乏外部验证)。
- 1 个 中风模型被引用在加州理工学院和南加州大学的医疗设备专利中。
- 这些文章被引用 1,529 次,包括 86 篇 综述文章,表明错误数据正在污染更广泛的文献库。
- 增长趋势:自 2021 年以来,使用这些数据集的出版物数量持续增加。
4. 关键贡献 (Key Contributions)
- 揭露“垃圾进,垃圾出”的危机:首次系统性地证明了 Kaggle 等公开竞赛平台上的某些医疗数据集可能是模拟或伪造的,且已被大量用于发表同行评审论文。
- 量化传播风险:揭示了基于不可靠数据的研究不仅数量庞大(124 篇),而且具有高影响力(高引用、进入专利、声称用于临床),形成了错误的证据链。
- 方法论示范:展示了如何通过简单的统计检查(如 ID 分布、离散值分析、缺失值模式)来识别伪造或模拟的医疗数据。
- 提出强制性溯源框架:针对期刊、数据仓库、研究人员和临床医生提出了具体的改进建议,特别是设计了一个强制性的数据溯源报告清单(见表 5),要求明确数据来源、收集者、时间、地点及处理过程。
5. 意义与建议 (Significance & Recommendations)
- 对科研诚信的警示:该研究指出,仅追求发表速度(Fast-churn)而忽视数据溯源,正在严重损害循证医学的基础。如果模型基于伪造数据,其预测结果对患者护理是无效甚至有害的。
- 对期刊和出版商的建议:
- 强制要求所有数据可用性声明中包含详细的数据溯源信息(谁收集、何时、何地、为何)。
- 在提交时要求提供未处理的原始数据,以便快速识别错误。
- 对使用竞赛数据集的文章进行严格审查,除非作者能证明数据的真实性。
- 对数据仓库(如 Kaggle)的建议:
- 实施强制性的数据溯源报告机制(如表 5 所示)。
- 建立机制检测并阻止伪造或无法验证的数据集上传。
- 对研究者和临床医生的建议:
- 在使用公开数据集前必须进行“常识性检查”(Sense checks)和溯源验证。
- 不要盲目信任已发表的研究,特别是那些缺乏伦理声明或数据来源模糊的研究。
- 遵循 TRIPOD+AI 和 PROBAST+AI 指南。
结论:该论文呼吁立即采取行动,防止基于不可靠数据的预测模型进入临床实践,并建议对已发表的相关研究进行重新评估或撤稿,以保护患者安全和维护科研诚信。