Each language version is independently generated for its own context, not a direct translation.
这篇文章就像是一份**“药物研发界的考场突击检查报告”**。
想象一下,药物研发(ADMET)就像是一场漫长的马拉松,而计算机模型(AI)就是帮助科学家预测哪些选手(药物分子)能跑完全程的“预言家”。为了选出最好的预言家,Therapeutics Data Commons (TDC) 举办了一个公开的排行榜比赛,大家把自己的模型放进去跑分,谁分高谁就是冠军。
这篇论文的作者们(来自 Receptor.AI 等机构)决定当一次“考场巡视员”,去检查这个排行榜到底靠不靠谱。结果他们发现:这个排行榜虽然热闹,但里面有很多“作弊”嫌疑和“烂尾”工程,真正能经得起推敲的冠军少之又少。
下面我用几个生活中的比喻来拆解这篇论文的核心发现:
1. 考场变成了“开卷考试”,大家开始“背题”
- 问题所在:TDC 的排行榜把“考题”(测试数据)完全公开了。这就好比数学考试,试卷和答案都贴在墙上,谁都能看。
- 后果:很多参赛者为了拿高分,不是去提升解题能力,而是拼命“背题”。他们调整模型,专门针对这些公开的考题进行优化。
- 比喻:这就像学生为了考满分,不去学数学原理,而是把历年考题的答案死记硬背下来。一旦考试题目稍微变一下(遇到新药),这些“背题王”就彻底不会做了。
- 论文发现:作者们故意模拟了这种“背题”行为(故意过拟合),结果发现,只要稍微针对考题“作弊”一下,原本排名很靠后的模型瞬间就能冲进前三名。这说明排行榜上的高分,很多时候是“背题”背出来的,而不是真本事。
2. 很多“冠军”其实是“纸老虎”
- 问题所在:作者们试图去复现排行榜上排名前三的模型,看看它们到底能不能跑起来。
- 后果:
- 代码失踪:有的模型代码链接坏了,根本找不到(像是一个声称有绝世武功的师傅,却把秘籍弄丢了)。
- 环境报错:有的代码虽然找到了,但就像一台拼凑的机器,缺零件、版本不兼容,根本启动不了。
- 数据泄露:这是最严重的“作弊”。有些模型在训练时,不小心把“考题”混进了“练习题”里。
- 比喻:这就像你请了一位号称“神厨”的大师来做饭,结果发现他要么没带锅(代码不可用),要么在切菜时偷偷尝了客人的菜(数据泄露),导致他做出来的菜味道好得离谱,但那是因为他提前知道了客人的口味,而不是因为他厨艺高超。
- 论文发现:在检查的 10 个顶级模型中,只有 3 个(CaliciBoost, MapLight, MapLight+GNN)是真正能跑通、且没有作弊嫌疑的“真冠军”。其他的要么代码跑不通,要么就是靠“偷看考题”才拿的高分。
3. 出题组没给“标准答案”的版本号
- 问题所在:TDC 平台上的数据集一直在悄悄更新,但没有告诉大家“这是第几版”。
- 后果:就像考试用的教材每年都在改,但没发新书号。你拿着去年的书复习,考出来的成绩和今年的标准答案对不上,大家就会互相怀疑:是你复习错了,还是题目变了?
- 比喻:这就像厨师比赛,主办方今天用“盐”,明天偷偷换成“糖”,却不告诉大家。结果大家做出来的菜味道不一样,却互相指责对方技术不行。
- 论文发现:即使是那 3 个靠谱的模型,作者复现出来的分数和排行榜上的分数也有细微差别。这很可能是因为数据集悄悄变了,而不是模型不行。
4. 真正的“作弊”有多可怕?
- 实验:作者用自己的模型做了一个实验:
- 诚实版:老老实实做题,不看答案。结果:在 22 个项目中,只有 2 次进了前三。
- 作弊版:把答案(测试集)偷偷拿来当练习题做。结果:在 22 个项目中,有 10 次直接冲进前三!
- 结论:排行榜对“作弊”太敏感了。只要稍微针对考题优化一下,排名就能飙升。这让我们很难分清,那些常年霸榜的模型,到底是真的强,还是只是特别会“背题”。
总结:我们该怎么办?
这篇论文并不是要否定 AI 在药物研发中的作用,而是给热热闹闹的排行榜泼了一盆冷水,提醒我们要冷静:
- 别光看排名:排行榜上的第一名,不一定代表它是最强的,可能只是它最会“背题”或者代码写得最烂(导致无法复现)。
- 未来的比赛要改规则:
- 考题要保密:测试数据不能公开,要像真正的考试一样,只有考官知道答案。
- 教材要定版:数据集必须有明确的版本号,就像出版书籍要有 ISBN 号一样,确保大家用的是同一套题。
- 交作业要交“机器”:参赛者不能只交分数,要交整个运行环境(代码 + 环境),让考官能直接运行验证。
一句话总结:
现在的药物 AI 排行榜就像是一个没有监考老师、考题公开、且教材经常变的考场。虽然里面确实有学霸(如 MapLight 系列),但更多的是靠“背题”和“运气”混日子的。如果不改革规则,我们就很难选出真正能帮人类研发出新药的“真英雄”。
Each language version is independently generated for its own context, not a direct translation.
这是一份关于《对 TDC 排行榜中 ADMET 预测机器学习模型的批判性评估》(Critical Assessment of ML models for ADMET Prediction in TDC leaderboards)论文的详细技术总结。
1. 研究背景与问题 (Problem)
- 背景:药物研发中,约 50% 的失败源于药代动力学和毒理学性质(ADMET)不佳。机器学习(ML)已成为预测 ADMET 性质的主流方法。Therapeutics Data Commons (TDC) 是目前该领域公认的“黄金标准”基准平台,提供公开数据集和排行榜。
- 核心问题:
- 数据泄露与过拟合:由于 TDC 的测试集完全公开,研究人员可能有意或无意地针对特定测试集优化模型(过拟合),导致排行榜分数虚高,无法反映模型在真实世界新数据上的泛化能力。
- 可复现性危机:许多排名靠前的模型缺乏可运行的代码、环境配置错误或文档缺失,导致其他研究者无法复现结果。
- 评估标准缺失:当前的排行榜缺乏对模型可复现性、数据泄露检查以及超参数优化过程的严格审查。
- 实验精度上限:生物实验本身存在误差(R2通常不超过 0.7-0.8),若模型预测精度远超实验误差,往往是过拟合的迹象。
2. 方法论 (Methodology)
研究团队对 TDC 排行榜上所有 22 个 ADMET 端点(Endpoints)的前 3 名模型进行了统一的批判性审查,并开发了自己的内部模型作为对照。
审查流程(四步走):
- 可复现性检查:在本地环境中尝试运行代码,验证环境依赖、安装指令及推理结果是否与报告一致。
- 数据泄露评估:
- 计算训练集与测试集分子间的 Tanimoto 相似度(使用 Morgan 指纹)。
- 针对预训练模型(如 MiniMol),检查预训练数据是否通过 SMILES 去重彻底移除了测试集分子,并分析立体异构体和互变异构体是否导致间接泄露。
- 优化过程验证:审查超参数优化(HPO)和特征选择过程,确认验证集是否意外包含了测试集数据(即“验证集泄露”)。
- 最终重评:对通过上述检查的模型,使用官方协议重新评估其在 22 个端点上的性能,并重新计算排名。
内部模型开发:
- 架构:基于 LightGBM,使用 Mol2Vec 作为基础分子表示,结合多种分子指纹和描述符。
- 优化策略:采用两阶段优化(前向特征选择 SFS + 贝叶斯超参数优化 HPO),严格遵循“仅使用训练集/交叉验证集进行优化,测试集仅用于最终验证”的原则。
- 过拟合对照实验:故意构建“过拟合版本”的内部模型,即在特征选择和超参数优化阶段直接使用 TDC 测试集,以量化测试集泄露对排名的影响。
3. 关键发现与结果 (Key Results)
A. 可复现性与代码可用性
- 失败率高:在筛选出的 10 种代表性架构中,绝大多数(如 CFA, ADMETrix, SimGCN, ZairaChem 等)因代码链接失效、环境依赖冲突(Python/PyTorch 版本不兼容)或安装指令错误而无法运行。
- 仅少数通过:只有 CaliciBoost、MapLight 和 MapLight+GNN 三种方法通过了所有检查,表现出良好的可复现性。
B. 数据泄露与过拟合证据
- MiniMol 模型:虽然声称移除了测试集分子,但研究发现仅基于 SMILES 的去重无法处理立体异构体(如 Danazol 案例)和互变异构体问题,导致训练集中仍包含与测试集高度相似的分子,造成间接数据泄露。
- GradientBoost 和 XGBoost:发现作者在超参数优化阶段使用了错误的随机种子(默认 seed=42)重新划分数据集,导致验证集包含了原始测试集分子。修正后,这两个模型的排名显著下降(GradientBoost 从第 1 降至第 3,XGBoost 从第 2 降至第 8)。
- 过拟合的破坏力:
- 研究团队构建的“故意过拟合”内部模型,在 22 个端点中有 10 个(约 45%) 进入了前 3 名。
- 相比之下,遵循严格规范的“诚实”内部模型仅在 2 个端点进入前 3 名。
- 这表明公开测试集极易被利用,导致排名虚高。
C. 重评后的性能表现
- MapLight 系列:在通过检查的模型中,MapLight 和 MapLight+GNN 表现最稳健。在 22 个端点中,MapLight+GNN 在 13 个端点保持了原排名,并在 5 个端点排名上升。
- 指标差异:对于大多数端点,重评指标与 TDC 原报告差异极小(<0.01),但在 bioavailability_ma 等端点存在显著差异,这可能与 TDC 数据集未进行版本控制导致的隐性更新有关。
4. 主要贡献 (Key Contributions)
- 系统性审查:首次对 TDC 排行榜上所有 22 个端点的顶尖模型进行了全面的技术审计,揭示了当前学术 ML 研究中普遍存在的代码不可用和环境不可复现问题。
- 揭露泄露机制:具体指出了 SMILES 去重在处理立体化学时的缺陷,以及超参数优化中常见的验证集泄露错误。
- 量化过拟合影响:通过“诚实模型”与“过拟合模型”的对比实验,量化了针对公开测试集优化对排名的巨大扭曲作用。
- 提出改进方案:论证了当前开放测试集模式的局限性,并提出了下一代基准测试的改进标准。
5. 意义与建议 (Significance & Recommendations)
- 科学意义:该研究警示社区,TDC 排行榜的高排名并不直接等同于模型的预测能力或泛化能力。许多“顶尖”模型可能只是针对特定测试集过拟合的产物,或者是由于技术缺陷无法复现。
- 对领域的建议:
- 隐藏测试集:未来的基准测试应使用隐藏的测试集(Hidden Test Sets),防止模型针对性优化。
- 严格版本控制:数据集必须有明确的版本号和校验和(Checksum),确保结果可精确复现。
- 标准化提交:研究者应提交包含推理环境的完整模型(如 Docker 容器),而不仅仅是结果数值,以便进行自动化质量检查。
- 结论:TDC 目前是一个有用的参考点,但必须谨慎解读其排名。在完全公开的测试集环境下,排行榜结果极易受到数据泄露和过拟合的干扰,无法真实反映模型在药物发现中的实际价值。
总结:这篇论文是对当前计算药物发现领域基准测试实践的一次重要“体检”,揭示了过度依赖公开测试集排行榜的风险,并呼吁建立更严格、透明和可复现的评估体系。