Critical Assessment of ML models for ADMET Prediction in TDC leaderboards

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇文章就像是一份**“药物研发界的考场突击检查报告”**。

想象一下，药物研发（ADMET）就像是一场漫长的马拉松，而计算机模型（AI）就是帮助科学家预测哪些选手（药物分子）能跑完全程的“预言家”。为了选出最好的预言家，Therapeutics Data Commons (TDC) 举办了一个公开的排行榜比赛，大家把自己的模型放进去跑分，谁分高谁就是冠军。

这篇论文的作者们（来自 Receptor.AI 等机构）决定当一次“考场巡视员”，去检查这个排行榜到底靠不靠谱。结果他们发现：这个排行榜虽然热闹，但里面有很多“作弊”嫌疑和“烂尾”工程，真正能经得起推敲的冠军少之又少。

下面我用几个生活中的比喻来拆解这篇论文的核心发现：

1. 考场变成了“开卷考试”，大家开始“背题”

问题所在：TDC 的排行榜把“考题”（测试数据）完全公开了。这就好比数学考试，试卷和答案都贴在墙上，谁都能看。
后果：很多参赛者为了拿高分，不是去提升解题能力，而是拼命“背题”。他们调整模型，专门针对这些公开的考题进行优化。
比喻：这就像学生为了考满分，不去学数学原理，而是把历年考题的答案死记硬背下来。一旦考试题目稍微变一下（遇到新药），这些“背题王”就彻底不会做了。
论文发现：作者们故意模拟了这种“背题”行为（故意过拟合），结果发现，只要稍微针对考题“作弊”一下，原本排名很靠后的模型瞬间就能冲进前三名。这说明排行榜上的高分，很多时候是“背题”背出来的，而不是真本事。

2. 很多“冠军”其实是“纸老虎”

问题所在：作者们试图去复现排行榜上排名前三的模型，看看它们到底能不能跑起来。
后果：
- 代码失踪：有的模型代码链接坏了，根本找不到（像是一个声称有绝世武功的师傅，却把秘籍弄丢了）。
- 环境报错：有的代码虽然找到了，但就像一台拼凑的机器，缺零件、版本不兼容，根本启动不了。
- 数据泄露：这是最严重的“作弊”。有些模型在训练时，不小心把“考题”混进了“练习题”里。
比喻：这就像你请了一位号称“神厨”的大师来做饭，结果发现他要么没带锅（代码不可用），要么在切菜时偷偷尝了客人的菜（数据泄露），导致他做出来的菜味道好得离谱，但那是因为他提前知道了客人的口味，而不是因为他厨艺高超。
论文发现：在检查的 10 个顶级模型中，只有 3 个（CaliciBoost, MapLight, MapLight+GNN）是真正能跑通、且没有作弊嫌疑的“真冠军”。其他的要么代码跑不通，要么就是靠“偷看考题”才拿的高分。

3. 出题组没给“标准答案”的版本号

问题所在：TDC 平台上的数据集一直在悄悄更新，但没有告诉大家“这是第几版”。
后果：就像考试用的教材每年都在改，但没发新书号。你拿着去年的书复习，考出来的成绩和今年的标准答案对不上，大家就会互相怀疑：是你复习错了，还是题目变了？
比喻：这就像厨师比赛，主办方今天用“盐”，明天偷偷换成“糖”，却不告诉大家。结果大家做出来的菜味道不一样，却互相指责对方技术不行。
论文发现：即使是那 3 个靠谱的模型，作者复现出来的分数和排行榜上的分数也有细微差别。这很可能是因为数据集悄悄变了，而不是模型不行。

4. 真正的“作弊”有多可怕？

实验：作者用自己的模型做了一个实验：
- 诚实版：老老实实做题，不看答案。结果：在 22 个项目中，只有 2 次进了前三。
- 作弊版：把答案（测试集）偷偷拿来当练习题做。结果：在 22 个项目中，有 10 次直接冲进前三！
结论：排行榜对“作弊”太敏感了。只要稍微针对考题优化一下，排名就能飙升。这让我们很难分清，那些常年霸榜的模型，到底是真的强，还是只是特别会“背题”。

总结：我们该怎么办？

这篇论文并不是要否定 AI 在药物研发中的作用，而是给热热闹闹的排行榜泼了一盆冷水，提醒我们要冷静：

别光看排名：排行榜上的第一名，不一定代表它是最强的，可能只是它最会“背题”或者代码写得最烂（导致无法复现）。
未来的比赛要改规则：
- 考题要保密：测试数据不能公开，要像真正的考试一样，只有考官知道答案。
- 教材要定版：数据集必须有明确的版本号，就像出版书籍要有 ISBN 号一样，确保大家用的是同一套题。
- 交作业要交“机器”：参赛者不能只交分数，要交整个运行环境（代码 + 环境），让考官能直接运行验证。

一句话总结：
现在的药物 AI 排行榜就像是一个没有监考老师、考题公开、且教材经常变的考场。虽然里面确实有学霸（如 MapLight 系列），但更多的是靠“背题”和“运气”混日子的。如果不改革规则，我们就很难选出真正能帮人类研发出新药的“真英雄”。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于《对 TDC 排行榜中 ADMET 预测机器学习模型的批判性评估》（Critical Assessment of ML models for ADMET Prediction in TDC leaderboards）论文的详细技术总结。

1. 研究背景与问题 (Problem)

背景：药物研发中，约 50% 的失败源于药代动力学和毒理学性质（ADMET）不佳。机器学习（ML）已成为预测 ADMET 性质的主流方法。Therapeutics Data Commons (TDC) 是目前该领域公认的“黄金标准”基准平台，提供公开数据集和排行榜。
核心问题：
- 数据泄露与过拟合：由于 TDC 的测试集完全公开，研究人员可能有意或无意地针对特定测试集优化模型（过拟合），导致排行榜分数虚高，无法反映模型在真实世界新数据上的泛化能力。
- 可复现性危机：许多排名靠前的模型缺乏可运行的代码、环境配置错误或文档缺失，导致其他研究者无法复现结果。
- 评估标准缺失：当前的排行榜缺乏对模型可复现性、数据泄露检查以及超参数优化过程的严格审查。
- 实验精度上限：生物实验本身存在误差（ $R^2$ 通常不超过 0.7-0.8），若模型预测精度远超实验误差，往往是过拟合的迹象。

2. 方法论 (Methodology)

研究团队对 TDC 排行榜上所有 22 个 ADMET 端点（Endpoints）的前 3 名模型进行了统一的批判性审查，并开发了自己的内部模型作为对照。

审查流程（四步走）：
1. 可复现性检查：在本地环境中尝试运行代码，验证环境依赖、安装指令及推理结果是否与报告一致。
2. 数据泄露评估：
  - 计算训练集与测试集分子间的 Tanimoto 相似度（使用 Morgan 指纹）。
  - 针对预训练模型（如 MiniMol），检查预训练数据是否通过 SMILES 去重彻底移除了测试集分子，并分析立体异构体和互变异构体是否导致间接泄露。
3. 优化过程验证：审查超参数优化（HPO）和特征选择过程，确认验证集是否意外包含了测试集数据（即“验证集泄露”）。
4. 最终重评：对通过上述检查的模型，使用官方协议重新评估其在 22 个端点上的性能，并重新计算排名。
内部模型开发：
- 架构：基于 LightGBM，使用 Mol2Vec 作为基础分子表示，结合多种分子指纹和描述符。
- 优化策略：采用两阶段优化（前向特征选择 SFS + 贝叶斯超参数优化 HPO），严格遵循“仅使用训练集/交叉验证集进行优化，测试集仅用于最终验证”的原则。
- 过拟合对照实验：故意构建“过拟合版本”的内部模型，即在特征选择和超参数优化阶段直接使用 TDC 测试集，以量化测试集泄露对排名的影响。

3. 关键发现与结果 (Key Results)

A. 可复现性与代码可用性

失败率高：在筛选出的 10 种代表性架构中，绝大多数（如 CFA, ADMETrix, SimGCN, ZairaChem 等）因代码链接失效、环境依赖冲突（Python/PyTorch 版本不兼容）或安装指令错误而无法运行。
仅少数通过：只有 CaliciBoost、MapLight 和 MapLight+GNN 三种方法通过了所有检查，表现出良好的可复现性。

B. 数据泄露与过拟合证据

MiniMol 模型：虽然声称移除了测试集分子，但研究发现仅基于 SMILES 的去重无法处理立体异构体（如 Danazol 案例）和互变异构体问题，导致训练集中仍包含与测试集高度相似的分子，造成间接数据泄露。
GradientBoost 和 XGBoost：发现作者在超参数优化阶段使用了错误的随机种子（默认 seed=42）重新划分数据集，导致验证集包含了原始测试集分子。修正后，这两个模型的排名显著下降（GradientBoost 从第 1 降至第 3，XGBoost 从第 2 降至第 8）。
过拟合的破坏力：
- 研究团队构建的“故意过拟合”内部模型，在 22 个端点中有 10 个（约 45%） 进入了前 3 名。
- 相比之下，遵循严格规范的“诚实”内部模型仅在 2 个端点进入前 3 名。
- 这表明公开测试集极易被利用，导致排名虚高。

C. 重评后的性能表现

MapLight 系列：在通过检查的模型中，MapLight 和 MapLight+GNN 表现最稳健。在 22 个端点中，MapLight+GNN 在 13 个端点保持了原排名，并在 5 个端点排名上升。
指标差异：对于大多数端点，重评指标与 TDC 原报告差异极小（<0.01），但在 bioavailability_ma 等端点存在显著差异，这可能与 TDC 数据集未进行版本控制导致的隐性更新有关。

4. 主要贡献 (Key Contributions)

系统性审查：首次对 TDC 排行榜上所有 22 个端点的顶尖模型进行了全面的技术审计，揭示了当前学术 ML 研究中普遍存在的代码不可用和环境不可复现问题。
揭露泄露机制：具体指出了 SMILES 去重在处理立体化学时的缺陷，以及超参数优化中常见的验证集泄露错误。
量化过拟合影响：通过“诚实模型”与“过拟合模型”的对比实验，量化了针对公开测试集优化对排名的巨大扭曲作用。
提出改进方案：论证了当前开放测试集模式的局限性，并提出了下一代基准测试的改进标准。

5. 意义与建议 (Significance & Recommendations)

科学意义：该研究警示社区，TDC 排行榜的高排名并不直接等同于模型的预测能力或泛化能力。许多“顶尖”模型可能只是针对特定测试集过拟合的产物，或者是由于技术缺陷无法复现。
对领域的建议：
- 隐藏测试集：未来的基准测试应使用隐藏的测试集（Hidden Test Sets），防止模型针对性优化。
- 严格版本控制：数据集必须有明确的版本号和校验和（Checksum），确保结果可精确复现。
- 标准化提交：研究者应提交包含推理环境的完整模型（如 Docker 容器），而不仅仅是结果数值，以便进行自动化质量检查。
结论：TDC 目前是一个有用的参考点，但必须谨慎解读其排名。在完全公开的测试集环境下，排行榜结果极易受到数据泄露和过拟合的干扰，无法真实反映模型在药物发现中的实际价值。

总结：这篇论文是对当前计算药物发现领域基准测试实践的一次重要“体检”，揭示了过度依赖公开测试集排行榜的风险，并呼吁建立更严格、透明和可复现的评估体系。