Critical Assessment of ML models for ADMET Prediction in TDC leaderboards

本文对 Therapeutics Data Commons (TDC) ADMET 排行榜中的 22 个终点进行了批判性评估,发现绝大多数顶级模型因代码缺失、环境不可复现或数据泄露等问题无法复现,仅少数模型通过验证,从而揭示了公开测试集过拟合导致的指标虚高问题,并呼吁建立包含隐藏测试集、严格版本控制及标准化推理环境的更优基准体系。

原作者: Koleiev, I., Stratiichuk, R., Shevchuk, N., Melnychenko, M., Nyporko, O., Todoryshyn, D., Husak, V., Starosyla, S., Yesylevskyy, S. O., Nafiiev, A.

发布于 2026-02-28
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇文章就像是一份**“药物研发界的考场突击检查报告”**。

想象一下,药物研发(ADMET)就像是一场漫长的马拉松,而计算机模型(AI)就是帮助科学家预测哪些选手(药物分子)能跑完全程的“预言家”。为了选出最好的预言家,Therapeutics Data Commons (TDC) 举办了一个公开的排行榜比赛,大家把自己的模型放进去跑分,谁分高谁就是冠军。

这篇论文的作者们(来自 Receptor.AI 等机构)决定当一次“考场巡视员”,去检查这个排行榜到底靠不靠谱。结果他们发现:这个排行榜虽然热闹,但里面有很多“作弊”嫌疑和“烂尾”工程,真正能经得起推敲的冠军少之又少。

下面我用几个生活中的比喻来拆解这篇论文的核心发现:

1. 考场变成了“开卷考试”,大家开始“背题”

  • 问题所在:TDC 的排行榜把“考题”(测试数据)完全公开了。这就好比数学考试,试卷和答案都贴在墙上,谁都能看。
  • 后果:很多参赛者为了拿高分,不是去提升解题能力,而是拼命“背题”。他们调整模型,专门针对这些公开的考题进行优化。
  • 比喻:这就像学生为了考满分,不去学数学原理,而是把历年考题的答案死记硬背下来。一旦考试题目稍微变一下(遇到新药),这些“背题王”就彻底不会做了。
  • 论文发现:作者们故意模拟了这种“背题”行为(故意过拟合),结果发现,只要稍微针对考题“作弊”一下,原本排名很靠后的模型瞬间就能冲进前三名。这说明排行榜上的高分,很多时候是“背题”背出来的,而不是真本事。

2. 很多“冠军”其实是“纸老虎”

  • 问题所在:作者们试图去复现排行榜上排名前三的模型,看看它们到底能不能跑起来。
  • 后果
    • 代码失踪:有的模型代码链接坏了,根本找不到(像是一个声称有绝世武功的师傅,却把秘籍弄丢了)。
    • 环境报错:有的代码虽然找到了,但就像一台拼凑的机器,缺零件、版本不兼容,根本启动不了。
    • 数据泄露:这是最严重的“作弊”。有些模型在训练时,不小心把“考题”混进了“练习题”里。
  • 比喻:这就像你请了一位号称“神厨”的大师来做饭,结果发现他要么没带锅(代码不可用),要么在切菜时偷偷尝了客人的菜(数据泄露),导致他做出来的菜味道好得离谱,但那是因为他提前知道了客人的口味,而不是因为他厨艺高超。
  • 论文发现:在检查的 10 个顶级模型中,只有 3 个(CaliciBoost, MapLight, MapLight+GNN)是真正能跑通、且没有作弊嫌疑的“真冠军”。其他的要么代码跑不通,要么就是靠“偷看考题”才拿的高分。

3. 出题组没给“标准答案”的版本号

  • 问题所在:TDC 平台上的数据集一直在悄悄更新,但没有告诉大家“这是第几版”。
  • 后果:就像考试用的教材每年都在改,但没发新书号。你拿着去年的书复习,考出来的成绩和今年的标准答案对不上,大家就会互相怀疑:是你复习错了,还是题目变了?
  • 比喻:这就像厨师比赛,主办方今天用“盐”,明天偷偷换成“糖”,却不告诉大家。结果大家做出来的菜味道不一样,却互相指责对方技术不行。
  • 论文发现:即使是那 3 个靠谱的模型,作者复现出来的分数和排行榜上的分数也有细微差别。这很可能是因为数据集悄悄变了,而不是模型不行。

4. 真正的“作弊”有多可怕?

  • 实验:作者用自己的模型做了一个实验:
    • 诚实版:老老实实做题,不看答案。结果:在 22 个项目中,只有 2 次进了前三。
    • 作弊版:把答案(测试集)偷偷拿来当练习题做。结果:在 22 个项目中,有 10 次直接冲进前三!
  • 结论:排行榜对“作弊”太敏感了。只要稍微针对考题优化一下,排名就能飙升。这让我们很难分清,那些常年霸榜的模型,到底是真的强,还是只是特别会“背题”。

总结:我们该怎么办?

这篇论文并不是要否定 AI 在药物研发中的作用,而是给热热闹闹的排行榜泼了一盆冷水,提醒我们要冷静

  1. 别光看排名:排行榜上的第一名,不一定代表它是最强的,可能只是它最会“背题”或者代码写得最烂(导致无法复现)。
  2. 未来的比赛要改规则
    • 考题要保密:测试数据不能公开,要像真正的考试一样,只有考官知道答案。
    • 教材要定版:数据集必须有明确的版本号,就像出版书籍要有 ISBN 号一样,确保大家用的是同一套题。
    • 交作业要交“机器”:参赛者不能只交分数,要交整个运行环境(代码 + 环境),让考官能直接运行验证。

一句话总结
现在的药物 AI 排行榜就像是一个没有监考老师、考题公开、且教材经常变的考场。虽然里面确实有学霸(如 MapLight 系列),但更多的是靠“背题”和“运气”混日子的。如果不改革规则,我们就很难选出真正能帮人类研发出新药的“真英雄”。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →