On the Reliability of AI Methods in Drug Discovery: Evaluation of Boltz-2 for Structure and Binding Affinity Prediction

该研究评估了 AI 工具 Boltz-2 在药物发现中的可靠性,发现尽管其预测速度极快,但在结合亲和力预测和结构收敛性方面表现不佳,缺乏 lead 识别所需的能量分辨率,因此仍需依赖基于物理的方法进行验证与优化。

Shunzhou Wan, Xibei Zhang, Xiao Xue, Peter V. Coveney

发布于 Mon, 09 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于人工智能(AI)在药物研发中到底靠不靠谱的“体检报告”。

想象一下,药物研发就像是在一个巨大的迷宫里寻找一把能打开疾病大门的“金钥匙”。过去,科学家只能靠笨重的物理实验和复杂的数学计算(就像拿着放大镜和尺子,一寸一寸地量)来找钥匙,这很慢但很准。现在,AI 出现了,它号称能像“闪电侠”一样,瞬间在迷宫里扫出成千上万把可能的钥匙。

这篇论文就是专门测试其中一位最新的“闪电侠”选手——Boltz-2,看看它到底是不是真的那么神,还是只是“雷声大雨点小”。

1. 核心任务:AI 能当“算命先生”吗?

药物研发有两个关键步骤:

  1. 看形状(结构预测): 药物分子(钥匙)能不能完美地插进病毒或癌细胞的锁孔里?
  2. 算效果(结合亲和力): 插进去后,这把钥匙能锁多紧?能不能把病治好?

Boltz-2 这个 AI 模型号称:我不仅能瞬间画出钥匙和锁孔怎么咬合,还能直接告诉你这把钥匙有多“紧”,而且速度快得惊人。

2. 实验过程:让 AI 和“老法师”过过招

研究人员找了两个著名的“锁孔”(靶点):

  • 3CLPro: 新冠病毒的主要蛋白酶(就像病毒复制的发动机)。
  • TNKS2: 一种与癌症有关的蛋白(就像癌细胞的开关)。

他们让 Boltz-2 对近 4 万个化合物进行了预测,然后把这些结果和两种“老法师”方法做对比:

  • 传统对接(Docking): 像用机械手去试钥匙,虽然慢点,但规则明确。
  • ESMACS(物理模拟): 这是目前的“黄金标准”。它就像用超级计算机模拟真实的物理世界,把水分子、温度、原子间的力都算进去,虽然慢得要命(需要超级计算机跑几天),但结果最准。

3. 测试结果:AI 的“翻车”现场

A. 看形状:AI 有点“神游天外”

  • 现象: 当研究人员对比 AI 预测的“钥匙插锁”位置和真实的锁孔位置时,发现 AI 经常找错地方
  • 比喻: 就像你让 AI 画一把钥匙插进锁孔,它画出来的钥匙虽然形状挺像,但有时候插在了锁孔旁边的木头上,或者插反了方向。
  • 数据: 对于新冠病毒的靶点,AI 预测的很多分子根本没插进正确的锁孔里,而是飘在别的地方。虽然它偶尔能蒙对,但大部分时候是“乱猜”。

B. 算效果:AI 是个“和稀泥”的裁判

  • 现象: Boltz-2 预测的结合力(钥匙锁得有多紧)非常平均
  • 比喻: 想象一个考试,满分 100 分。真实的物理模拟(ESMACS)能精准地分出谁是 90 分的学霸,谁是 20 分的学渣。但 Boltz-2 像个“老好人”,不管给谁打分,都集中在 60 到 70 分之间。它分不清谁是真正的“好药”,谁只是“凑数的”。
  • 结论: 在筛选出最好的前 100 个候选药物时,AI 的排名和物理模拟的结果完全对不上号。这意味着,如果你只听 AI 的,可能会把真正的良药漏掉,或者把没用的垃圾药当成宝贝。

C. 化学细节:AI 连“原子”都数错了

  • 现象: 研究人员发现,AI 预测的分子结构里,有些化学键是错的。
  • 比喻: 就像 AI 画的一辆汽车,轮子是圆的,但车身却少了一个零件,或者把塑料件画成了金属件。它把本该是“饱和”的碳链画成了“不饱和”的,或者反过来。
  • 后果: 在化学世界里,差一个氢原子,药效可能就天差地别。AI 这种“画虎不成反类犬”的错误,直接导致它算出来的药效也是错的。

4. 为什么 AI 会这样?

论文指出,AI 就像一个死记硬背的学生

  • 它看了几百万张“钥匙和锁”的照片,学会了大概的规律(比如“钥匙通常是长条的”)。
  • 但它不懂物理。它不知道原子之间真实的吸引力、排斥力,也不知道水分子是怎么干扰结合的。
  • 当遇到没见过的复杂情况(比如药物研发中常见的“悬崖效应”,结构微调一点,药效就断崖式下跌)时,AI 就懵了,因为它只靠统计规律,没有物理直觉。

5. 最终结论:AI 是“筛子”,不是“锤子”

这篇论文并没有完全否定 AI,而是给 AI 定了位:

  • AI 的强项: 速度极快,适合在最开始把几百万个垃圾药筛掉,留下几万个“看起来还行”的。它是个高效的初筛筛子
  • AI 的弱项:不能用来做最后的决定。在确定哪个药真正有效、需要投入几百万美元去研发时,必须依靠基于物理原理的“老法师”方法(如 ESMACS)来复核。

一句话总结:
Boltz-2 就像是一个反应极快但有点迷糊的实习生。它能帮你快速把文件堆成山,告诉你哪些“看起来像”重要文件;但如果你要签字盖章(批准药物),绝对不能只信它,必须请一位经验丰富的老专家(物理模拟) 来亲自把关,否则可能会酿成大错。

未来的方向: 我们需要把 AI 的“快”和物理方法的“准”结合起来,让 AI 在物理规则的约束下工作,而不是让它天马行空地乱猜。