On the Reliability of AI Methods in Drug Discovery: Evaluation of Boltz-2 for Structure and Binding Affinity Prediction

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于人工智能（AI）在药物研发中到底靠不靠谱的“体检报告”。

想象一下，药物研发就像是在一个巨大的迷宫里寻找一把能打开疾病大门的“金钥匙”。过去，科学家只能靠笨重的物理实验和复杂的数学计算（就像拿着放大镜和尺子，一寸一寸地量）来找钥匙，这很慢但很准。现在，AI 出现了，它号称能像“闪电侠”一样，瞬间在迷宫里扫出成千上万把可能的钥匙。

这篇论文就是专门测试其中一位最新的“闪电侠”选手——Boltz-2，看看它到底是不是真的那么神，还是只是“雷声大雨点小”。

1. 核心任务：AI 能当“算命先生”吗？

药物研发有两个关键步骤：

看形状（结构预测）： 药物分子（钥匙）能不能完美地插进病毒或癌细胞的锁孔里？
算效果（结合亲和力）： 插进去后，这把钥匙能锁多紧？能不能把病治好？

Boltz-2 这个 AI 模型号称：我不仅能瞬间画出钥匙和锁孔怎么咬合，还能直接告诉你这把钥匙有多“紧”，而且速度快得惊人。

2. 实验过程：让 AI 和“老法师”过过招

研究人员找了两个著名的“锁孔”（靶点）：

3CLPro： 新冠病毒的主要蛋白酶（就像病毒复制的发动机）。
TNKS2： 一种与癌症有关的蛋白（就像癌细胞的开关）。

他们让 Boltz-2 对近 4 万个化合物进行了预测，然后把这些结果和两种“老法师”方法做对比：

传统对接（Docking）： 像用机械手去试钥匙，虽然慢点，但规则明确。
ESMACS（物理模拟）： 这是目前的“黄金标准”。它就像用超级计算机模拟真实的物理世界，把水分子、温度、原子间的力都算进去，虽然慢得要命（需要超级计算机跑几天），但结果最准。

3. 测试结果：AI 的“翻车”现场

A. 看形状：AI 有点“神游天外”

现象： 当研究人员对比 AI 预测的“钥匙插锁”位置和真实的锁孔位置时，发现 AI 经常找错地方。
比喻： 就像你让 AI 画一把钥匙插进锁孔，它画出来的钥匙虽然形状挺像，但有时候插在了锁孔旁边的木头上，或者插反了方向。
数据： 对于新冠病毒的靶点，AI 预测的很多分子根本没插进正确的锁孔里，而是飘在别的地方。虽然它偶尔能蒙对，但大部分时候是“乱猜”。

B. 算效果：AI 是个“和稀泥”的裁判

现象： Boltz-2 预测的结合力（钥匙锁得有多紧）非常平均。
比喻： 想象一个考试，满分 100 分。真实的物理模拟（ESMACS）能精准地分出谁是 90 分的学霸，谁是 20 分的学渣。但 Boltz-2 像个“老好人”，不管给谁打分，都集中在 60 到 70 分之间。它分不清谁是真正的“好药”，谁只是“凑数的”。
结论： 在筛选出最好的前 100 个候选药物时，AI 的排名和物理模拟的结果完全对不上号。这意味着，如果你只听 AI 的，可能会把真正的良药漏掉，或者把没用的垃圾药当成宝贝。

C. 化学细节：AI 连“原子”都数错了

现象： 研究人员发现，AI 预测的分子结构里，有些化学键是错的。
比喻： 就像 AI 画的一辆汽车，轮子是圆的，但车身却少了一个零件，或者把塑料件画成了金属件。它把本该是“饱和”的碳链画成了“不饱和”的，或者反过来。
后果： 在化学世界里，差一个氢原子，药效可能就天差地别。AI 这种“画虎不成反类犬”的错误，直接导致它算出来的药效也是错的。

4. 为什么 AI 会这样？

论文指出，AI 就像一个死记硬背的学生。

它看了几百万张“钥匙和锁”的照片，学会了大概的规律（比如“钥匙通常是长条的”）。
但它不懂物理。它不知道原子之间真实的吸引力、排斥力，也不知道水分子是怎么干扰结合的。
当遇到没见过的复杂情况（比如药物研发中常见的“悬崖效应”，结构微调一点，药效就断崖式下跌）时，AI 就懵了，因为它只靠统计规律，没有物理直觉。

5. 最终结论：AI 是“筛子”，不是“锤子”

这篇论文并没有完全否定 AI，而是给 AI 定了位：

AI 的强项： 速度极快，适合在最开始把几百万个垃圾药筛掉，留下几万个“看起来还行”的。它是个高效的初筛筛子。
AI 的弱项： 它不能用来做最后的决定。在确定哪个药真正有效、需要投入几百万美元去研发时，必须依靠基于物理原理的“老法师”方法（如 ESMACS）来复核。

一句话总结：
Boltz-2 就像是一个反应极快但有点迷糊的实习生。它能帮你快速把文件堆成山，告诉你哪些“看起来像”重要文件；但如果你要签字盖章（批准药物），绝对不能只信它，必须请一位经验丰富的老专家（物理模拟） 来亲自把关，否则可能会酿成大错。

未来的方向： 我们需要把 AI 的“快”和物理方法的“准”结合起来，让 AI 在物理规则的约束下工作，而不是让它天马行空地乱猜。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《AI 方法在药物发现中的可靠性：Boltz-2 用于结构和结合亲和力预测的评估》的详细技术总结。

1. 研究背景与问题 (Problem)

尽管人工智能（AI）在药物发现领域备受推崇，但截至目前，尚未有任何"AI 发现的药物”获得监管批准。当前的核心挑战在于：

精度与速度的权衡：传统的基于物理的方法（如自由能微扰 FEP、增强采样分子动力学）精度高但计算成本巨大，难以用于大规模筛选；而传统的对接（Docking）方法速度快但精度有限。
AI 模型的局限性：虽然 AlphaFold 2 等模型在蛋白质结构预测上取得了突破，但在预测小分子与蛋白质复合物的**结合亲和力（Binding Affinity）**方面，现有的 AI 模型（特别是基础模型）缺乏足够的物理精度和能量分辨率。
Boltz-2 的宣称：Boltz-2 作为一种新兴的“生物分子基础模型”，声称能够通过联合“共折叠（co-folding）”方法，在保持 AI 高效性的同时，达到接近基于物理的方法（如自由能微扰 FEP）的预测精度，并能区分化学系列中细微的活性差异。
核心问题：Boltz-2 是否真的能在大规模药物筛选中替代或作为基于物理方法的可靠代理？其预测的结构和能量在真实药物发现场景（特别是先导化合物优化阶段）中是否可靠？

2. 方法论 (Methodology)

研究团队对 Boltz-2 进行了严格的大规模基准测试，采用了以下方法：

数据集：
- 两个具有治疗意义的大规模数据集：SARS-CoV-2 主蛋白酶 (3CLPro) 包含 16,780 个化合物；Tankyrase 2 (TNKS2) 包含 21,702 个化合物。
- 这些化合物来自先前的主动学习生成研究，覆盖了广阔的化学空间。
对比基准：
- 结构对比：将 Boltz-2 预测的复合物结构与传统的分子对接（Docking）结果及 X 射线晶体结构进行对比。
- 能量对比：将 Boltz-2 预测的结合亲和力与基于物理的 ESMACS（增强采样分子动力学结合连续溶剂近似）协议计算出的结合自由能（ $\Delta G$ ）进行对比。ESMACS 通过多副本（ensemble）模拟来量化统计不确定性，被视为高精度的物理基准。
评估指标：
- 结构指标：均方根偏差（RMSD，衡量全局构象差异）、局部距离差异测试（LDDT，衡量局部结合位点环境的保真度）。
- 能量指标：皮尔逊相关系数（ $r$ ，衡量线性关系）和斯皮尔曼等级相关系数（ $\rho$ ，衡量排序能力）。
- 深度分析：针对 Boltz-2 排名最高的前 100 个化合物进行精细分析，包括检查氢原子饱和状态（Saturation）和质子化状态的化学正确性，并重新运行高精度的 ESMACS 模拟。
计算资源：
- Boltz-2 推理在 Isambard-AI (NVIDIA GH200) 上进行。
- ESMACS 模拟在 Frontier 超算（全球首个 Exascale 机器）上进行，使用了 25 个副本的增强采样策略。

3. 关键贡献与主要发现 (Key Contributions & Results)

A. 结构预测的局限性

构象多样性与偏差：Boltz-2 预测了多种蛋白质构象和配体结合位置，而非单一的收敛姿态。
- 对于 3CLPro，Boltz-2 预测的配体结合位点与 X 射线结构存在显著偏差，部分配体甚至被预测结合在完全不同的位点（LDDT > 6 Å）。
- 对于 TNKS2，虽然主要结合位点预测较准，但存在明显的双峰分布，表明模型预测了错误的配体取向（如旋转或翻转）。
置信度评分的误导性：Boltz-2 输出的内部置信度评分（Confidence Score）普遍极高（>0.8），缺乏区分度。即使对于预测错误的结构，模型也表现出“过度自信”，无法有效过滤低质量预测。

B. 结合亲和力预测的失效

全局相关性弱：在 38,482 个化合物的全量数据集中，Boltz-2 预测的结合亲和力与 ESMACS 计算的结合自由能之间仅表现出弱到中度的相关性（3CLPro: $r \approx 0.24$ ; TNKS2: $r \approx 0.45$ ）。
回归中心效应（Regression to the Centre）：Boltz-2 的预测值高度集中在 -5 到 -8 kcal/mol 的狭窄范围内，缺乏区分强结合剂（Hits）与非结合剂（Decoys）的能力，表现出明显的“饱和”现象。
顶级化合物分析（Top-100）完全失效：
- 在 Boltz-2 排名最高的前 100 个化合物中，其预测结果与 ESMACS 计算结果完全无相关性（相关系数接近 0）。
- 化学结构错误：分析发现，Boltz-2 预测的配体结构存在系统性的化学错误。例如，将饱和环（如吡咯烷）预测为芳香环（吡咯），或将不饱和链预测为饱和链。这些饱和状态（Saturation）和质子化状态的错误直接导致了结合自由能计算的失效。
- 即使修正了氢原子和化学键状态，Boltz-2 预测的 Top-100 化合物与 ESMACS 结果仍无相关性。

C. 可重复性

Boltz-2 在不同独立运行间表现出较高的可重复性（Pearson $r > 0.9$ ），但这仅意味着模型是稳定的，并不代表其预测是准确的。

4. 结论与意义 (Significance)

AI 与物理的鸿沟：研究结果表明，Boltz-2 虽然能提供极高的速度，适合初步的广泛筛选（Broad-spectrum screening），但缺乏先导化合物识别（Lead Identification）和优化所需的能量分辨率。
物理基础的缺失：Boltz-2 的失败根源在于其基于统计模式而非显式的物理相互作用。它假设生物分子数据是平滑可微的流形，但真实的药物 - 靶标相互作用（如“活性悬崖”Activity Cliffs）往往是非线性和不连续的。模型无法捕捉这些细微的物理化学变化（如杂化状态改变对结合能的影响）。
化学正确性的重要性：AI 模型生成的结构若缺乏化学正确性（如错误的饱和度、立体化学），其后续的能量预测将毫无意义。
未来方向：
- AI 生成的结构必须通过实验或高精度物理模拟（如 ESMACS）进行严格验证。
- 未来的基础模型需要整合物理原理和不确定性量化（UQ），而不仅仅是依赖数据驱动的统计相关性。
- 在药物发现的后期阶段（如先导优化），基于物理的方法仍然是不可替代的“金标准”。

总结：该论文通过严谨的大规模基准测试，揭示了当前最先进的生物分子基础模型（Boltz-2）在预测结合亲和力方面的严重不足。它警示研究人员，不能盲目依赖 AI 模型进行高精度的药物筛选，必须结合基于物理的方法以确保结果的可靠性和化学合理性。