On the rise of AI technologies in virtual screening

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于人工智能（AI）如何彻底改变药物研发“寻宝”过程的故事。

为了让你更容易理解，我们可以把药物研发想象成在一个巨大的、充满杂物的仓库里寻找几把特定的钥匙（药物分子），这些钥匙能打开特定的锁（人体内的致病蛋白）。

1. 以前的困境：在噪音中找信号

过去，科学家找钥匙主要靠两种方法：

传统方法（分子对接）： 就像用一把通用的尺子去量锁孔。虽然快，但尺子不够灵活，经常量不准，容易把“假钥匙”（看起来像但打不开锁的分子）当成真钥匙，或者漏掉真正的钥匙。
物理模拟法（自由能计算）： 就像请一位极其严谨的锁匠，拿着显微镜和精密仪器，花几天时间仔细研究每一把钥匙和锁的咬合情况。这非常准，但太慢了。如果你有一亿把钥匙要测，等你测完，新药可能都上市十年了。

现在的难题是： 科学家手里有一批经过初步筛选的“候选钥匙”（虚拟筛选结果），但这里面真钥匙和假钥匙长得太像了，而且它们都塞在锁孔附近，传统方法根本分不清谁是谁。之前的测试显示，现有的各种“评分工具”都失败了，无法有效区分。

2. 新主角登场：Boltz-2（AI 预言家）

这就引出了论文的主角——Boltz-2。这是一个基于最新 AI 技术的“预言家”。

它的超能力： 它不需要像锁匠那样花几天时间，也不需要像尺子那样死板。它看了钥匙和锁的“照片”（化学结构），就能在几秒钟内预测出这把钥匙能不能打开锁，以及能打开得多紧。
速度： 它算得比物理模拟快几千倍，但准确度却接近物理模拟。

3. 大考成绩：AI 赢了

作者们拿了一个超级难的考试卷（ULVSH 数据集）来测试 Boltz-2。这个试卷的特点是：

题目非常难（真钥匙和假钥匙几乎一模一样）。
之前的 8 种传统方法（包括尺子和初级锁匠）都考砸了，平均分很低，甚至有的完全分不清。
Boltz-2 的表现： 它像是一个天才学生，得分是其他所有方法的整整两倍！
- 如果设定一个及格线（能正确区分 70% 的钥匙），其他方法几乎全军覆没，只有 0 到 3 个目标及格。
- 而 Boltz-2 有 7 个目标及格了，表现遥遥领先。

4. 有趣的发现：姿势不对，也能猜对？

科学家发现了一个奇怪的现象：

有时候，AI 预测的“钥匙插进锁孔的姿势”其实是错的（就像钥匙插歪了）。
但是，即使姿势是错的，AI 依然能准确判断出这把钥匙能不能开锁！
这说明 AI 并不是在死记硬背“钥匙怎么插”，而是真正理解了“钥匙和锁”之间的化学关系。这就像你虽然没看清一个人怎么走路，但你能一眼认出他是谁。

5. 现实应用：从“大海捞针”到“精准筛选”

虽然 AI 很快，但它还是比不过那种“每秒能测几亿个”的超级快速筛选（那是用来在几亿个分子里初筛的）。

AI 的最佳定位： 它最适合用在初筛之后。
- 第一步： 用超快的方法从几亿个分子里挑出 1000 个“看起来不错”的候选者。
- 第二步： 把这 1000 个交给 Boltz-2 进行“精读”。
- 结果： Boltz-2 能把那些被初筛漏掉的、或者排名靠后的真钥匙重新挑出来，让找到真钥匙的概率提高 4 到 5 倍。

6. 总结与展望

这篇论文告诉我们：

AI 不再是科幻： 它已经能像经验丰富的老锁匠一样，快速且准确地判断药物分子是否有效。
它不是要取代所有人： 它不会取代最初的快速筛选，但它能填补“快速筛选”和“慢速精准实验”之间的巨大空白。
未来可期： 以前需要昂贵超级计算机才能算清楚的问题，现在用一张普通的显卡（像游戏电脑里的那种）就能在一天内搞定。这让药物研发变得更便宜、更快速，也更有希望。

一句话总结：
以前我们在茫茫药海中找药，像是在乱糟糟的仓库里凭感觉摸钥匙，经常摸错；现在有了 AI 助手 Boltz-2，它就像一位拥有“透视眼”的超级侦探，能迅速从一堆长得极像的假钥匙中，精准地把真钥匙挑出来，大大加快了我们要找到救命药的速度。

Each language version is independently generated for its own context, not a direct translation.

以下是基于该论文《On the rise of AI technologies in virtual screening》（AI 技术在虚拟筛选中的崛起）的详细技术总结：

1. 研究背景与问题 (Problem)

虚拟筛选（VS）的局限性： 传统的基于结构的分子对接（Molecular Docking）虽然高效，但在捕捉受体柔性、溶剂效应和熵贡献方面存在不足，导致结合亲和力预测精度有限。
物理方法的瓶颈： 基于严格物理原理的方法（如绝对/相对结合自由能计算，ABFE/RBFE）虽然精度高，但计算成本极其昂贵，无法用于大规模化合物库的筛选。
现有重评分（Rescoring）方法的失败： 近期研究（Sindt et al.）表明，在针对十个超大规模虚拟筛选命中列表（ULVSH）的困难数据集上，现有的非严格重评分方法（包括经验打分、机器学习、极化力场、半经验量子力学等）均无法可靠地区分真正的活性化合物（Actives）和实验测定的非活性化合物（Inactives）。该数据集具有挑战性，因为：
- 虚拟命中率高，缺乏明显的非结合物。
- 活性与非活性化合物化学空间相似，难以通过化学相似性区分。
- 缺乏特定的相互作用模式。
- 目标蛋白多为跨膜蛋白（GPCRs 等），建模难度大。

2. 方法论 (Methodology)

核心工具： 研究挑战并评估了 Boltz-2，这是一种基于 AI 的基础模型（Foundational Model），能够根据蛋白质序列（FASTA）和配体 SMILES 格式共折叠预测蛋白 - 配体复合物结构，并包含亲和力预测模块。
数据集： 使用了 ULVSH 数据集，包含 943 个虚拟命中化合物（427 个真阳性，516 个假阳性），针对 10 个药理相关靶点（7 个 GPCR，1 个激酶，1 个膜受体，1 个转运蛋白）。
工作流程：
1. 从 PDB 获取蛋白序列，从文献获取配体坐标（MOL2）。
2. 自动化流程生成输入文件，运行 Boltz-2 进行共折叠和亲和力预测。
3. 硬件环境： 在单张最新一代 GPU（RTX 4500 Ada）上运行，平均处理速度约为 100 秒/配体，整个库可在 1 天内完成。
4. 评估指标： 使用 ROC-AUC（受试者工作特征曲线下面积）评估分类性能，并与 8 种流行的重评分策略（包括对接、HYDE、Δvina、Gnina、MMPBSA、MMGBSA、GFN-FF、PM6 等）进行对比。
5. 鲁棒性测试： 针对表现不佳的靶点（CNR1, MTR1A），测试了多种变体（如多次独立计算取平均、使用实验结构作为模板、单域序列输入、调整推理参数如 recycling_steps 和 sampling_steps 等），以验证默认参数的最优性。
6. 扩展实验： 在更接近药物发现实际场景的 LSD 数据库（包含数亿化合物）中，对前 1000 个对接命中物进行 Boltz-2 重排序，评估富集因子（Enrichment Factor）。

3. 关键贡献与结果 (Key Contributions & Results)

A. 分类性能突破

最佳分类器： Boltz-2 在所有测试方法中表现最佳。其平均 ROC-AUC 达到 0.70，显著优于其他方法（平均 ROC-AUC 在 0.59-0.66 之间）。
成功率翻倍： 如果将 ROC-AUC > 0.7 定义为成功，Boltz-2 的成功率为 7/10，是表现第二好的方法（3/10）的两倍以上。
具体数据（表 1）：
- 在 DRD3、ROCK1、SC6A4 等靶点上，Boltz-2 的 ROC-AUC 分别达到 0.81、0.84、0.86。
- 仅在 CNR1 (0.40) 和 MTR1A (0.45) 两个靶点上表现不佳，但即使排除这两个，平均 ROC-AUC 可提升至 0.77。
鲁棒性： 在不同 GPU 硬件（RTX A4500）上重复实验，结果高度一致（ROC-AUC 偏差 < 0.04）。针对失败案例的参数调整（如增加采样步数、改变随机性）并未显著改善默认参数的表现，证明默认设置已接近最优。

B. 结构与预测的关系

结构预测质量与分类能力无相关性： 尽管 Boltz-2 预测的复合物结构在 5/10 个案例中与晶体结构存在较大偏差（RMSD > 2 Å），但这并未影响其分类性能。这表明 Boltz-2 的亲和力预测可能不完全依赖于精确的几何结构，或者其预测机制具有某种“黑盒”式的补偿能力。
结合位点定位准确： 所有预测模型中的配体均位于晶体学结合位点内。

C. 实际药物发现场景的富集能力

LSD 数据库测试： 在 LSD 数据库（含数亿化合物）的前 1000 个对接命中物中，Boltz-2 重排序能将已知活性化合物从低排名中“拯救”出来。
富集因子： 相比单纯对接，Boltz-2 在前 100 和前 1000 的排名中提供了约 4-5 倍 的富集因子（Enrichment Factor）。
ULVSH 对比： 在 ULVSH 数据集上富集倍数较低（约 1.7 倍），可能归因于数据集性质（高命中率 vs 低命中率）或实验设计差异。

D. 计算效率与定位

吞吐量： 单卡约 1000 个配体/天；20 卡集群约 50 万个配体/月。
定位： 虽然比传统对接（如 Uni-Dock, 0.1 秒/配体）慢 3-4 个数量级，无法直接用于十亿级（ $10^9$ ）超大规模库的初筛，但非常适合用于对接后的**重评分（Rescoring）**阶段。
工作流建议： 形成“超大规模对接筛选 -> Boltz-2 重评分（筛选至 $10^5$ 级别） -> 绝对结合自由能计算（ABFE，针对 $10^3$ 级别）”的分级筛选策略。

4. 讨论与局限性 (Discussion & Limitations)

同行评审期间的最新进展： 论文引用了评审期间发布的三篇相关研究（Bret et al., Shen et al., Kim et al.），这些研究支持了“共折叠方法优于传统对接用于分类”的结论，但也提出了警示：
- Boltz-2 的亲和力预测与姿态准确性不相关。
- 对结合位点的生物显著突变不敏感。
- 在训练集未覆盖的蛋白或配体上（分布外数据），性能可能下降。
- 在某些特定数据集（如 Kim et al. 使用的 LSD 子集）中，Boltz-2 并未显著优于对接，这可能与数据集本身的高难度或特性有关。
适用范围： 目前仍需进一步的前瞻性研究来明确 AI 共折叠方法的适用边界（Domain of Applicability）。

5. 意义与影响 (Significance)

范式转变： 该研究展示了 AI 基础模型（如 Boltz-2）在药物发现中的巨大潜力，提供了一种比传统物理模拟快三个数量级、且精度相当的新途径。
填补空白： Boltz-2 填补了超大规模虚拟筛选（ $10^9$ 化合物）与先导化合物优化（ $10^3$ 化合物）之间的空白，使得在普通计算资源（消费级 GPU 集群）上对百万级化合物进行高精度排序成为可能。
未来展望： 尽管目前无法完全取代对接进行初筛，但作为对接后的关键重评分步骤，它能显著提高命中率，加速药物发现流程。

总结： 该论文通过严格的基准测试证明，AI 驱动的 Boltz-2 模型在区分活性与非活性化合物方面显著优于现有的重评分策略，特别是在处理具有挑战性的跨膜蛋白靶点时。它确立了 AI 共折叠技术作为现代虚拟筛选工作流中高效、准确的重评分工具的地位。