Circumventing the synthesizability problem in generative molecular design

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何更聪明地寻找新药的故事。为了让你更容易理解，我们可以把“寻找新药”想象成在茫茫大海中寻找一座完美的宝藏岛。

1. 传统的困境：大海太大，船太小

过去，科学家寻找新药主要有两种方法，但都有个大问题：

大海捞针（传统筛选）： 就像派出一支庞大的船队，把已知的所有岛屿（几百万种化合物）都走一遍。但这太慢了，而且现在的“化学大海”里可能有 $10^{60}$ 种可能的岛屿，船队根本跑不完。
AI 造岛（生成式模型）： 现在的 AI 很厉害，它能根据地图（蛋白质结构）直接“画”出完美的岛屿（新分子）。但是，AI 画出来的岛屿往往只是“概念图”，在现实世界里根本造不出来（不可合成），或者造价高到离谱。就像 AI 画了一座由水晶做的城堡，虽然美，但人类没有材料去建它。

核心问题： AI 能画出完美的设计图，但人类造不出来；而人类能造出来的东西，又很难在茫茫大海里找到。

2. 这篇论文的妙招：先画图，再找“现成的”

作者提出了一种叫**“模型引导的虚拟筛选”（MGVS）的新方法。我们可以把它想象成“寻宝向导 + 二手市场”**的组合拳：

第一步：AI 当向导（生成）
让 AI 根据目标（比如某种病毒蛋白），画出 1000 张它认为最完美的“岛屿设计图”。虽然这些图里的岛屿可能造不出来，但 AI 非常擅长指出**“哪片海域最有希望”**。

比喻：就像 AI 告诉你：“别去北边，去南边那片海域，那里可能有宝藏。”
第二步：去二手市场找“替代品”（检索）
既然 AI 画的设计图造不出来，我们就拿着这张图，去巨大的**“现成岛屿市场”（现有的超大型化合物数据库，如 Enamine REAL, ZINC 等）里找。
我们寻找那些长得最像**AI 设计图的、现实中已经存在且能造出来的岛屿。

比喻：AI 画了一座“水晶城堡”，我们就去市场上找一座“用普通砖头砌的、长得像水晶城堡的房子”。虽然材料不同，但结构一样，也能住人（治病）。
第三步：验证（对接）
把找到的这些“现成房子”放到目标蛋白里试一试，看看它们能不能像 AI 画的那样完美契合。

3. 惊人的发现：又快又好！

作者用三种不同的 AI 模型做了实验，结果非常令人兴奋：

效率提升 25 倍：
以前，要筛选 5 万个随机化合物才能找到几个不错的；现在，只需要用 AI 指引方向，然后只检查 2000 个“相似替代品”，就能找到更好的候选者。

比喻：以前是盲目地翻遍整个图书馆找书；现在是让 AI 告诉你“这一类书最精彩”，然后你只去书架的这一小段找，结果发现书更好，而且速度快了 25 倍。
不仅找得到，还找得准：
找到的这些“替代品”（现成化合物），不仅能造出来（可合成），而且它们的药效（结合力）甚至比 AI 画的原图还要好，或者至少一样好。
更有趣的是，这些“替代品”在蛋白质里的摆放姿势（结合构象），和 AI 画的原图几乎一模一样。这意味着 AI 真的找到了正确的“宝藏位置”。
越像越好：
研究发现，找到的替代品和原图越“像”（化学结构越接近），它们的效果就越好。这说明 AI 虽然画不出实物，但它指出的方向是绝对正确的。

4. 总结：这对我们意味着什么？

这篇论文告诉我们，不需要强迫 AI 一开始就画出“能造出来的药”。

旧思路： 试图限制 AI，让它只画能造出来的东西（但这会限制 AI 的创造力，可能错过更好的药）。
新思路（本文）： 让 AI 尽情发挥，画出最完美的理论模型，然后我们用人造出来的“现成零件”去拼凑出最接近的实物。

一句话总结：
这就好比**天才建筑师（AI）画出了完美的摩天大楼设计图，虽然图纸上的材料现实中没有，但施工队（科学家）**拿着图纸去建材市场，发现有一堆现成的、能买到的材料，拼出来的大楼不仅稳固，而且和图纸一样漂亮，还省去了重新发明材料的时间。

这种方法让新药研发的速度大大加快，让那些原本因为“造不出来”而被 AI 放弃的绝妙创意，重新变成了现实中的救命药。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Circumventing the synthesizability problem in generative molecular design》（绕过生成式分子设计中的可合成性问题）的详细技术总结。

1. 研究背景与问题 (Problem)

生成式药物设计的潜力与局限： 基于结构的生成式深度学习模型（Generative SBDD）在发现针对特定生物靶点的新颖化学结构方面展现出巨大潜力，能够探索传统方法未触及的化学空间。然而，这些模型生成的化合物往往面临可合成性（Synthesizability）差的问题。许多生成的分子结构复杂、难以合成或化学上不合理，导致其在实际药物发现流程中无法快速采购或验证，限制了其实用性。
现有方法的困境：
- 传统虚拟筛选 (VLS)： 依赖于对现有商业库（通常为数百万到数十亿化合物）进行穷举筛选。随着虚拟化学空间（如 Enamine REAL, WuXi GalaXi 等）扩展到万亿级别，穷举筛选在计算上变得不可行。
- 受限的生成模型： 试图通过限制模型仅学习“可合成子空间”来解决此问题，但这往往会牺牲分子的多样性和可控性，且“可合成性”本身随合成技术和原料的变化而动态变化，难以精确定义。
核心挑战： 如何在利用生成式模型探索广阔化学空间的同时，确保最终获得的候选药物是可合成且具有高结合亲和力的？

2. 方法论 (Methodology)

作者提出了一种模型引导的虚拟筛选（Model-Guided Virtual Screening, MGVS） 流程，旨在绕过直接生成可合成化合物的难题，转而利用生成模型作为“导航仪”来定位高潜力的化学子空间，再通过相似性搜索找到可合成的类似物。

MGVS 流程的五个关键步骤：

分子生成： 利用三个不同架构的先进 SBDD 生成模型（DrugHIVE, Pocket2Mol, DiffSBDD），针对特定的蛋白口袋生成 1000 个化合物。
对接与评分： 使用 QuickVina2 将生成的化合物对接到目标口袋，计算预测结合亲和力（Vina 分数）。
过滤与选择： 过滤掉具有 PAINS 模式、结构不规则（如张力几何）或药物性质差的分子。从剩余分子中选出得分最高的前 10 个作为查询化合物（Query Compounds）。
可合成类似物搜索： 对每个查询化合物，利用 SmallWorld 工具在超大规模商业化合物库（Enamine REAL, WuXi GalaXi, ZINC）中进行层次化图编辑距离（Hierarchical Graph Edit Distance, GED） 相似性搜索。
- 搜索范围：GED $\le$ 12。
- 筛选策略：按 GED 和 Daylight 指纹距离排序，选取前 100 个最相似的化合物作为搜索命中（Search Hits）。
最终评估： 将筛选出的搜索命中化合物重新对接到目标口袋，评估其预测结合亲和力。得分最高的化合物即为最终的可合成候选药物。

关键工具与指标：

相似性度量： 主要使用图编辑距离（GED），辅以 Daylight 和 ECFP4 指纹距离。
评估指标： Vina 分数、Vina 效率（Vina 分数/重原子数，用于消除大小偏差）、合成可及性（SA）分数、定量药物相似性（QED）。
基准对比： 将 MGVS 结果与从 ZINC 库中随机抽取的 5 万个化合物进行的传统虚拟筛选（VLS）进行对比。

3. 关键贡献 (Key Contributions)

提出 MGVS 范式： 证明了生成式模型不必直接生成完美的可合成分子，而是可以作为“探针”识别高潜力的化学子空间，随后通过高效的相似性搜索在现有数据库中检索可合成的类似物。
显著的效率提升： 该方法在筛选效率上比标准虚拟筛选（VLS）提高了至少 25 倍。MGVS 仅筛选约 2000 个化合物（1000 生成 + 1000 搜索命中），其产生的候选药物质量优于随机筛选 50,000 个 ZINC 化合物的结果。
验证了生成分子的模板价值： 研究发现，尽管生成模型产生的分子本身可能不可合成，但它们通常拥有可合成的类似物，且这些类似物具有同等甚至更优的结合亲和力。
跨模型适用性： 该策略在三种不同架构的生成模型（VAE、自回归、扩散模型）上均表现一致，证明了其广泛的适用性。

4. 主要结果 (Results)

可合成性与结合力的双重提升：
- 可合成性： 搜索命中化合物（Search Hits）的合成可及性（SA 分数）显著优于原始生成查询化合物。
- 结合亲和力： 98.7% 的搜索命中化合物与原始查询化合物相比，其 Vina 分数差异在误差范围内（ $\pm$ 1.5 kcal/mol），且许多命中化合物的预测结合力甚至优于查询化合物。
- 对比晶体配体： 大量搜索命中化合物（38.8%）的预测结合力显著优于 PDB 中的共晶配体（ $\Delta$ Vina < -1.5 kcal/mol）。
结合姿态的保守性：
- 搜索命中化合物与查询化合物在结合口袋中表现出相似的结合姿态。
- 对于非疏水性相互作用（如氢键、 $\pi$ -堆积、盐桥），约 50% 的查询化合物能找到至少一个搜索命中，其保留了所有特定的相互作用（原子级匹配）；几乎 99% 的查询化合物能找到至少保留一个相互作用的命中。
相似性度量的有效性：
- GED 优于指纹距离： 图编辑距离（GED）与结合亲和力的相关性（ $\rho=0.44$ ）高于 Daylight（ $\rho=0.14$ ）和 ECFP4（ $\rho=0.31$ ）距离。GED 能更好地捕捉拓扑和结构相似性，从而更准确地预测结合模式。
计算成本效益： 即使每个查询仅对接少量（如 1-40 个）搜索命中，也能获得与随机筛选大量化合物相当甚至更好的结果，证明了该方法在计算资源上的高效性。

5. 意义与展望 (Significance)

解决生成式 AI 的落地瓶颈： 该研究为生成式 AI 在药物发现中的实际应用提供了一条切实可行的路径。它表明，即使生成模型无法直接产出完美的可合成分子，它们依然是发现高潜力化学空间的强大工具。
应对化学空间爆炸： 随着虚拟化学空间扩展至万亿级别，传统的穷举筛选（Exhaustive Screening）将难以为继。MGVS 通过“生成 - 检索”策略有效缩小了搜索空间，是应对这一挑战的关键技术。
未来方向： 研究建议，未来的生成模型应继续专注于生成高质量、高亲和力的靶点特异性结合剂，而无需过度受限于可合成性约束，因为 MGVS 流程可以后续解决可合成性问题。同时，随着化学数据库的扩大和搜索算法的优化，MGVS 的潜力将进一步释放。

总结： 该论文通过引入 MGVS 流程，成功将生成式 SBDD 模型从“生成不可合成分子”的批评中解放出来，将其转化为一种高效的“化学空间导航”工具，显著提升了从超大规模库中发现可合成、高活性先导化合物的效率。