PoseBusters: AI-based docking methods fail to generate physically valid poses… — 通俗解释

想象一下，你正试图找到一把完美的钥匙，以适配一把非常特定且复杂的锁。在药物研发的世界里，“锁”是人体内的蛋白质，而“钥匙”则是潜在的药物分子。弄清楚这把钥匙究竟如何与锁匹配的过程被称为对接（docking）。

多年来，科学家们一直使用传统的、基于规则的计算机程序来进行这项工作。最近，一波新的“人工智能”（深度学习）程序涌现而来，承诺能做得更快、更好。这些 AI 模型就像是那些背下了数百万个钥匙与锁匹配案例的优秀学生。

然而，一项名为 PoseBusters 的新研究表明，虽然这些 AI 学生非常擅长记忆钥匙的“形状”，但它们却完全不懂得钥匙运作背后的“物理学原理”。

以下是该论文发现的简单拆解：

科学家通常使用 RMSD 来衡量一个对接程序的表现。把 RMSD 想象成一把尺子。如果 AI 预测了钥匙的位置，并且这个预测与真实情况（晶体结构）中的位置误差在 2 毫米（埃）以内，那么 AI 就算通过了考试。

研究发现，许多 AI 程序在“尺子测试”中得分很高。它们会说：“看！我们的准确率达到了 90%！”

问题在于，这些 AI 程序过于关注匹配尺子的测量值，以至于有时会创造出物理上不可能存在的钥匙。

想象一下，AI 预测出的钥匙具有以下特征：

论文将这些现象称为**“物理上不合理”**。这就像是 AI 画了一把钥匙，从远处看轮廓没错，但如果你真的尝试去制造它，它要么会散架，要么会损坏锁具。

为了捕捉这些错误的预测，作者开发了一个名为 PoseBusters 的工具。你可以把 PoseBusters 想象成一名严格的建筑检查员或质量控制经理。

它不仅仅是测量尺子（RMSD），还会检查每一次预测是否符合“物理定律”：

如果一个预测未能通过这些检查，无论其尺子测量值有多好，都会被标记为“无效”。

研究人员将五种新型 AI 对接方法与两种传统的旧方法（AutoDock Vina 和 Gold）进行了对比测试。

在熟悉的锁上（训练数据）： 当 AI 在其训练阶段见过的“锁”上进行测试时，它在尺子测试中表现惊人。其中一种 AI（Diffock）似乎超越了旧方法。
“物理”过滤器： 但是，当 PoseBusters 进行物理检查时，AI 的表现大幅下降。许多“完美”的预测实际上是物理上不可能存在的结构。而那些旧的传统方法虽然速度稍慢，但产生的钥匙既准确又符合物理规律。
在全新的、未知的锁上（泛化能力）： 当研究人员在 AI 从未见过的全新锁（基准集）上进行测试时，AI 表现得很挣扎。它无法实现泛化。那些依赖物理规则而非仅仅依靠模式记忆的旧方法，处理这些新锁的效果要好得多。

作者尝试通过在预测后添加一个“抛光”步骤（使用名为力场的物理引擎）来优化 AI 的结果，使形状变得更平滑。

结果： 这确实帮助 AI 修复了一些变形的钥匙，但并没有让它们变得比传统方法更好。传统方法本身就有一个坚实的基础，而 AI 则必须试图去修复一个破碎的基础。

论文得出结论：基于 AI 的对接方法目前还不足以取代传统工具。

虽然它们很快，也能猜对位置，但它们经常忽略基本的化学和物理定律。要成为真正的“顶尖水平”，一种方法需要通过两项测试：

目前，传统方法通过了两项测试。而 AI 方法通过了第一项，却往往在第二项上栽了跟头。作者希望通过使用 PoseBusters 这个工具，开发者可以改进这些 AI 模型，让它们更好地理解物理学，从而在未来实现真正准确的药物预测。

PoseBusters: AI-based docking methods fail to generate physically valid poses or generalise to novel sequences