Influence of molecular representation and charge on protein-ligand structural predictions by popular co-folding methods

该研究评估了四种主流共折叠算法(AlphaFold 3、Boltz-2、Chai-1 和 Protenix-v1),发现配体输入格式(CCD 或 SMILES)对蛋白质 - 配体结构预测结果的影响显著大于电荷(质子化状态),且电荷变化未能反映预期的结合差异,从而指出统一输入格式和纳入质子化处理是提升预测算法的关键改进方向。

原作者: Bugrova, A., Orekhov, P., Gushchin, I.

发布于 2026-02-18
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇文章就像是在给四位刚出道的“超级建筑设计师”(四种最新的人工智能蛋白质结构预测工具)做一场压力测试

这些设计师的任务是:不仅要画出蛋白质(就像复杂的乐高城堡)的样子,还要画出它们如何与小小的“钥匙”(药物分子或化学分子)完美咬合在一起。

作者发现,虽然这些 AI 很聪明,但在处理“钥匙”的电荷(带正电还是带负电)和输入格式(怎么描述这把钥匙)时,它们表现得有点“迷糊”,甚至有点“任性”。

下面我用几个生活中的比喻来拆解这篇论文的核心发现:

1. 测试对象:最基础的“积木”

作者没有用复杂的药物,而是选了两种最简单的分子:

  • 甲胺(Methylamine):就像带正电的“磁铁”(质子化后)或普通的“塑料块”(中性)。
  • 乙酸(Acetic Acid):就像带负电的“磁铁”(醋酸根)或普通的“塑料块”(醋酸)。

这两种东西在蛋白质里到处都是(就像乐高城堡里的基础砖块),按理说,AI 应该对它们了如指掌。

2. 发现一:AI 是个“近视眼”,把分子捏扁了

比喻:想象你在捏橡皮泥。正常的橡皮泥(真实的化学键)长度应该是固定的。
结果:这四个 AI 设计师捏出来的橡皮泥,普遍比真实长度要短

  • 有的甚至捏得离谱,把本来应该分开的两个原子硬生生挤到了几乎贴在一起(比如 Protenix-v1 把键长捏到了 0.075 埃,而正常应该是 1.5 埃左右)。
  • 这就好比你让 AI 画一个苹果,它画出来的苹果比真实的苹果小了一圈,而且形状还有点扭曲。

3. 发现二:AI 分不清“带不带电”,却对“怎么写名字”很敏感

这是文章最让人惊讶的地方。

  • 关于电荷(带正电还是负电):

    • 现实情况:带正电的磁铁应该吸在带负电的地方,带负电的应该被排斥。
    • AI 的表现:它们几乎不在乎你告诉它这个分子是带正电还是带负电。
    • 比喻:你给 AI 看一把“红色的钥匙”(带正电)和一把“蓝色的钥匙”(带负电),告诉它:“红色钥匙能插进锁孔,蓝色钥匙插不进去。”结果 AI 不管你是红是蓝,都把它们插进了同一个锁孔里,或者插到了完全错误的地方。它完全忽略了电荷对结合位置的影响。
  • 关于输入格式(CCD vs SMILES):

    • CCDSMILES 就像是给同一个物体写“身份证”的两种不同语言(比如中文和英文)。
    • AI 的表现:当你用“中文身份证”(CCD)描述分子时,AI 画出的位置是一个样;当你用“英文身份证”(SMILES)描述同一个分子时,AI 画出的位置完全变了
    • 比喻:这就像你问一个翻译:“苹果怎么翻译?”用中文问,它说"Apple";用英文问,它突然说“香蕉”。同一个东西,因为描述方式不同,AI 给出的答案却大相径庭。 这说明 AI 并没有真正理解分子的本质,它只是在死记硬背某种特定的描述模式。

4. 具体案例:两个“锁孔”的测试

  • 案例 A(多巴胺受体 DRD1)
    • 这里需要一个带正电的“磁铁”(甲胺)来吸附。
    • 结果:AI 们大多能把带正电的放对位置,但把不带电的也乱放。更奇怪的是,如果你换一种描述格式(SMILES),AI 就把位置给搞乱了。
  • 案例 B(细菌的 BarA 受体)
    • 这里需要一个特定的“锁孔”来放乙酸。
    • 结果:所有 AI 都完全没找到这个锁孔,把分子扔到了奇怪的地方。这说明如果训练数据里没有见过类似的场景,AI 就完全瞎猜。

5. 总结与启示:AI 还需要“补课”

这篇论文告诉我们,虽然现在的 AI(AlphaFold 3, Boltz-2, Chai-1, Protenix-v1)在预测蛋白质结构上很厉害,但在处理药物分子时还有大毛病:

  1. 它们太依赖“输入格式”:就像学生死记硬背了“用 A 方法解题得 X 分,用 B 方法解题得 Y 分”,却没真正理解题目。
  2. 它们不懂“电荷”:它们分不清正负电,导致预测的结合位置不符合基本的物理化学常识。
  3. 它们把分子“捏扁”了:键长不对,结构就不稳。

给普通人的建议:
如果你现在想用这些 AI 工具来设计新药或研究蛋白质,千万不要盲目相信结果

  • 不要只试一种输入格式,要多试几种。
  • 不要只信 AI 算出来的电荷影响,要人工检查。
  • 要把这些结果当作“草稿”,而不是“最终答案”。

未来的方向:
科学家们需要教这些 AI 真正理解“电荷”和“质子化”(分子带不带电的状态),并且要确保不管你怎么描述分子,AI 给出的答案都应该是一样的。只有这样,AI 才能真正成为药物研发的得力助手。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →