原作者： Pawel Dabrowski-Tumanski, Bartosz Topolski, Dariusz Plewczynski, Tomasz Jetka

发布于 2026-06-01

📖 1 分钟阅读☕ 轻松阅读

原作者： Pawel Dabrowski-Tumanski, Bartosz Topolski, Dariusz Plewczynski, Tomasz Jetka

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

核心思想：不是山脉的问题，而是地图的问题

想象你是一名登山者，正试图预测一座山脉（“活性景观”）的地形。你知道，有时两名站得很近的登山者可能处于完全不同的海拔高度——一个在阳光明媚的山峰上，另一个在阴暗深邃的山谷里。在化学领域，这被称为活性悬崖（Activity Cliff）：两种看起来几乎一模一样的分子，却具有截然不同的生物学效应。

长期以来，科学家们认为这些悬崖是分子本身的一种自然特征。

但这篇论文认为这种观点是错误的。 作者声称，你看到的是悬崖还是平缓的坡度，完全取决于你如何绘制地图。

如果你使用一种通过“穿墙而过”（一种特定的数学方法）来测量距离的地图，两名登山者看起来可能离得很远。如果你使用一种通过“直线飞行”来测量距离的地图，这两名登山者看起来可能就在彼此身边。论文证明了，“悬崖”并不总是存在于分子本身；有时，它是由你选择的尺子所创造的一种错觉。

实验过程：六步侦探流水线

为了证明这一点，研究人员构建了一个“六步侦探流水线”，用以测试 15 种不同类型的地图（表示形式）和尺子（度量标准），并应用于三个不同的生物靶点（类似于分子试图打开的不同类型的锁）。

以下是他们在每一步中的发现，并将其转化为类比：

1. “零距离”陷阱（几何结构）

测试： 是否不同的分子在地图上看起来完全相同？
发现： 一些地图（如“ChemBERTa”）非常模糊，以至于几乎每个分子看起来都站在同一个位置。这就像是一张地图上所有的城市都被画在了同一个点上。其他地图（如“Morgan 指纹”）则清晰且有辨识度，但它们会将 3D 双胞胎（立体异构体）视为完全相同，即便一个是左手手套，另一个是右手手套。

2. “悬崖搜寻”（富集度）

测试： 如果你观察 100 对看起来最相似的分子，其中有多少对实际上是悬崖？
发现： 这是地图产生分歧的地方。在同一个数据集上，一张地图找到了 142 个悬崖，而另一张则找到了 7,903 个悬崖。
隐喻： 这就像是在寻找路面的坑洼。一张地图说：“这里没有坑洼，只有平坦的道路。”另一张地图说：“这是一个雷区！”路并没有改变，改变的是地图。

3. “陡峭度”检查（梯度）

测试： 景观中的落差有多突然？
发现： 一些地图展示的是一个大部分平缓且带有温柔坡度的景观。另一些则展示了一个充满突然且恐怖落差的景观。有趣的是，“多巴胺 D2”（一种特定的蛋白质）靶点似乎具有天生的、更粗糙的景观，无论使用哪种地图都是如此。

4. “孤岛”测试（拓扑结构）

测试： 悬崖是形成明显的孤岛，还是全部挤在一起变成了一个大斑块？
发现： 好的地图将悬崖显示为独立的岛屿，这有助于科学家理解悬崖为何存在（例如：“哦，这一组分子之所以失败，是因为这个特定的形状”）。糟糕的地图会将一切坍缩成一个单一且混乱的斑块，让你无法分辨任何事物。

5. “预测”游戏（机器学习）

测试： 计算机能否仅通过观察地图来学习预测悬崖？
发现： 如果地图很模糊（如“ChemBERTa”地图），计算机会感到困惑并进行随机猜测。如果地图具有清晰的结构，计算机就可以学习其中的模式。这证实了“悬崖”是地图几何属性的一个特征，而非仅仅是生物学特性。

6. “现实世界”检查（立体异构体与配对）

测试： 他们观察了两个具体的现实场景：
- 立体异构体： 镜像对称的分子（如左手和右手）。
- 匹配对： 仅通过一个微小的化学交换而产生差异的分子。
发现：
- 指纹（Fingerprints）（传统地图）在识别镜像时表现糟糕（它们认为左手和右手是一样的），但在识别微小化学交换方面表现出色。
- 学习嵌入（Learned Embeddings）（AI 地图）擅长识别镜像，但有时会错过微小的交换。
- 结论： 没有一张地图能完美胜任所有工作。

主要结论

1. 没有“最好”的地图
论文得出结论，你不能仅仅选择一种“最好”的测量分子的方法。

如果你想寻找外观非常相似（高相似度）的分子之间的悬崖，Morgan 指纹是最好的。
如果你需要区分左手和右手分子（立体化学），MolFormer 是唯一有效的方法。
如果你在寻找微小的化学交换，MACCS 或 RDKit 指纹是最好的。

2. “悬崖”是一种选择
当一位科学家说“这两个分子是一个活性悬崖”时，他们实际上是在说“根据我所选择的特定地图和尺子，这两个分子是一个活性悬崖”。如果你更换了地图，悬崖可能会消失，或者凭空出现。

3. “没有免费午餐”原则
就像在经济学中一样，化学领域也没有“免费的午餐”。你无法拥有一张既能完美识别镜像，又能完美识别微小交换，还能完美预测悬崖的地图。不同的地图会强调分子世界的不同特征。

总结

这篇论文是对科学家的一个警告：不要盲目信任地图。 你选择可视化和测量分子的方式，从根本上改变了你讲述它们如何运作的故事。要理解药物的真实本质，你需要知道你正在通过哪种“镜头”在观察，因为镜头本身就会创造出你所看到的悬崖。

技术摘要：活性悬崖的几何学

问题陈述

活性悬崖（activity cliffs）——指结构相似但生物活性差异巨大的化合物对——被广泛认为是化学数据集的内在特征，定义了结构-活性关系（SAR）的可预测性边界。然而，活性悬崖的定义是操作性的，依赖于两个用户定义的阈值：效价差距（通常 $\ge$ 1 个数量级）和结构相似度截断值。

本研究解决的核心问题是：结构相似性并非分子对的内在属性，而是分子所嵌入的度量空间的一种属性。因此，分子表示（嵌入）和相似性度量的选择，从根本上决定了哪些分子对可以被界定为悬崖、存在多少悬崖，以及它们是否具有可预测性。作者指出，该领域已趋向于将 Morgan 指纹与 Tanimoto 相似度作为默认配置，而没有系统地表征不同表示法是如何组织活性景观的。这种缺乏系统研究的现状导致人们对活性景观得出的结论，可能反映的是度量标准的选择，而非底层的生物学本质。

研究方法

作者提出了一个六步分析流程，旨在系统地测试以下假设：活性悬崖是表示几何学与靶点生物学共同作用的结果。该流程按规模和逻辑依赖关系对活性景观中几何性质迥异的属性进行探测。若早期步骤失败，后续步骤将变得无法解释。

该流程被应用于 15 种（嵌入，度量）配置，涵盖 三个生物活性数据集（SARS-CoV-2 主蛋白酶、因子 Xa 和多巴胺 D2 受体），这些数据集以其活性悬崖挑战而闻名。配置包括：

经典指纹： Morgan（半径 2，1024 位）、RDKit 拓扑指纹和 MACCS 密钥（166 位）。
学习型嵌入： MolFormer、ChemBERTa 和 Chemeleon（基于 Mordred 描述符训练的 MPNN）。
度量标准： Tanimoto、Dice、Cosine、L1 和 L2 距离。

六步分析流程

成对距离几何学： 分析成对距离的分布，以识别基本局限性。指标包括零距离对的比例 ( $p_0$ )、用于判别范围的变异系数 (CV)、相对对比度 (RC) 以及用于检测邻域可靠性问题的集聚偏斜度 ( $S_{Nk}$ )。
活性悬崖富集度： 评估前 $n\%$ 最相似分子对中的累积悬崖比例 ( $F(n)$ )。曲线越低，表示性能越好（相似对中的悬崖越少）。富集系数 $G$ 量化了悬崖缺失的程度。
活性梯度分布： 计算所有分子对的结构-活性景观指数 (SALI)，即 $L(i,j) = |\Delta pK_i| / d(x_i, x_j)$ 。通过对这些梯度的分布进行 Kohlrausch–Williams–Watts (KWW) 生存函数拟合，以确定形状参数 $b$ 。 $b=2$ 表示平滑、轻尾的景观（瑞利天花板）； $b<2$ 则表示重尾且存在频繁的极端梯度。
悬崖子空间的持久同调： 使用涉及悬崖分子的 Vietoris–Rips 过滤来追踪连通分量 ( $H_0$ )。平均持久性 ( $\mu_{pers}$ ) 和最大持久性 ( $p_{max}$ ) 用于衡量悬崖易发簇的拓扑分离度。
表示结构的几何探测： 在绝对嵌入差异 $|e_i - e_j|$ 上训练分类器（逻辑回归、XGBoost、孪生网络）以预测悬崖的存在。间隙统计量 ( $\Delta_{lin}$ 和 $\Delta_{arch}$ ) 表征嵌入空间的线性与非线性特征以及特征交互的丰富程度。
化学真值基准测试： 针对两个独立于该流程自身相似性度量的结构定义子群体，验证表示法的有效性：
- 立体异构体： 图结构相同但 3D 配置不同的分子对。
- 匹配分子对 (MMPs)： 由单一化学转化构成的分子对。
- 性能通过这些子群体内距离分布的变异系数 (CV) 进行排名。

关键结果

1. 悬崖数量对表示法的依赖性

表示法的选择剧烈改变了观察到的活性悬崖数量。在相似度为 90% 的 SARS-CoV-2 数据集上，不同配置识别出的悬崖对数量差异高达 55 倍：

Morgan Tanimoto： 142 对。
Chemeleon Cosine： 752 对。
RDKit Dice： 7,903 对。
这表明，“悬崖性”在很大程度上是所选表示法的几何人工产物。

2. 不同类型表示法的表现

Morgan Tanimoto： 表现出最强的悬崖富集度 ( $G$ ) 和跨骨架泛化能力。其几何结构是双峰的（Beta 分布），围绕骨架身份组织空间。然而，它存在完全的立体化学盲区（ $p_{0,stereo} = 100\%$ ）。
MolFormer Cosine： 是唯一展现出显著立体化学敏感性的配置（立体异构体的高 CV， $p_{0,stereo} = 0$ ）。它将立体中心信息编码为方向性变化，使得对角度差异敏感的 Cosine 距离优于 L1/L2。
MACCS 和 RDKit Dice： 对匹配分子对 (MMP) 转化最为敏感，实现了 MMP 的最高 CV。它们有效地编码了片段级模式，但同样存在立体化学盲区。
ChemBERTa： 因“嵌入塌缩”而在所有标准下表现不佳。它产生极度集中的距离（低 CV，高集聚性），导致几何退化空间，使得大多数分子无论活性如何看起来都相似。
Chemeleon： 产生了最丰富的拓扑悬崖结构（高持久性），但表现出剧烈的度量依赖性：L1/L2 距离在多巴胺 D2 靶点上发生拓扑塌缩，而 Cosine 则保留了结构。

3. 靶点层级的景观粗糙度

分析揭示了独立于表示法的内在靶点景观差异：

SARS-CoV-2： 最平滑的景观（最高的 $b$ 值，接近瑞利天花板 $b=2$ ）。
Factor Xa： 中等粗糙度。
Dopamine D2： 最粗糙的景观。没有任何配置在该靶点上达到 $b=2$ ，表明无论使用何种嵌入，结构性的不连续性依然存在。作者将其归因于 GPCR 的构象灵活性以及 ChEMBL 中异质性实验数据的聚合。

4. 流程步骤的非冗余性

每个步骤都揭示了其他步骤无法察觉的失效模式。例如，RDKit 显示出高判别范围（步骤 1），但悬崖富集度较差（步骤 2）且具有重梯度尾部（步骤 3）。持久同调（步骤 4）揭示了 RDKit 和 Chemeleon 中的拓扑塌缩，而这些塌缩在成对统计中并未被完全捕捉。

意义与主张

本文声称，活性悬崖并非分子对的内在属性，而是所选（嵌入，度量）组合的涌现属性。 作者并未提出单一的“最佳”表示法；相反，他们认为不同的表示法编码了分子识别中不同且部分不重叠的方面：

指纹法擅长处理骨架和片段级的转化，但在立体化学方面表现不佳。
**学习型嵌入（特别是配合 Cosine 距离）**擅长立体化学敏感性任务，但在 MMP 的片段级特异性方面可能不如指纹法。
不存在“免费午餐”： 没有一种配置能同时在所有标准上表现卓越。

这项工作的意义在于提供了一个诊断活性景观几何性质的框架。它表明，在选择表示法时若不表征其几何特性，所得结论将反映的是度量标准而非生物学。作者建议领域应从使用统一的默认配置（Morgan/Tanimoto）转向任务特定的选择：

使用 Morgan Tanimoto 进行结构系列内的 SAR 分析。
使用 MolFormer Cosine 处理立体化学敏感型任务。
使用 MACCS/RDKit Dice 进行 MMP 转化标注。
使用 Chemeleon Cosine 进行全局拓扑探索。

最后，论文指出，通过多种表示法的共识可以识别出靶点活性景观的“粗糙度”（例如，预测多巴胺 D2 活性的内在难度），从而区分生物复杂性与表示法的人工痕迹。

The Geometry of Activity Cliffs: Representation Dependence and Multi-Scale Characterization of Activity Landscapes