原作者： Ankur Samanta, Rohan Gupta, Aditi Misra, Christian McIntosh Clarke, Jayakumar Rajadas

发布于 2026-05-26

📖 1 分钟阅读☕ 轻松阅读

原作者： Ankur Samanta, Rohan Gupta, Aditi Misra, Christian McIntosh Clarke, Jayakumar Rajadas

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

想象一下，你正在尝试教计算机理解化学。传统上，科学家主要通过两种方式教计算机观察分子，但这两种方式都存在缺陷：

“逐个原子”方法：这就像试图通过一次读一个字母来理解一本小说。你看到了"t"，然后是"h"，接着是"e"，却完全错过了单词"the"本身。在化学中，这意味着计算机只能看到单个原子，却难以理解它们如何组合在一起形成功能部分（就像汽车的发动机或门把手）。
“僵化规则”方法：这就像使用一本只包含预定义、不可更改单词的字典。如果出现一种新类型的单词，字典就无法处理。在化学中，这意味着使用固定规则将分子切割成碎片。这种方法尚可运作，但缺乏灵活性，无法适应自然界中化学形状的千变万化。

引入 FragmentNet：“智能乐高”方法

这篇论文介绍了FragmentNet，一种教计算机理解分子的新方法。FragmentNet 不再关注单个原子或使用僵化的规则，而是采用一种自适应的、可学习的分词器。

将分子想象成由乐高积木搭建的巨大复杂结构。

旧方法要么观察积木上每一个微小的塑料凸起（原子），要么试图强行将结构归入少数几个预定义的类别。
FragmentNet则观察结构，并学会自主将积木分组为有意义的块。它可能会决定特定的积木集群构成一个“轮子”，另一组构成一个“座椅”，还有一组构成一个“发动机”。这些块就是“片段”。

它是如何工作的（三大魔法技巧）

学习分组（自适应分词器）：
模型并非随意猜测如何分组积木。它研究数百万个分子，学习哪些原子群在化学上通常结合在一起。它创建了一个自定义字典，其中的“词元”（token）不再仅仅是一个字母或一个原子，而是一个化学上有效的分子片段（例如整个官能团）。这就像教计算机识别"ing"是一个后缀，或者"car"是一个词根，而不仅仅是看到"c-a-r"。
保留地图（空间位置编码）：
当你把一个 3D 乐高城堡转换成一个 1D 单词列表（序列）时，通常会丢失关于各部分相对位置的信息。FragmentNet 通过给每个片段添加特殊的"GPS 标签”来解决这个问题。这些标签告诉计算机：“这个发动机部件连接着这个轮子部件，它们距离座椅三个步骤。”这确保了即使分子被展平为列表，计算机也能记住其形状。
“填空”游戏（掩码片段建模）：
为了变得非常聪明，模型会玩一种类似于“疯狂填词”或 crossword 拼图的游戏。
- 计算机看到一个由片段组成的分子。
- 它隐藏（掩码）其中一个片段。
- 它必须根据周围的上下文猜出缺失的片段是什么。
- 因为它猜测的是整个块（片段）而不是单个原子，所以它能更快地学习化学的“语法”。它学会了，如果你看到一个“轮子”和一个“座椅”，缺失的部分很可能是一个“发动机”，而不仅仅是一个随机的塑料积木。

论文的发现

作者在几个标准化学测试（预测药物在水中的溶解度或是否能穿过血脑屏障等）中，将这种新方法与旧的“逐个原子”方法进行了对比测试。

结果：“智能乐高”方法（FragmentNet）在大多数情况下获胜。
原因：因为它学习了上下文。通过对整个片段进行训练，计算机理解了某些原子群是协同工作的，从而带来了更准确的预测。
额外功能：论文还表明，由于模型理解了这些块，它可以轻松地将一个“乐高块”替换为另一个，以创建新的有效分子。这就像给一辆汽车换掉发动机，然后装上一个不同的发动机，而汽车不会散架。

局限性（需要注意的地方）

论文诚实地指出了其局限。由于预算限制，他们在一台笔记本电脑（MacBook Pro）上运行了此实验。与大型 AI 模型使用的数十亿数据相比，他们使用的数据集相对较小（200 万个分子）。此外，他们仅测试了两个层级的“块大小”（非常小的碎片与中等大小的碎片）。

简而言之

FragmentNet 是一种新工具，它教计算机阅读化学的方式不再是盯着单个原子，而是识别有意义的“单词”（片段），并理解这些单词如何组合成句子。这使得计算机成为化学更优秀的学生，从而能更准确地预测分子的行为。

技术摘要：FragmentNet

问题陈述

分子表示学习传统上依赖于将分子标记化为单个原子，或利用基于规则的刚性片段分解（例如 BRICS）。这些方法面临显著局限：

原子级标记化往往无法捕捉更广泛的化学背景，导致“负迁移”，即预训练模型的表现不如简单的基线模型。掩码单个原子可能创造出化学上不一致的环境，阻碍化学键规则和官能团相互作用的学习。
基于规则的片段化缺乏灵活性，难以在多样化的化学空间中泛化。
基于序列的方法（例如 SMILES 标记化）通常会丢失分子图固有的关键拓扑信息。

现有的应用于图的掩码语言建模（MLM）策略通常掩码原子，这会破坏化学连贯性。相反，掩码子图的方法（例如 SimSGT）并未显式建模它们之间的相互作用，限制了对长程依赖的捕捉。

方法论

作者提出了FragmentNet，这是一种图到序列模型，旨在通过自适应、可学习的标记化来弥合图拓扑与序列建模之间的差距。

1. 自适应、可学习的标记器

与基于规则的方法不同，FragmentNet 采用数据驱动的标记器，将分子图分解为具有可调整粒度的化学有效片段。

迭代成对合并：标记器从单个原子开始，基于从训练语料库中推导出的学习合并历史，迭代合并连接的原子对。
粒度控制：合并迭代次数（ $T$ ）控制标记大小。分子可以使用前 $t$ 次合并（ $t \le T$ ）进行标记化而无需重新训练，从而允许针对特定任务进行粒度优化。
处理悬空键：断裂的键由“虚拟原子”（原子序数为 0）表示。片段通过断裂键的数量和类型加以区分（例如，具有一个断裂单键的碳原子与具有两个断裂单键的碳原子不同）。
唯一性：为了区分立体异构体和互变异构体，作者使用Weisfeiler-Lehman (WL) 图哈希算法，确保非同构图获得不同的哈希值。

2. 分层编码器（VQVAE + GCN）

该模型使用混合编码器整合原子级和片段级特征：

VQ-VAE：将离散的原子级特征编码到量化潜在空间中。
GCN：聚合离散片段内相邻节点的特征，以捕捉结构关系。
集成：原子嵌入被平均以形成片段表示，随后与 GCN 输出结合，生成压缩的片段级特征嵌入。

3. 化学感知空间位置编码（SPEs）

为了在将图序列化为序列时保留分子拓扑，FragmentNet 采用三种类型的位置编码：

基于跳数的编码：通过最短路径距离捕捉相对连通性。
WL 绝对位置编码：基于图结构分配唯一角色 ID 以区分异构体。
库仑矩阵编码：基于反平方定律距离和原子电荷建模相互作用。
这些编码被聚合，为 Transformer 提供全面的空间上下文。

4. 掩码片段建模（MFM）

预训练目标涉及掩码整个化学有效片段，而非单个原子。

过程：一个片段被替换为 [MASK] 标记，模型利用未掩码片段的上下文预测原始片段。
优势：这保留了具有化学意义的上下文，类似于自然语言处理中重建多词短语，有助于学习化学键规则和官能团关系。
配置：作者限制每个序列仅掩码一个标记以保留上下文，并在 200 万分子上进行训练。

5. 架构

经过 SPEs 增强并包含分子描述符 CLS 标记（源自 RDKit 描述符）的序列化片段嵌入，由 Transformer 编码器处理。属性预测头对序列进行最大池化以用于下游任务。

主要贡献

新颖的可学习自适应标记器：一种将分子图分解为化学有效片段同时保留结构连通性的方法，允许调整粒度。
空间位置编码：一组编码（基于跳数、WL、库仑），以序列兼容格式捕捉分子图拓扑，实现有效的图到序列建模。
关于粒度的实证研究：证明了标记化粒度是一个关键的设计选择。论文表明，当与 MFM 预训练结合时，片段级标记化在大多数属性预测任务上优于原子级标记化。

结果

该模型在 MoleculeNet 和疟疾基准测试上使用骨架划分（80-10-10）进行了评估。

预训练影响：使用 MFM 预训练的 FragmentNet 始终优于未预训练的模型。
片段与原子：在 MFM 预训练下，片段级变体（100 次合并迭代）在 7 个数据集中的 5 个（BBBP、Tox21、ToxCast、BACE、ESOL、Lipo、Malaria）上优于原子级变体（0 次合并迭代）。在没有预训练的情况下，原子级标记化通常表现更好，表明较粗粒度的标记化的优势是专门通过预训练解锁的。
可解释性：注意力图揭示了符合化学直觉的模式，例如注意力头关注羟基以预测溶解度（ESOL）或关注喹唑啉核心以预测抗疟活性，这与已知的药效团一致。
片段交换：学习到的标记器使片段交换模块能够生成化学有效的类似物（例如修饰布洛芬），而无需子结构匹配，展示了其在分子编辑中的实用性。

意义与主张

论文认为标记化粒度是改善分子表示的关键杠杆。通过从原子级建模转向片段级建模，FragmentNet 解决了原子级掩码中常见的负迁移问题，并捕捉了更高层级的结构基序。

作者强调，他们的方法是“化学感知”的，与标准 Transformer 模型相比，缩短了序列长度并降低了计算成本。尽管是在适度的设置下训练的（一台笔记本电脑、200 万分子和小词汇表），但预训练的片段模型相比未预训练的变体显示出显著的提升。

这项工作确立了自适应、可学习的标记化结合掩码片段建模是分子表示学习的一种可行且有效的策略，提供了改进的下游性能和增强的化学可解释性。作者承认其实验规模方面的局限性（单台笔记本电脑、小数据集），并建议未来的工作应探索特定任务的最佳粒度，并将规模扩展到更大的模型和数据集。

FragmentNet: Adaptive Graph Fragmentation for Graph-to-Sequence Molecular Representation Learning