Co-designing sequence and structure of functional de novo enzymes with EnzyGen2

⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EnzyGen2 的人工智能系统，它就像一位超级“蛋白质裁缝”，能够根据我们想要的功能，从零开始（De Novo）设计和制造全新的“生物机器”——酶。

为了让你更容易理解，我们可以把蛋白质设计想象成盖房子，把酶想象成具有特殊功能的工具（比如一把能切开特定锁的钥匙，或者一个能处理特定垃圾的粉碎机）。

以下是这篇论文的通俗解读：

1. 以前的难题：先画图纸还是先选砖头？

在 EnzyGen2 出现之前，设计新酶通常分两步走：

先盖骨架：先设计房子的结构（蛋白质形状），确保它不会塌。
再选砖头：再决定用什么样的砖块（氨基酸序列）来砌墙，让房子稳固。

问题在于：酶要工作，必须能精准地抓住一个小分子（比如药物或底物），就像钥匙必须完美匹配锁孔。以前的“两步走”方法，往往盖好了房子，却发现钥匙插不进去，或者锁孔形状不对。这就像你盖好了一栋大楼，最后发现门打不开，因为门和锁没对上。

2. EnzyGen2 的绝招：边盖房边配锁

EnzyGen2 是一个7.3 亿参数的超级大脑（基础模型）。它不再把“盖房”和“配锁”分开做，而是同时设计。

它的输入：
- 目标锁孔（小分子配体）：告诉 AI 我们要抓住什么。
- 关键零件位置（功能位点）：告诉 AI 哪里必须特别坚固。
- 建筑图纸风格（物种 ID）：告诉 AI 我们要模仿哪种生物的风格（比如大肠杆菌的风格），这样造出来的房子才符合自然规律。
它的输出：
- 直接生成一套完美的砖块排列（氨基酸序列）和完美的建筑结构（3D 形状），确保房子盖好后，锁孔正好能插进钥匙。

比喻：以前的方法是先盖个房子，再试着往墙上钻孔装锁，发现不对就拆了重盖。EnzyGen2 则是拿着锁孔的模具，直接一边盖墙一边把锁孔“长”在正确的位置上。

3. 它是怎么学会的？（海量数据训练）

AI 需要大量的“教科书”来学习。以前公开的“蛋白质 - 锁孔”配对数据很少（只有约 2 万对），就像只有 2 万本教科书。

EnzyGen2 的壮举：研究团队整理了一个72 万对蛋白质和配体的超级数据库。这相当于给 AI 喂了海量的食谱和对应的成品菜，让它学会了“什么样的食材组合（序列）能做出什么样的菜（结构），并且能完美搭配某种酱汁（配体）”。
多任务学习：它同时学习三件事：猜对缺少的砖块、猜对缺少的结构、猜对能不能抓住锁。

4. 它有多快、多强？

速度快：它生成一个设计只需要极短的时间，比以前的方法快 400 倍。以前可能需要几天，现在几秒钟。
质量好：在电脑模拟测试中，它设计的酶不仅结构稳定，而且能精准抓住目标分子，表现远超之前的顶尖方法（如 RFdiffusion 等）。
实验验证（真金不怕火炼）：
- 团队真的在实验室里造出了三种全新的酶（CAT, AadA, TPMT）。
- CAT 和 AadA：这些酶能分解抗生素。实验发现，AI 设计的酶不仅能分解抗生素，甚至有的比自然界原本的酶还强！比如，一种 AI 设计的酶能让细菌在极高浓度的抗生素中存活，而野生型酶做不到。
- TPMT：这种酶用于再生一种重要的生物燃料（SAM）。AI 设计的版本不仅结构像天然的，而且催化效率非常高，甚至发现了一些自然界中从未被充分研究的“新家族”酶。
- 新颖性：这些新酶和自然界现有的酶，序列相似度只有 50% 左右（就像长得像远房亲戚，但功能一样强），说明 AI 真的创造出了自然界没有的东西。

5. 核心亮点总结

不仅仅是模仿：它不是简单的复制粘贴，而是真正理解了“结构 - 序列 - 功能”之间的深层关系。
引入“物种身份证”：它利用 NCBI 物种分类 ID 作为输入，让 AI 知道要模仿哪种生物的“基因风格”，大大缩小了搜索范围，提高了成功率。
通用性强：它不仅能设计分解抗生素的酶，还能设计用于化工、医药的各种新工具。

一句话总结

EnzyGen2 就像一位拥有上帝视角的“生物建筑师”，它不再盲目试错，而是根据你想要的功能（抓住什么分子），直接为你“打印”出一把全新的、自然界从未有过的、且能完美工作的“生物钥匙”。

这项技术为未来设计绿色化学催化剂、新型药物和环保材料打开了大门，让我们不再局限于自然界现有的工具，而是可以按需定制未来的生物机器。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Co-designing sequence and structure of functional de novo enzymes with EnzyGen2》（利用 EnzyGen2 协同设计功能性从头酶序列与结构）的详细技术总结。

1. 研究背景与问题 (Problem)

核心挑战：蛋白质（特别是酶）的功能依赖于其与特定小分子配体（底物、辅因子）的精确相互作用。传统的从头蛋白质设计（De novo protein design）通常采用“两阶段”范式：先生成满足结构目标的蛋白质骨架，再设计氨基酸序列以稳定折叠。这种方法往往忽略了序列与结构之间相互依赖的生物学功能，且缺乏显式的配体结合约束，导致生成的酶难以有效结合底物或具备催化活性。
现有局限：现有的联合序列 - 结构设计模型大多缺乏对配体结合的显式建模。此外，高质量蛋白质 - 配体复合物数据的稀缺（仅约 2 万条）限制了数据驱动模型的性能。
目标：开发一种能够同时优化蛋白质序列和三维结构，并受配体引导以实现特定功能（如催化）的通用基础模型，以解决功能性从头酶设计的难题。

2. 方法论 (Methodology)

2.1 模型架构：EnzyGen2

EnzyGen2 是一个拥有 7.3 亿参数 的蛋白质基础模型，采用交错神经网络架构，旨在协同设计序列和结构：

混合架构：
- Transformer 层：用于捕捉长程氨基酸序列依赖关系。
- 等变图神经网络层 (kNN-EGNN)：用于建模三维结构几何形状。
- 交错块 (Interleaving Blocks)：将上述两者交替堆叠，实现序列与结构信息的无缝融合。
多任务学习框架：
- 掩码序列预测 ( $L_{seq}$ )：预测被掩盖的氨基酸。
- 掩码骨架结构重建 ( $L_{str}$ )：预测被掩盖的 $C_\alpha$ 坐标。
- 蛋白质 - 配体相互作用预测 ( $L_{bind}$ )：预测配体是否结合，强制模型学习配体结合的特异性。
- 总损失函数： $L = \alpha L_{seq} + \beta L_{str} + \lambda L_{bind}$ 。

2.2 数据构建与增强

大规模数据集：克服了数据稀缺问题，构建了包含 720,993 对蛋白质 - 配体对的数据集（比现有数据集大一个数量级）。
- 来源：PDB（实验验证结构）和 Swiss-Prot（实验验证功能），配体信息来自 UniProtKB。
- 过滤：剔除长度超过 1024 个氨基酸的蛋白质。
异构输入引导：
- NCBI 分类标识符：引入物种信息（如大肠杆菌 ID 562），帮助模型学习物种特异的氨基酸组合，将搜索空间限制在进化合理的范围内。
- 功能重要残基：通过多序列比对（MSA）自动识别进化保守的功能关键残基，无需人工标注即可提供精确的功能引导。
- 配体信息：作为输入引导结合特异性。

2.3 训练与微调策略

预训练：分三个阶段进行，从掩码语言建模到联合序列/结构重建，最后引入配体结合损失。
家族特异性微调：针对特定酶家族（如 CAT, AadA, TPMT），利用 Rhea 反应数据库中的特定数据对预训练模型进行微调，仅优化序列和结构损失（因为同一酶家族的底物相同）。

2.4 候选筛选流程

采用多阶段筛选管道，结合结构稳定性（pLDDT）、功能评分（酶 - 底物预测 ESP 分数）、进化合理性（序列对数似然）以及多样性指标，从生成的候选库中筛选出高潜力设计。

3. 关键贡献 (Key Contributions)

首个大规模配体感知基础模型：EnzyGen2 是首个在大规模蛋白质 - 配体数据上预训练，能够同时协同设计序列和结构并显式建模配体结合功能的通用基础模型。
数据规模突破：构建了包含 72 万 + 蛋白质 - 配体对的训练数据集，显著提升了模型的泛化能力。
引入进化与功能引导：创新性地结合 NCBI 分类标识符和自动识别的功能关键残基，有效缩小了设计搜索空间，提高了设计的进化合理性和功能性。
实验验证的突破：在三个结构功能各异的酶家族（CAT, AadA, TPMT）中成功实现了从头设计，且生成的酶具有与天然酶相当甚至更优的催化活性，同时保持了高度的序列新颖性（序列一致性低至 51.6%）。

4. 实验结果 (Results)

4.1 计算基准测试 (In Silico Benchmarks)

性能对比：在酶 - 底物预测分数 (ESP)、AlphaFold2 置信度 (pLDDT) 和结构保真度 (RMSD < 2Å) 三个指标上，EnzyGen2 一致优于当前最先进的方法（包括 Inpainting, RFdiffusion/ProteinMPNN, RFdiffusion2/3/LigandMPNN）。
- 例如：在 10 种常见酶家族中，EnzyGen2 在 7/10 类别中 ESP 分数更高，在 9/10 类别中 RMSD < 2Å 的比例更高。
生成速度：生成速度比现有方法快 400 倍（例如比 RFdiffusion 系列快 400-1400 倍）。
消融实验：
- 移除 NCBI 标识符或配体模块会导致 ESP 分数显著下降，证明这两者对功能设计至关重要。
- 仅使用序列模型（如 ESM2）或仅使用结构模型的表现均不如联合设计模型，证明了序列 - 结构协同的必要性。
- 家族特异性微调进一步提升了设计质量（ESP 分数从 >0.6 提升至 >0.8）。

4.2 湿实验验证 (Experimental Validation)

研究团队在三种酶上进行了湿实验验证：

氯霉素乙酰转移酶 (CAT)：
- 20 个设计变体中，7 个 使大肠杆菌在含氯霉素的平板上存活。
- 最佳变体 (CAT-17) 在 500 µg/mL 氯霉素浓度下生长，而野生型在此浓度下无法存活。
- LC-MS 证实了乙酰化氯霉素产物的生成。
氨基糖苷腺苷酰转移酶 (AadA)：
- 20 个设计变体中，8 个 赋予大肠杆菌对氨基糖苷类抗生素的抗性。
- 最佳变体 (AadA-2) 支持大肠杆菌在 2400 µg/mL 壮观霉素中生长，显著优于野生型。
硫嘌呤 S-甲基转移酶 (TPMT)：
- 用于再生 S-腺苷甲硫氨酸 (SAM)。
- 10 个设计变体中，6 个在大肠杆菌中高表达。
- 动力学分析显示，部分设计变体（如 TPMT-4, TPMT-10）的催化效率 ( $k_{cat}/K_M$ ) 或周转数 ( $k_{cat}$ ) 优于天然同源酶或文献报道的卤代甲基转移酶。
- 结构比对显示，设计酶与天然同源物的 RMSD 极低（0.46 - 1.08 Å），保留了活性位点几何结构。

5. 意义与展望 (Significance)

范式转变：EnzyGen2 证明了大型蛋白质基础模型可以超越单纯的序列生成，实现受配体引导的、功能导向的序列 - 结构协同设计。
加速生物催化开发：该工具能够生成具有高度新颖性（低序列一致性）但具备高催化活性的从头酶，为绿色化学、药物开发和工业生物技术提供了强大的新工具。
探索未知蛋白空间：实验表明，EnzyGen2 能够探索并设计天然进化中未充分表征的酶亚家族（如 TPMT 的不同进化枝），拓展了生物催化的边界。
未来方向：研究指出未来可结合迭代优化策略（如模拟退火）、利用更广泛的 TrEMBL 数据进行多阶段训练，以及扩展到全原子结构表示，以进一步提升设计质量。

总结：EnzyGen2 通过大规模数据预训练、多任务联合学习以及进化与配体引导机制，成功解决了功能性从头酶设计中的核心难点，并在计算和实验层面均取得了突破性进展，标志着 AI 驱动蛋白质设计进入了一个新阶段。