⚕️这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明
Each language version is independently generated for its own context, not a direct translation.
这是一篇关于Protenix-v1的论文介绍。简单来说,这是一项由字节跳动(ByteDance)团队开发的“开源生物大分子结构预测”新技术。
为了让你更容易理解,我们可以把预测蛋白质结构想象成在没有任何图纸的情况下,仅凭一串字母(氨基酸序列)去拼出一个极其复杂的 3D 乐高模型。
以下是这篇论文的通俗解读:
1. 核心成就:开源界的“新王者”
- 背景:以前,预测蛋白质结构最厉害的是谷歌 DeepMind 的 AlphaFold3,但它是个“黑盒”(闭源),大家看不到内部代码,也不能随意修改。虽然有很多开源模型(大家都能用的),但它们的水平一直比 AlphaFold3 差一截。
- 突破:Protenix-v1 是第一个完全开源的模型,它的表现追平甚至超越了 AlphaFold3。
- 公平性:为了证明它真的强,团队设定了严格的“公平竞赛”规则:大家用的训练数据截止时间一样、模型大小一样、计算资源预算也一样。在这种公平条件下,Protenix-v1 赢了。
2. 独特的“超能力”:越算越准(推理时扩展)
- 以前的痛点:很多开源模型就像“一锤子买卖”,你让它算一次,它给一个结果。如果算不准,你也没办法,因为它不会“多想想”。
- Protenix-v1 的妙处:它像是一个勤奋的工匠。如果你给它更多的时间(计算资源),让它多尝试几百种拼法(采样),它就能从中挑出最好的那个。
- 比喻:就像你让一个人猜一个复杂的密码。第一次猜可能不对,但如果你让他猜 100 次,他就能从这 100 次里挑出最接近的那个。这种“多算几次就变强”的能力,以前只有 AlphaFold3 有,现在开源模型也有了。
3. 功能升级:不仅懂蛋白,还懂“搭档”
- 全能选手:以前的模型可能只擅长预测单个蛋白质。Protenix-v1 不仅能预测蛋白质,还能预测:
- 蛋白质 + 药物分子(这对新药研发超级重要,就像帮设计师找最合适的钥匙开锁)。
- 蛋白质 + RNA(细胞里的另一种重要分子)。
- 抗体 + 抗原(比如新冠疫苗里抗体如何抓住病毒)。
- 新工具:它还引入了“模板”功能,就像拼乐高时参考一下说明书,让预测更准。
4. 两个版本:一个为了“考试”,一个为了“实战”
团队发布了两个版本,就像学生为了“考试”和为了“工作”准备了两种复习策略:
- Protenix-v1 (标准版):训练数据截止到 2023 年初。这是为了公平考试,用来和 AlphaFold3 比谁更厉害,证明开源模型也能行。
- Protenix-v1-20250630 (实战版):训练数据更新到了 2025 年 6 月。这是为了真实工作(比如制药公司明天就要用)。因为它学了更多最新的结构数据,所以在处理现实中遇到的新病毒、新药物时,表现更好。
5. 给科学界的“新尺子”
- 发现问题:团队发现以前的很多“考试题目”(基准测试)有漏洞。比如,有的模型因为内存不够算不出来,就被直接排除,导致最后的成绩单不公平;或者题目太少,运气好就能拿高分。
- 提出方案:他们重新设计了一套更严谨、更透明的评分标准和测试题库,确保以后大家比成绩时,是在同一起跑线上,而且结果更可信。
总结
这篇论文宣告了开源生物预测领域的一个里程碑:
- 打破垄断:开源模型终于能和最顶尖的闭源模型(AlphaFold3)正面硬刚并获胜。
- 实用性强:不仅理论强,还能通过增加计算量来换取更高的精度,非常适合药物研发等实际场景。
- 推动进步:通过发布更好的工具和标准,让全球科学家能更公平、更透明地一起进步。
这就好比以前只有少数人手里有“超级地图”(AlphaFold3),现在大家不仅拿到了同样好用的“开源地图”,还学会了怎么让地图越看越清晰,并且重新制定了“看地图比赛”的规则,让所有人都能更好地探索生命的奥秘。
Each language version is independently generated for its own context, not a direct translation.
Protenix-v1 技术总结
1. 研究背景与问题 (Problem)
生物分子结构预测在基础生物学研究和药物发现中至关重要。尽管开源生态系统(如 AlphaFold2 的后续开源模型)发展迅速,但开源模型与 AlphaFold3 之间仍存在显著的性能差距。此外,AlphaFold3 作为闭源模型,其不透明性阻碍了系统性的公平比较和全面评估。现有的开源基准测试(如 FoldBench)在数据覆盖度、统计方差控制以及评估子集的一致性上存在缺陷,导致跨模型比较不可靠。
核心问题:
- 是否存在一个完全开源的模型,能在严格对齐训练数据截止时间、模型规模和推理预算的前提下,达到或超越 AlphaFold3 的性能?
- 如何构建更公平、更稳健的评估体系,以消除现有基准测试中的偏差(如数据子集不一致、方差过大)?
- 开源模型是否具备类似 AlphaFold3 的“推理时扩展(Inference-time Scaling)”能力,即通过增加计算预算提升预测质量?
2. 方法论 (Methodology)
2.1 模型架构与训练
- Protenix-v1 (PX-v1):首个完全开源的生物分子结构预测模型,旨在与 AlphaFold3 在同等条件下(相同训练数据截止时间、模型规模、推理预算)进行公平对比。
- 数据策略:
- 严格对齐:Protenix-v1 使用与 AlphaFold3 相同的训练数据截止时间(2023-01-12 左右,具体视 FoldBench 定义而定),确保公平性。
- 增强数据管道:引入了蛋白质模板整合(Protein Template Integration)和 RNA MSA 支持。
- 蒸馏与扩展:采用了针对无序区域的蒸馏(disorder-focused distillation)和基于 MGnify 的大规模单体蒸馏。
- 推理配置:采用基于扩散(Diffusion-based)的推理,与 AlphaFold3 超参数设置一致。通过 MSA 子采样、Pair Embeddings 的推理时 Dropout 以及扩散轨迹的随机性引入多样性。
2.2 评估体系重构 (Evaluation Framework)
为了克服现有基准的缺陷,作者构建了更严谨的评估体系:
- 修正的 FoldBench:强制要求所有对比模型在**成功评估的样本交集(Common Intersection)**上进行计算,消除因 OOM(显存溢出)或评估失败导致的数据子集不一致问题。
- 方差感知协议:引入Bootstrap(自举法),使用 20 个随机种子(每个种子生成 5 个扩散样本)来评估指标,计算置信区间,以应对小样本数据集(如抗体 - 抗原复合物)的高方差问题。
- 分层基准测试 (Year-Stratified Benchmarks):
- 构建了 PXM-2024 和 PXM-2025,分别基于 2024 年和 2025 年发布的 PDB 条目。
- 构建了 PXM-22to25 系列(针对配体和抗体),聚合 2022-2025 年数据以增强统计效力。
- 构建了 PXM-2025H2,专门用于评估在更严格截止日(2025 年 6 月 30 日)后训练的模型变体。
2.3 模型变体
- Protenix-v1:标准版本,严格对齐 AlphaFold3 数据截止。
- Protenix-v1-20250630:面向实际应用的变体,训练数据截止至 2025 年 6 月 30 日,利用更多近期结构数据提升对新发布靶点的预测能力。
- Protenix-v1-wo-RNA-MSA:消融实验版本,移除 RNA MSA 输入,用于验证 RNA 支持模块的有效性。
3. 关键贡献 (Key Contributions)
- 首个超越 AlphaFold3 的开源模型:Protenix-v1 在严格控制的条件下(同数据截止、同规模),在多项基准测试中达到或超越了 AlphaFold3 的性能,证明了开源模型与闭源顶尖模型之间的性能差距并非不可逾越。
- 揭示推理时扩展行为 (Inference-time Scaling):
- 发现 Protenix-v1 具备类似 AlphaFold3 的推理时扩展特性:对于挑战性靶点(如抗体 - 抗原复合物),增加采样预算(从基线增加到数百个候选结构)能带来对数线性(log-linear)的精度提升。
- 这为开源社区提供了通过增加计算资源换取精度的实用控制机制。
- 构建更公平的评估标准:
- 指出了 FoldBench 等现有基准在数据覆盖和方差上的缺陷。
- 提出了基于“成功样本交集”和"Bootstrap 方差分析”的修正评估协议,并发布了更新的评价工具和分层基准数据集。
- 功能增强:
- 原生支持 RNA MSA 和 蛋白质模板 整合。
- 发布了面向药物发现的 Protenix-v1-20250630 版本,在最新数据上表现更优。
- 设计过滤器验证:验证了 Protenix-v1 的置信度分数(ipTM, pTM, pLDDT)作为蛋白质结合剂设计(Binder Design)筛选器的有效性,在多个靶点上 AUC 和平均精度(AP)表现最佳。
4. 实验结果 (Results)
4.1 综合性能对比 (FoldBench & PXM)
- FoldBench:在修正后的公平对比中,Protenix-v1 在蛋白质 - 蛋白质和抗体 - 抗原界面预测上优于 AlphaFold3;在蛋白质 - 配体和蛋白质 -DNA 任务上略逊于或持平 AlphaFold3,但显著优于其他开源基线(如 Boltz-1, Chai-1)。
- PXM-2024/2025:在所有六个评估域(单体、蛋白 - 蛋白、抗体 - 抗原、蛋白 - 配体、蛋白 -RNA、蛋白 -DNA)中,Protenix-v1 均一致优于现有开源基线。
- 在 PXM-2024 的蛋白 - 蛋白界面预测上,相比领先开源基线有约 10% 的相对提升。
- 基于置信度的结构选择(Selected)相比中位数(Median)有显著提升,特别是在抗体 - 抗原和蛋白 -DNA 界面上,提升幅度达 10%-30%。
4.2 推理时扩展 (Inference-time Scaling)
- 在 PXM-22to25-Antibody 基准上,随着采样种子数从 1 增加到 100,DockQ 成功率 (SR) 从 36.01% 提升至 47.68%,lDDT 分数也显著提升。这证明了通过增加计算预算可以显著优化预测质量。
4.3 特定任务表现
- 抗体 - 抗原 (Antibody-Antigen):Protenix-v1 在多个抗体基准(包括修正后的 FoldBench 和 PXM-22to25)上均取得 SOTA,显著优于 Boltz-1 和 Chai-1。
- 蛋白 - 配体 (Protein-Ligand):在 PXM-22to25-Ligand 上,Protenix-v1 实现了最低的配体 RMSD (2.772 Å) 和最高的 RMSD<2Å 成功率 (72.79%)。
- 设计筛选 (Design Filter):在区分结合与非结合设计任务的二分类评估中,Protenix-v1 在绝大多数靶点上获得了最高的 AUC 和 AP 分数,优于 Chai-1 和 Boltz-1。
4.4 变体性能
- Protenix-v1-20250630:在包含其训练数据的 PXM-2024 上表现优异;在完全未见过的 PXM-2025H2 上,特别是在抗体 - 抗原任务上,显著优于标准版 Protenix-v1,证明了数据扩展在数据稀疏领域的价值。
- 消融实验:移除 RNA MSA 后,蛋白 -RNA 和 RNA 单体任务性能下降,而其他任务性能保持稳定,证实了 RNA MSA 模块的有效性。
5. 意义与影响 (Significance)
- 开源生态的里程碑:Protenix-v1 打破了开源模型在性能上无法匹敌 AlphaFold3 的固有认知,为开源社区提供了一个强大的、可复现的 SOTA 基线。
- 方法论的革新:论文指出的基准测试缺陷(如数据子集不一致、缺乏方差控制)对领域具有警示意义,提出的修正协议和分层基准为未来的公平评估树立了新标准。
- 实用价值:
- 推理时扩展:允许用户根据计算资源灵活调整精度,特别适用于对精度要求极高的药物发现场景。
- 双版本策略:提供了“严格基准版”和“实际应用版(20250630)”,满足不同场景需求。
- 社区资源:开源了模型权重、代码以及更新的评价工具(PXMeter),极大地降低了复现和进一步研究的门槛,推动了生物分子结构预测领域的透明化和可复现性。
总结:Protenix-v1 不仅是一个性能卓越的预测模型,更是一套关于如何公平评估、如何理解模型扩展性以及如何构建可靠基准的完整方法论,为未来开源生物分子 AI 的发展奠定了坚实基础。
每周获取最佳 bioinformatics 论文。
受到斯坦福、剑桥和法国科学院研究人员的信赖。
请查收邮箱确认订阅。
出了点问题,再试一次?
无垃圾邮件,随时退订。