Sampling protein structural token space enables accurate prediction of multiple conformations

本文提出了 MultiStateFold(MSFold)框架,通过将并行退火算法整合至 ESM3 蛋白语言模型的离散结构令牌空间,成功克服了现有方法(如 AlphaFold 3)在采样单一主导构象上的局限,实现了对蛋白质多种亚稳态构象的高精度预测并提出了新的置信度指标。

Wang, Z., Yu, Y., Yu, C., Bu, D.

发布于 2026-04-08
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一下,蛋白质就像是一个超级复杂的乐高积木人

在现实生活中,这个“积木人”并不是只有一种固定的姿势。为了完成不同的任务(比如像钥匙开锁一样结合药物,或者像弹簧一样传递信号),它需要不断地扭动、伸展、折叠,摆出各种各样的姿势。这些不同的姿势,就是科学家说的“多种构象”。

然而,现有的顶尖 AI 模型(比如大名鼎鼎的 AlphaFold 3),就像是一个有点“强迫症”的积木大师。它非常擅长把积木搭成那个最标准、最稳固的“默认姿势”。但是,一旦你问它:“嘿,如果这个积木人想侧身或者蹲下会是什么样?”它往往会卡住,或者只给你看那个最标准的姿势,完全忽略了其他可能的动作。这就好比它只画了一张“标准证件照”,却忘了画出这个人在跳舞、跑步或睡觉时的样子。

这篇论文介绍的新方法叫"MultiStateFold"(简称 MSFold),它是怎么解决这个问题的呢?

我们可以用两个生动的比喻来理解它的核心创新:

1. 从“走迷宫”到“平行宇宙探险”

以前的 AI 在寻找蛋白质姿势时,就像是一个人走进了一座巨大的迷宫。它只能一步一步往前走,一旦走进了一条死胡同(也就是陷入了某个局部的最佳姿势),它就以为找到了终点,不再尝试其他路线了。

MSFold 则引入了物理学中的“平行模拟退火”概念。想象一下,MSFold 不是派一个人去走迷宫,而是同时派出了无数个分身,每个分身手里拿着不同温度的“魔法手电筒”:

  • 有的分身拿着“冷光”,走得小心翼翼,专注于细节;
  • 有的分身拿着“热光”,可以像超人一样直接飞越墙壁,或者把迷宫的墙壁暂时融化,从而跳出死胡同,探索那些以前从未到达过的区域。

通过这种“分身术”,MSFold 能够遍历蛋白质所有的可能姿势,不仅找到了最标准的姿势,还成功捕捉到了那些奇怪的、动态的“侧身”或“蹲下”的姿势。

2. 给蛋白质发“体检报告”

以前,科学家很难判断 AI 生成的姿势到底靠不靠谱,就像你拿到一张模糊的素描,不知道它画得像不像真人。

MSFold 发明了一个新的“体检指标”,叫序列对数似然(SLL)

  • 旧方法(如 pLDDT):就像只看积木拼得紧不紧,拼得紧就说是好作品。
  • 新方法(SLL):就像不仅看积木拼得紧不紧,还要检查积木的纹理和颜色是否匹配。如果 AI 拼出的姿势虽然结构稳固,但违背了蛋白质原本的“基因密码”(序列),SLL 就会立刻报警:“嘿,这个姿势虽然看着稳,但根本不符合这个蛋白质的性格!”

总结:它带来了什么改变?

这项研究就像是为蛋白质世界打开了一扇全景天窗

  1. 不再只有一张“证件照”:MSFold 能同时画出蛋白质的“证件照”、“运动照”和“生活照”,让我们看到它们真实、动态的工作状态。
  2. 更懂“性格”的 AI:它不仅能预测结构,还能通过新的指标告诉科学家,哪些姿势是真正可信的。
  3. 跨越学科的桥梁:它巧妙地把古老的统计物理学(研究能量和热量的科学)和现代的AI 语言模型(像 ESM3 这样理解蛋白质“语言”的模型)结合在了一起。

简单来说,MSFold 让 AI 从一个只会摆 Pose 的“模特”,进化成了一个能理解蛋白质千变万化、充满活力的“全能演员”,这将极大地帮助科学家设计新药和理解生命奥秘。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →