SELFormerMM: multimodal molecular representation learning via SELFIES, structure, text, and knowledge graph integration

本文提出了 SELFormerMM 框架,通过整合 SELFIES 符号、分子结构、文本描述及知识图谱中的生物交互数据,实现了多模态分子表征学习,从而在多种分子属性预测任务中超越了单一模态模型。

Ulusoy, E., Bostanci, S., Deniz, B. E., Dogan, T.

发布于 2026-03-19
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SELFormerMM 的新工具,它就像是一个**“超级分子翻译官”**,专门帮助科学家更快地发现新药。

为了让你更容易理解,我们可以把寻找新药想象成寻找一位完美的“特工”。这位特工(药物分子)需要潜入特定的“敌营”(人体内的病变细胞),既要能混进去(穿透血脑屏障),又不能搞破坏(没有副作用),还要能精准完成任务(结合特定蛋白)。

以前,科学家在筛选这些“特工”时,通常只通过一种方式去观察它们:

  • 有的只看它的**“身份证号码”**(化学序列,比如 SMILES);
  • 有的只看它的**“骨架照片”**(分子结构图);
  • 有的只看它的**“简历”**(文本描述);
  • 有的只看它的**“社交关系网”**(它和哪些蛋白质、基因有过接触)。

问题在于: 只看其中一种,就像只凭一张模糊的照片或者一段文字去判断一个人,很容易看走眼,或者漏掉关键信息。

SELFormerMM 是怎么工作的?(核心比喻)

SELFormerMM 就像是一个**“全能情报分析中心”**,它把上述所有信息都收集起来,进行“多模态融合”:

  1. 它收集了四种情报:

    • 语言情报 (SELFIES): 它不再使用容易出错的旧式“密码”(SMILES),而是使用一种更严谨、不会出错的“新密码”(SELFIES)。这就像把特工的身份证换成了防伪等级更高的芯片,确保每个字符都代表真实的化学结构。
    • 视觉情报 (结构图): 它像看 X 光片一样,分析分子的 3D 骨架和连接方式。
    • 文本情报 (描述): 它阅读关于这个分子的成千上万条科学文献和描述,理解它的“性格”和“传闻”。
    • 社交情报 (知识图谱): 它查看这个分子在生物世界里的“朋友圈”——它和哪些蛋白质是朋友?和哪些基因是死对头?这就像查特工的背景调查,看它和谁有过接触。
  2. 它如何“学习”?(对比学习)
    想象一下,SELFormerMM 是一个**“拼图大师”**。它手里有同一个分子的四种不同拼图碎片(文字、图片、代码、关系网)。

    • 在训练阶段,它疯狂地练习:把属于同一个分子的四种碎片拼在一起,告诉模型“这些看起来不一样,但其实是同一个人”。
    • 同时,它把不同分子的碎片强行分开,告诉模型“这些虽然有点像,但绝对不是同一个人”。
    • 通过这种“找相同、找不同”的游戏,它学会了如何把四种完全不同的信息融合成一个完美的、立体的“分子全息画像”
  3. 它有什么用?(实际应用)
    一旦训练完成,这个“情报中心”就能在几秒钟内预测出:

    • 这个分子能不能穿过大脑的防线(血脑屏障)?
    • 它会不会引起严重的副作用?
    • 它在水里的溶解度如何?
    • 它能不能紧紧抓住某种致病蛋白?

为什么它很厉害?(主要成果)

  • 看得更全: 以前的模型就像“盲人摸象”,只摸到一部分。SELFormerMM 是“上帝视角”,把大象的腿、耳朵、鼻子都结合起来,所以判断更准。
  • 跑得快: 在测试中,它在预测药物副作用、穿透大脑能力等任务上,表现超过了以前最顶尖的单一视角模型。
  • 更懂生物学: 它不仅知道分子长什么样,还知道它在生物体内“怎么混”的(通过知识图谱),这让它的预测更符合真实的生物规律。

总结

简单来说,SELFormerMM 就是给药物研发装上了一个**“超级大脑”。它不再让科学家只盯着分子的某一个侧面看,而是把分子的“长相”、“名字”、“简历”和“朋友圈”**全部整合起来,形成一个 360 度无死角的立体认知。

这意味着,未来科学家可以更快地从海量的化学分子中,筛选出那些真正有潜力成为救命药的“超级特工”,大大缩短新药研发的时间,让病人更早用上药。

作者还非常大方,把这个“超级大脑”的代码、数据和训练好的模型都开源了(放在 GitHub 上),让全球的科学家都能免费使用,共同加速新药发现的过程。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →