Rewriting protein alphabets with language models

原作者： Pantolini, L., Studer, G., Engist, L., Pudziuvelyte, I., Pommerening, F., Waterhouse, A. M., Bienert, S., Tauriello, G., Steinegger, M., Schwede, T., Durairaj, J.

发布于 2026-05-22

📖 1 分钟阅读☕ 轻松阅读

查看于 bioRxiv ↗PDF ↗

CC BY 4.0

原作者： Pantolini, L., Studer, G., Engist, L., Pudziuvelyte, I., Pommerening, F., Waterhouse, A. M., Bienert, S., Tauriello, G., Steinegger, M., Schwede, T., Durairaj, J.

原始论文采用 CC BY 4.0 许可（https://creativecommons.org/licenses/by/4.0/）。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

想象一下，蛋白质就像是用一种极其复杂、古老的语言写成的句子。长期以来，科学家们一直试图在这些“句子”之间寻找联系，以理解它们的功能或构建方式。问题在于，这种语言如此复杂，以至于寻找相似的句子就像在巨大而混乱的干草堆里找一根特定的针，而且速度之慢可能导致你完全错过那根针。

本文介绍了一种巧妙的新工具，称为TEA，它既是通用翻译器，又是捷径。以下是其工作原理，使用简单的类比说明：

1. 问题：字母太多
目前，蛋白质的“句子”是用一个 20 字母的字母表写成的。虽然这可行，但用这 20 个字母在两个截然不同的蛋白质之间寻找相似性，就像试图在同一种语言的不同方言写成的两本书之间寻找匹配。这个过程既缓慢，有时连接又微弱到难以察觉。

2. 解决方案：一种新的、更聪明的字母表
研究人员使用了一种人工智能（称为“蛋白质语言模型”），它阅读了数百万条蛋白质句子并学习了其中的隐藏模式。随后，他们使用一种称为对比学习的特殊技术，将这些 20 字母的句子重写为一种全新的、简化的 20 字母字母表，称为TEA。

将 TEA 想象成不是一种不同的语言，而是一种高效的代码。这就像将一张漫长蜿蜒的路线图压缩成一条笔直的高速公路。人工智能学会了原始蛋白质“单词”中哪些部分对寻找连接真正重要，并剔除了噪声。

3. 结果：速度与准确性的结合
当科学家使用这种新的 TEA 字母表来搜索蛋白质匹配时，他们获得了两者的最佳优势：

序列搜索的速度：它的运行速度与旧的、简单的仅按顺序查看字母的方法一样快。
结构搜索的准确性：它能像那些需要知道蛋白质三维形状的方法一样，发现深层的、隐藏的联系（远缘同源）。

宏观视角
通常，要发现这些深层联系，你需要知道蛋白质的三维形状（就像观察一张折叠的折纸）。但 TEA 不需要这个；得益于人工智能的训练，它仅通过查看字母序列就能推断出来。

该论文声称，这一工具弥合了现代人工智能进步与科学家用于研究生物学的经典百年工具之间的鸿沟。它使研究人员能够利用强大的人工智能新见解，使现有的搜索工具更快、更智能，帮助他们发现新的生物学秘密，而无需等待复杂的结构数据。

技术摘要：利用语言模型重写蛋白质字母表

类似论文