原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明
想象蛋白质是由细线折叠而成的微小而精巧的折纸作品。为了让这些作品在工厂(如我们的身体或工业机器)中发挥作用,它们必须保持形状。但如果工厂温度过高,细线就会散开,折纸作品随之解体。发生这种情况的温度被称为“熔解温度”(Tm)。了解这个数值,就如同知道塑料容器在熔化前的确切耐热极限;它有助于科学家设计出能在严苛高温工业条件下存活的酶。
通常,确定这一耐热极限需要在实验室中进行缓慢、繁琐且昂贵的实验,就像试图在一千个不同的烤箱中熔化特定的一块塑料,以观察哪一个效果最佳。最近,科学家开始利用强大的计算机程序(人工智能)来预测这些数值,这要快得多。然而,存在一个重大问题:人工智能模型是在一种类型的“烤箱”(大规模蛋白质组学实验)数据上训练的,却被用于测试完全不同类型的“烤箱”(精确生物物理实验)数据。这就像训练一位厨师用微波炉烹制完美的牛排,然后期望他毫无困难地用炭火烤架烹制出同样完美的牛排。
研究人员做了什么
该团队构建了一个庞大的新蛋白质数据库(包含 45,441 种蛋白质),称为"ProMelt",并收集了来自精确实验室实验的五组不同测试数据。他们希望看看最优秀的人工智能厨师是否真的能在这些不同的“烤架”上表现出色。
他们的发现
他们发现,在大型通用数据集上训练的人工智能模型,在面对精确实验室数据时变得困惑。数据的“风味”差异实在太大。旧模型在从一种实验风格切换到另一种时,难以准确预测耐热极限。
新解决方案
为解决这一问题,研究人员采用了一个非常智能的预训练人工智能模型(称为 ESM-2),并针对蛋白质熔解特性对其进行了专门的聚焦训练(使用一种称为 LoRA 的技术)。这好比将一位世界级的通用厨师送去参加短期强化训练营,专门学习如何操作炭火烤架。
他们将新工具命名为TmProt 1.0。测试结果表明,在所有不同类型的实验数据中,这一新工具在识别能够耐受高温(60°C 及以上)的蛋白质方面表现更优。它不仅仅是猜测,而是以高度准确性可靠地识别出“耐热”蛋白质。
为何重要
研究人员表明,这一新工具效率足够高,可作为筛选工具使用。在科学家浪费时间和金钱进行昂贵的实验室测试之前,他们可以使用 TmProt 快速筛选数千种蛋白质设计,挑出最佳候选者进行测试。
如何获取
该团队已将此工具作为免费网站向所有人开放,称为TmProt 网络服务器,以便其他科学家能够立即开始使用它来寻找耐热蛋白质。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。