原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明
想象一下,你正在尝试教一台计算机预测:当某种特定蛋白质(生命的微小构建模块)在一种名为大肠杆菌(E. coli)的细菌内部合成时,是会很好地溶解在水中,还是会聚集成一团固体废料。在过去的八年里,科学家们一直利用先进的人工智能来做出这些预测,但他们却撞上了一堵墙。无论计算机变得多么聪明,它们的预测能力都没有任何提升。
隐藏的问题:“离心”造成的混淆
该论文指出,计算机的失败并非因为它们不够聪明;它们失败是因为被一个隐藏变量——离心——给误导了。
想象一下制作蛋白质就像制作含有水果块的冰沙。
- 如果你将冰沙放入搅拌机并缓慢旋转,大块果肉会留在底部,顶部的液体看起来清澈。你将这种情况称为“可溶”。
- 如果你超高速旋转,即使是微小的颗粒也会被强制沉到底部,留下的液体几乎为零。你可能会将这种情况称为“不可溶”。
蛋白质本身并没有改变。它就是同一杯冰沙。但是,用于分离液体和固体的方法(即“离心条件”)改变了结果。
多年来,科学家们一直向他们的人工智能模型提供数据,其中“旋转速度”是隐藏的。他们只是将所有内容标记为“可溶”或“不可溶”。这就像试图教一名学生预测天气,但你却隐瞒了这样一个事实:有些数据来自阳光明媚的海滩,而有些来自多雨的山脉。学生会感到困惑,因为规则似乎随机变化。该论文将这种现象称为“潜在混杂因素”——数据中的一个隐藏陷阱。
解决方案:Aiki-Sol 与新数据集
研究人员通过创建一个名为Aiki-Sol 数据集的庞大新数据库解决了这个问题。他们不再仅仅说“可溶”或“不可溶”,而是为每一种蛋白质标记了确切的旋转强度(即“严格度”)。
他们将此组织为三个层级:
- 基准集:一个严格、高质量的集合,包含约 85,000 种蛋白质,其中旋转速度是已知的。
- 扩展集:一个更大的集合,包含约 147,000 种蛋白质,仅带有基本标签。
- 研究池:一个巨大的集合,包含来自各种来源的约 229,000 种蛋白质。
结果:关键在于规则,而非大脑
当他们用这种新的、诚实的数据测试旧的人工智能模型时,结果令人震惊。在“高速旋转”组中,现有的最佳模型的表现实际上比随机猜测(如抛硬币)还要差。它们被隐藏的旋转速度搞得如此困惑,以至于出错比正确更频繁。
随后,他们构建了一个名为Aiki-Sol的新模型。
- 技巧:Aiki-Sol 并非试图猜测单一答案,而是根据蛋白质被旋转的强度,训练其给出五个不同的答案,外加一个针对旋转速度未知的答案。
- 惊喜:他们发现,让人工智能“更大”(增加更多算力或使用复杂的三维结构)并没有帮助。魔力不在于架构,而在于数据整理。通过教导人工智能关注“旋转速度”规则,一个标准规模的模型突然变得聪明得多。
成果
当在人工智能从未见过的新蛋白质组上进行测试时,Aiki-Sol 的成功率从约 70% 跃升至 82% 以上。更令人印象深刻的是,在那些人工智能对特定蛋白质完全没有任何先验知识的组别中,其表现仍然有了巨大的提升。
总结
该论文声称,多年来,蛋白质溶解度预测器之所以停滞不前,是因为它们忽略了实验室中使用的“旋转速度”。通过创建一个尊重这些不同实验室条件的新数据集,并教导人工智能根据这些条件调整其预测,他们打破了性能瓶颈。关键不在于构建一个更大、更复杂的大脑,而在于教导现有的大脑理解游戏的具体规则。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。