Protein sequence domain annotation using a language model
该论文介绍了 PSALM,一种结合预训练蛋白质语言模型(ESM-2)、残级域状态分类器和结构化概率解码器的蛋白质结构域注释方法,其在大规模基准测试中展现出与 HMMER 相当的灵敏度与特异性权衡,并能在宽松阈值下提供更高的序列覆盖度。
1242 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
该论文介绍了 PSALM,一种结合预训练蛋白质语言模型(ESM-2)、残级域状态分类器和结构化概率解码器的蛋白质结构域注释方法,其在大规模基准测试中展现出与 HMMER 相当的灵敏度与特异性权衡,并能在宽松阈值下提供更高的序列覆盖度。
本研究利用新型质谱分析工具 PIPI-C 提出了“氨基酸替代组学”流程,通过对五种癌症的大规模蛋白质组数据分析,发现绝大多数氨基酸替代源于翻译后修饰而非基因组变异,并揭示了其在癌症生物学机制及免疫逃逸和耐药性中的关键作用。
该研究通过生物信息学分析证实,ITGB1 基因在多种癌症中显著高表达,其表达水平与患者不良预后、化疗耐药及免疫逃逸密切相关,提示其可作为癌症预后评估及治疗干预的重要生物标志物。
这篇系统综述指出,尽管深度表示学习(特别是变分自编码器)在癌症组学研究中广泛用于亚型分类、诊断和预后,但由于纵向数据稀缺,其时间动态建模能力受限,因此建议利用生成模型加强癌症分期等时间维度的研究以推动疾病理解的进步。
本文介绍了 EnzyGen2,一种基于 7.3 亿参数的蛋白质基础模型,它能够同时共设计序列与结构以生成具有催化活性的高性能全新酶,并在计算基准测试和多种酶家族的实验验证中展现出超越现有最先进方法的性能与效率。
本文介绍了 Flipper,这是一个专为 eCLIP 数据设计的先进框架,通过整合输入对照、分层归一化策略及改进的下游分析工具,有效解决了现有工具在差异 RNA 结合分析中缺乏严谨统计推断、无法区分表达驱动效应与真实结合变化的问题,从而显著提升了分析的灵敏度、精确度及生物学洞察力。
该论文提出了名为 CCIDeconv 的分层模型,通过利用亚细胞空间转录组数据训练,成功实现了从非空间单细胞转录组数据中推断细胞间相互作用在细胞核与细胞质等亚细胞区域分布的精准预测。
该研究利用单细胞转录组数据结合变分自编码器与超图约束网络建模,揭示了牙周炎中炎症向不可逆结构崩溃转变的分子阈值,并提出了“再生许可指数(RPI)”作为量化疾病不可逆性及指导精准再生医学决策的关键指标。
本文提出了名为 BlueSTARR 的可重训练深度学习框架,利用全基因组 STARR-seq 数据成功预测非编码变异对基因调控的影响,揭示了人类基因组中针对调控功能获得与丧失的纯化选择特征,并证明了该轻量级模型在解析药物扰动及合成增强子等新颖实验数据中的有效性。
本文提出了 IDBSpred,一种结合蛋白质语言模型(ESM-2)与机器学习算法的序列预测方法,能够以 0.87 的 ROC AUC 准确率在残基水平上识别有序蛋白中结合内在无序蛋白(IDP)的位点。