Neurotox: Deep learning decodes conserved hallmarks of neurotoxicity across venomous species
该研究开发了名为 Neurotox 的深度学习框架,通过分析 20 万条蛋白质序列证实,神经毒性特征并非仅由孤立的关键接触残基决定,而是源于能够塑造二级结构组织及受体相互作用的分布式序列特征。
1246 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
该研究开发了名为 Neurotox 的深度学习框架,通过分析 20 万条蛋白质序列证实,神经毒性特征并非仅由孤立的关键接触残基决定,而是源于能够塑造二级结构组织及受体相互作用的分布式序列特征。
该研究通过整合三种结构标准改进了 PolarBearal 算法,实现了对 AlphaFold2 数据库中 57 万余个细菌外膜β-桶蛋白结构的高精度(97%)自动链数标注,从而解决了以往手动计数低效及现有算法无法处理结构复杂性的难题,为外膜蛋白的结构功能研究、进化分析及药物设计提供了大规模数据集支持。
PhosSight 是一个统一的深度学习框架,通过引入 PhosDetect 模型精准预测肽段可检测性,有效解决了 DDA 和 DIA 模式下的数据缺失与搜索效率瓶颈,显著提升了磷酸化蛋白质组的鉴定深度并助力发现了如 MARK2 等新的预后激酶靶点。
本研究通过结合检索增强生成(RAG)与基因组距离信息,评估并优化了大语言模型在复杂疾病因果基因识别中的表现,发现虽然两者分别提升了预测精度,但联合使用时收益递减,揭示了混合方法在融合结构化特征与非结构化文本数据方面的潜力与局限。
该论文提出了一种名为 NIRD 的网络推断方法,通过矩阵分解和树集成回归处理单细胞转录组数据的稀疏性,从而有效捕捉基因间的非线性依赖关系,并在消除批次效应及结合 RNA 速度预测转录因子靶点方面展现出优越性能。
该研究证明,在严格控制的无细胞 DNA 全基因组测序中,通常被视为技术元数据的碱基质量评分实际上编码了片段组信号,能够作为一种低成本、无需比对的生物标志物,有效区分癌症样本与对照样本。
FAMUS 是一种基于对比学习的大规模蛋白质功能注释框架,它通过将查询序列与隐马尔可夫模型数据库的相似性评分转化为低维向量空间,克服了传统单条最佳匹配方法的局限性,在多个数据库基准测试中显著优于现有工具,并提供便捷的软件包与网络服务器以支持大规模基因组分析。
本研究开发并发布了名为 SCL2205 的高质量蛋白质亚细胞定位数据集,该数据集通过严格的数据预处理和划分策略解决了现有数据泄漏问题,显著提升了深度学习模型的预测性能,并揭示了现有最先进方法中普遍存在的性能指标虚高现象。
该研究指出,蛋白质语言模型在突变效应预测中的表现差异主要取决于数据集本身的内在特征(如位点间的适应度变异性)而非模型架构,且许多现有基准因训练数据泄露而高估了模型性能,实际上模型往往仅依赖位点平均适应度这一简单基线。
本研究通过全原子分子动力学模拟揭示了肿瘤来源的 ASXL2 磷酸化表位如何通过重塑结合槽内的非共价相互作用网络并改变复合物构象动力学,从而增强其与 HLA 分子的结合亲和力及稳定性,为靶向癌症特异性磷酸化表位的免疫治疗提供了结构动力学依据。