Decoding conformational heterogeneity across disordered proteomes
本文介绍了 AI-IDP 这一深度学习框架,它能够将无序蛋白序列转化为与实验一致的构象系综,揭示了瞬态二级结构的普遍性及其进化调控机制,从而为理解无序蛋白组的结构功能逻辑及靶向疾病相关动态状态提供了实用工具。
1244 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文介绍了 AI-IDP 这一深度学习框架,它能够将无序蛋白序列转化为与实验一致的构象系综,揭示了瞬态二级结构的普遍性及其进化调控机制,从而为理解无序蛋白组的结构功能逻辑及靶向疾病相关动态状态提供了实用工具。
Grass Expression Atlas (GExA) 是一个基于统一流程处理公开 RNA-seq 数据的交互式网络资源,旨在为珍珠粟、谷子、糜子、指状粟、大麦和高粱等禾本科物种提供跨组织、发育阶段及条件的基因表达快速探索平台。
本文介绍了名为 Stoic 的新方法,该方法利用蛋白质语言模型嵌入和图神经网络,通过识别界面残基而非全局序列特征,实现了快速且准确的蛋白质复合物化学计量比预测。
本文提出了 PepCABO 框架,通过结合对比对齐的双变分自编码器与高斯过程代理模型,在潜在空间中实现跨等位基因的知识迁移,从而显著提升了在有限实验预算下针对特定 MHC 等位基因的肽段结合亲和力优化效率。
本文介绍了 ColBuilder 框架的扩展,该扩展能够生成包含葡萄糖胺、戊糖苷和 MOLD 等非酶促晚期糖基化终产物(AGE)交联的原子级胶原原纤维模型,并通过分子动力学模拟揭示了 AGE 交联与酶促交联在力学响应上的显著差异,从而为研究胶原老化提供了新工具。
本文全面综述了人类泛素 - 蛋白酶体系统(UPS)及其相关泛素样修饰通路,估算其包含超过 1400 种蛋白质,并指出结合分子伴侣和自噬 - 溶酶体途径后,整个蛋白质稳态网络(PN)共涉及超过 3100 个组分,旨在为基因组学、蛋白质组学及疾病研究提供系统性的基础数据。
本文提出了名为 LysinFusion 的可重复深度学习框架,通过整合多特征编码与混合 CNN-Transformer 架构,在噬菌体溶菌酶预测中实现了比现有方法更高的准确性与生物学可解释性,从而有效降低了下游验证成本。
该研究利用机器学习模型,基于 2,428 个实验验证的 siRNA 数据集,通过整合序列组成、调控基序及热力学等内在特征,成功构建了能直接预测 siRNA 效力的工具,并发现 5'端尿嘧啶和 3'端腺嘌呤是决定其效力的关键因素,从而显著提升了预测精度与生物学可解释性。
本文提出了 PBML 算法,该算法基于压缩 PBWT 索引,通过引入最小 haplotype 数量(k)和最小长度(L)阈值,实现了在大型多样化单倍型面板中高效、低内存地筛选具有生物学意义的长距离共享祖先片段,显著优于现有工具。
本文提出了一种基于贝叶斯 AMMI 模型的基因型与环境互作(GEI)模拟框架,该框架利用高通量环境协方差矩阵生成具有可解释方向结构的 GEI 效应,不仅成功捕捉了环境相关性与基因型特异性响应,还验证了其在复杂环境条件下支持基因组选择策略的有效性。