Structure-aware geometric graph learning for modeling protease-substrate specificity at scale
本文提出了名为 OmniCleave 的尺度感知几何图学习框架,通过整合多尺度结构图与高阶蛋白酶关系拓扑,在大规模数据集上实现了对蛋白酶 - 底物特异性的精准建模,不仅显著优于现有方法,还成功预测并实验验证了新的底物及切割位点。
1235 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文提出了名为 OmniCleave 的尺度感知几何图学习框架,通过整合多尺度结构图与高阶蛋白酶关系拓扑,在大规模数据集上实现了对蛋白酶 - 底物特异性的精准建模,不仅显著优于现有方法,还成功预测并实验验证了新的底物及切割位点。
该研究提出了一种通用的计算模型,利用长读长测序数据在不区分生物学嵌合与technical噪声的情况下,通过表征等位基因读长与共识序列的偏差分布,实现了对全基因组范围内串联重复序列不稳定性的量化,并发现其不稳定性主要受重复序列组成而非总长度驱动。
本文介绍了 BrightEyes-FFS,这是一个基于 Python 的开源平台,旨在通过提供从数据读取、相关函数计算到模型拟合的全套工具及图形界面,解决小阵列探测器产生的高维荧光涨落光谱数据分析缺乏开源软件的难题。
本文提出了一种针对具有复杂设计的大规模质谱成像实验的开源统计分析工作流,通过结合信号处理、特征聚合、感兴趣区域选择及适当的统计建模,有效检测差异丰度分析物并优化样本量计算。
本文提出了一种名为 TopicVI 的可解释深度学习模型,该模型通过最优传输技术将先验生物知识与数据驱动发现相结合,能够精准识别单细胞和空间转录组数据中特定于上下文的基因程序,从而在复杂疾病状态下揭示生物学过程和治疗机制。
本文提出了两种对比主成分分析(cPCA)的扩展方法——k-ρPCA 和 f-ρPCA,分别用于区分空间与非空间变异模式以及分析函数数据,从而在统一的数学框架下拓展了该方法在基因组学等领域的应用范围。
本文介绍了 DIANA,一种基于深度学习的多任务神经网络,它通过分析组装单元序列丰度,能够高精度地预测古代宏基因组样本的宿主、群落类型和材料等元数据,并具备将未见过的样本(如新亚种)泛化归类至其父级类别的能力,从而为古代微生物组研究提供了一种快速、数据驱动的元数据验证与质量控制工具。
该研究通过整合人类 - 病毒蛋白质相互作用图谱与残基接触信息,揭示了病毒靶向宿主蛋白界面中正负选择压力的空间组织模式,发现正选择位点倾向于在模拟宿主内源相互作用的界面中形成显著的空间聚类,从而阐明了适应性进化与功能约束在分子层面的复杂平衡机制。
本文介绍了 CoPhaser,一种基于生物信息变分自编码器的算法,它通过学习上下文依赖的周期性流形,成功将单细胞转录组数据中的周期性生物过程(如细胞周期、昼夜节律等)与细胞身份及其他变异源解耦,从而在多种生物学场景中实现了高精度的周期相位重建并揭示了新的生物学机制。
该研究提出了一套统一的 AlphaFold 可解释性框架,揭示蛋白质复合物组装主要由单体结构几何和界面互补性驱动而非链间共进化,并指出抗原 - 抗体复合物预测的瓶颈在于界面构象的异质性与可塑性。