scDisent: disentangled representation learning with causal structure for multi-omic single-cell analysis
scDisent 是一种基于因果结构的生成式框架,通过解耦表达与调控变量并建立稀疏映射,在提升单细胞多组学数据整合质量的同时显著增强了生物学可解释性,从而更适用于机制推断与假设生成。
1235 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
scDisent 是一种基于因果结构的生成式框架,通过解耦表达与调控变量并建立稀疏映射,在提升单细胞多组学数据整合质量的同时显著增强了生物学可解释性,从而更适用于机制推断与假设生成。
该研究系统评估了 11 种代表性基因组语言模型,发现其受限于仅基于序列的自监督预训练范式与基因调控动态特性之间的错配,导致在解码调控信息方面表现不佳,因此亟需引入生化与调控先验的功能导向预训练策略。
本文介绍了 ORION,一种利用多智能体大语言模型框架将复杂免疫谱数据(如 PhIP-seq)的分析与假设生成时间从数月压缩至数小时,从而显著加速自身免疫疾病机制研究的新型工具。
本文提出了一种名为 iClust 的可解释生物序列聚类方法,该方法通过自适应半径和代表性原型来刻画簇结构,在保持聚类性能的同时显著提升了结果的可解释性与稳定性。
该研究提出了一种基于条件化蛋白质语言模型的生成框架,用于设计具有特定构象系综特性的内在无序蛋白,并发现数据规模是决定设计精度和实现数据驱动蛋白质工程范式的关键限制因素。
本文介绍了 vcfilt,一种用 Go 语言编写的零分配流式 VCF 过滤器,它通过专注于高频过滤标准并采用字节扫描解析,在处理大规模基因组数据时比 bcftools 快 7.9 至 12.2 倍,同时保持输出完全一致。
该研究通过重建跨层空间转录组数据,首创了三维虚拟成年心肌细胞(3D-VirtualCM)转录组图谱,利用膜基分割和跨截面轮廓匹配技术克服了现有单细胞测序与空间转录组在成年心肌细胞分析中的局限,成功实现了原位单细胞水平的转录组 profiling,并揭示了心肌细胞周期状态及细胞内 mRNA 沿长轴的非对称分布特征。
本文介绍了一种名为 ABB4-STEROIDS 的生成式结构预测模型,该模型利用大规模分子动力学模拟数据训练,能够以高精度采样抗体的构象集合,从而克服了传统方法在预测蛋白质动态构象空间方面的局限性。
该研究通过生物信息学与计算模拟分析,揭示了非洲爪蟾属中嗜冷(X. laevis)与嗜热(X. tropicalis)物种的 EndoG 蛋白在氨基酸组成、理化性质及分子相互作用能等方面存在显著差异,证实温度是驱动这些同源蛋白适应性进化的主导因素。
该研究通过分子动力学模拟对比了 IgG2 和 IgG4 抗体,发现 N-糖基化虽未显著改变整体构象,但能调节局部柔性、结构域间相关运动及 Fab 与 Fc 的相对取向,且其效应具有亚型依赖性,表明在糖工程策略中必须考虑全长结构及 IgG 亚型的多样性。