ARCH3D: A foundation model for global genome architecture
本文介绍了 ARCH3D,这是一种利用新型掩蔽位点建模任务来整合全基因组接触谱信息的基础模型,能够捕捉全局基因组结构、在极端稀疏条件下重建染色质相互作用并识别多向互作,从而为构建模拟基因组行为与动态的“虚拟基因组”奠定基础。
768 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文介绍了 ARCH3D,这是一种利用新型掩蔽位点建模任务来整合全基因组接触谱信息的基础模型,能够捕捉全局基因组结构、在极端稀疏条件下重建染色质相互作用并识别多向互作,从而为构建模拟基因组行为与动态的“虚拟基因组”奠定基础。
该研究通过构建包含 12 个队列的基准数据集,证实了预训练 RNA 基础模型在跨队列内异质症分类中显著优于传统基线,并创新性地提出了 CA-IG 可解释性方法,揭示了具有跨队列稳定性和生物学意义的保守预测基因特征。
本文提出了 PhyMapNet,一种将系统发育信息整合到贝叶斯高斯图模型中的框架,通过构建超参数无关的共识网络来克服微生物组数据的高维稀疏性挑战,从而实现对微生物相互作用网络更稳健、可解释且可重复的推断。
该研究通过构建首个针对早期造血分化的纵向多组学基准数据集并举办大规模单细胞数据竞赛,揭示了预测基因调控关系的最优建模策略,为未来多模态单细胞数据分析及基础模型开发提供了评估标准与指导。
该研究提出了名为 STRATA 的微分几何框架,通过分析人类皮肤空间转录组数据,将调控分析从离散的细胞聚类转化为连续的调控场,揭示了黑色素瘤微环境中转录因子调控耦合的均质化特征及其与组织结构的关联。
TopoMetry 是一个能够直接从单细胞数据中学习并评估其潜在几何结构的统一框架,它通过构建高保真谱骨架来克服传统静态投影的局限,从而更可靠地揭示细胞多样性及潜在的生物学信号。
该研究表明,基于机器学习的 MS2Rescore 重评分工具能显著提升宏蛋白质组学中的肽段鉴定率与特异性,从而在降低假阳性率的同时增强下游分类注释的可靠性。
本文提出了一种名为 Floco 的新方法,通过结合负二项分布计算的节点原始拷贝数概率与网络流整数线性规划优化,在基因组图比对中显著提升了拷贝数变异检测的准确性,有效克服了传统线性参考基因组方法的局限性。
CoMR 是一种整合了靶向信号预测、同源搜索及系统发育分析等多源证据的评分流程,旨在通过统一框架显著提升模型与非模型真核生物线粒体蛋白质组重建的准确性。
本文提出了一种基于-ELBO 损失函数的鲁棒自编码器模型 RSTG,旨在通过变分推断生成高质量的空间转录组数据,并在含噪声(如离群值、批次效应和dropout)的训练条件下展现出优于现有方法的稳健性与准确性。