Horse, not zebra: accounting for lineage abundance in maximum likelihood phylogenetics
该论文提出了两种在最大似然系统发育分析中整合谱系丰度信息的新方法(分别基于多歧树拓扑解释和树先验假设),通过优先将序列定位到常见谱系而非罕见谱系,显著提高了如 SARS-CoV-2 等存在大量多歧分支场景下的系统发育推断准确性,并已在开源软件 MAPLE 中实现。
1243 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
该论文提出了两种在最大似然系统发育分析中整合谱系丰度信息的新方法(分别基于多歧树拓扑解释和树先验假设),通过优先将序列定位到常见谱系而非罕见谱系,显著提高了如 SARS-CoV-2 等存在大量多歧分支场景下的系统发育推断准确性,并已在开源软件 MAPLE 中实现。
该论文提出了一种通过联合训练预训练语言模型与单细胞转录组数据及特定实验背景下的生物医学文献,从而构建出富含知识且可解释的通用表征,以优化单细胞数据分析的策略。
Seqwin 是一款开源框架,通过构建加权泛基因组最小化子图并采用遍历算法,能够高效、可扩展地从海量微生物基因组中自动识别出兼具高敏感性与特异性的诊断特征序列,从而克服了传统方法在处理大规模数据时的局限性。
本文提出了名为 Amaranth 的新型单细胞转录组组装工具,通过判别式建模区分 UMI 读段与内部读段的生物学及统计特性,显著提升了 Smart-seq3 数据中全长转录本及异构体水平的组装精度。
本文提出了一种名为 PerturbGraph 的生物信息图学习框架,通过整合蛋白质相互作用网络、功能注释及转录特征,利用图神经网络成功预测了未见过的基因扰动所引发的转录组响应,其性能显著优于现有的经典机器学习及深度学习模型。
Nextstrain 是一个自动化平台,它利用开放数据对 21 种病毒和结核分枝杆菌进行持续更新的实时系统发育动力学分析,以支持针对流行及新发病原体的公共卫生干预。
该研究通过离散扩散模型证明了无需显式约束即可从数据中隐式学习肿瘤系统发育树的结构约束,并揭示了模型规模与性能之间的非单调关系及跨演化 regime 训练对提升泛化能力的重要性。
该研究通过重新分析公开数据指出,Li 等人关于 PELSA 在定量灵敏度上优于 LiP-MS 的结论(特别是 FKBP1A 的 21 倍差异)源于实验条件不匹配及未披露的数据插补,因此其关于 PELSA 具有定量优越性或更好生物学可解释性的结论应谨慎对待。
本文提出了 FoundedPBI,一种利用针对原核生物和噬菌体基因组预训练的多种 DNA 基础模型构建的集成深度学习框架,通过创新性的长上下文聚合策略处理全基因组序列,显著提升了噬菌体与细菌相互作用预测的准确性。
本文提出了 GraphHDBSCAN*,一种基于图的无超参数层次聚类方法,旨在解决单细胞 RNA 测序数据中细胞群体层次结构丢失的问题,能够同时恢复精细的层次关系并生成优于现有社区检测方法的高质量扁平聚类。