Panmap: Scalable phylogeny-guided alignment, genotyping, and placement on pangenomes
Panmap 是一种利用进化结构对突变注释泛基因组进行可扩展比对、基因分型和定位的工具,它通过引入仅存储分支序列差异的 phylogenetically compressed k-mer 索引,将索引大小和构建时间大幅降低,从而实现了对包含数百万基因组的超大规模泛基因组的高效读段映射与分析。
766 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
Panmap 是一种利用进化结构对突变注释泛基因组进行可扩展比对、基因分型和定位的工具,它通过引入仅存储分支序列差异的 phylogenetically compressed k-mer 索引,将索引大小和构建时间大幅降低,从而实现了对包含数百万基因组的超大规模泛基因组的高效读段映射与分析。
该研究利用 Vertebrate Genomes Project 的高质量长读长基因组数据,构建了涵盖 82 种脊椎动物的可扩展计算框架,揭示了启动子区域在转录起始位点普遍存在保守的低甲基化特征及物种特异性的甲基化模式,从而建立了基于长读长测序的脊椎动物启动子表观基因组比较分析新范式。
本文提出了名为 DeepBranchAI 的新型级联工作流,通过结合随机森林初始标注、专家迭代优化及从 2D 到 3D 架构的渐进式训练,有效解决了三维分支网络分割中的标注瓶颈与拓扑连接问题,实现了在稀疏数据下的高精度、泛化性强的模型训练。
该论文提出了一种基于游程编码 BWT 的双向跳表数据结构,实现了动态图 Burrows-Wheeler 变换(GBWT)的高效构建与查询,从而支持在包含 92 个人类基因组的 pangenome 上快速进行基于 syncmer 的序列比对操作。
该论文介绍了开源的 Slorado 框架及其核心解码库 Openfish,通过提供与牛津纳米孔公司(ONT)专有 Dorado 软件性能相当且兼容多种硬件的 GPU 加速基序识别方案,成功打破了当前纳米孔测序基序识别对特定 NVIDIA 硬件的依赖限制。
本文提出了 scMagnifier,这是一种基于基因调控网络指导的虚拟扰动与共识聚类的框架,通过放大细微的转录差异并整合多扰动结果,有效解决了单细胞及空间转录组数据中细粒度细胞亚型识别的难题。
该研究通过实验进化与全基因组测序发现,线虫不同品系在诱变后的结构变异积累与突变保留模式存在显著差异,且出交配倾向较高的品系反而因结构变异抑制重组而保留了更多突变,揭示了结构变异架构对突变清除动态的关键影响。
该论文提出了一种名为“平铺算法”的通用方法,利用 PacBio 长读长测序数据克服了参考序列比对在分析腺相关病毒(AAV)基因组结构重排、引物延伸及宿主/质粒污染等方面的局限,实现了对样本中包括稀有变异在内的几乎所有序列物种的精准表征。
RNApdbee 3.0 是一个统一的网络服务器,它通过整合多种注释工具并标准化输入格式,从 3D 坐标出发对 RNA 二级结构进行全面的注释,能够识别包括非经典碱基对在内的多种相互作用,并提供多种标准格式输出及可视化结果。
本文介绍了 KyDab(Kymouse 抗体数据库),这是一个基于标准化 Kymouse 人源化小鼠平台构建的综合数据库,收录了涵盖 51 种免疫原的 11 项研究、超过 12 万条配对轻重链序列及结合数据,旨在为抗体发现的人工智能模型开发与评估提供包含完整筛选漏斗和一致元数据的关键资源。