Panmap: Scalable phylogeny-guided alignment, genotyping, and placement on pangenomes
Panmap 是一种利用进化结构对突变注释泛基因组进行可扩展比对、基因分型和定位的工具,它通过引入仅存储分支序列差异的 phylogenetically compressed k-mer 索引,将索引大小和构建时间大幅降低,从而实现了对包含数百万基因组的超大规模泛基因组的高效读段映射与分析。
1243 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
Panmap 是一种利用进化结构对突变注释泛基因组进行可扩展比对、基因分型和定位的工具,它通过引入仅存储分支序列差异的 phylogenetically compressed k-mer 索引,将索引大小和构建时间大幅降低,从而实现了对包含数百万基因组的超大规模泛基因组的高效读段映射与分析。
该研究利用 Vertebrate Genomes Project 的高质量长读长基因组数据,构建了涵盖 82 种脊椎动物的可扩展计算框架,揭示了启动子区域在转录起始位点普遍存在保守的低甲基化特征及物种特异性的甲基化模式,从而建立了基于长读长测序的脊椎动物启动子表观基因组比较分析新范式。
本文提出了一种名为 mod-minimizer 的新型采样算法,该算法通过模运算机制在长 k-mer 场景下实现了比随机 minimizer 及其他先进方法更低的密度(即更高的采样效率),并在人类基因组索引应用中成功减少了 15% 的空间占用。
该研究通过基准测试七种单细胞转录组匹配工具,揭示了各方法的互补优势,并提出了一个用于增量整合不同细胞图谱(如肺和肾)中细胞类型的框架,以解决细胞类型统一和命名标准化的挑战。
本文提出了名为 DeepBranchAI 的新型级联工作流,通过结合随机森林初始标注、专家迭代优化及从 2D 到 3D 架构的渐进式训练,有效解决了三维分支网络分割中的标注瓶颈与拓扑连接问题,实现了在稀疏数据下的高精度、泛化性强的模型训练。
该论文提出了一种基于游程编码 BWT 的双向跳表数据结构,实现了动态图 Burrows-Wheeler 变换(GBWT)的高效构建与查询,从而支持在包含 92 个人类基因组的 pangenome 上快速进行基于 syncmer 的序列比对操作。
该研究通过单细胞转录组分析揭示,脑出血后急性期微胶质细胞分泌的 TNF-α 通过 TNFR2 驱动单核细胞产生短暂激活,这种特定的神经免疫反应不仅随时间向修复程序转变,还与患者更好的神经功能预后显著相关。
该研究提出了一种名为“逆信号重要性”(ISI)的机器学习框架,通过分析自然环境下日本青鳉的生理与环境时间序列数据,揭示了生物体如何动态优先处理多种环境信号及其背后的基因调控机制,从而弥补了传统实验室研究在模拟复杂真实暴露组适应性方面的不足。
本文介绍了在 CCTBX 和 Phenix 软件中实现 Urzhumtsev 与 Lunin 提出的可变分辨率地图(VRM)方法,该方法通过引入局部分辨率并采用原子参数的解析可微函数,显著提升了冷冻电镜中原子模型与实验密度图匹配的准确性。
该论文介绍了开源的 Slorado 框架及其核心解码库 Openfish,通过提供与牛津纳米孔公司(ONT)专有 Dorado 软件性能相当且兼容多种硬件的 GPU 加速基序识别方案,成功打破了当前纳米孔测序基序识别对特定 NVIDIA 硬件的依赖限制。