DPGT: A spark based high-performance joint variant calling tool for large cohort sequencing
本文介绍了一种基于 Apache Spark 的高性能联合变异检测工具 DPGT,该工具能够以单命令方式在大规模队列中实现快速、可扩展且准确的变异检测,其精度与现有方法相当但效率更优。
1246 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文介绍了一种基于 Apache Spark 的高性能联合变异检测工具 DPGT,该工具能够以单命令方式在大规模队列中实现快速、可扩展且准确的变异检测,其精度与现有方法相当但效率更优。
本文提出了 ProtNHF,一种基于神经哈密顿流的生成模型,它通过在推理阶段引入解析偏置函数而非重新训练,实现了对蛋白质序列氨基酸组成和净电荷等属性的连续、可解释且可预测的定量控制。
本文介绍了一种名为 CellSweep 的高效工具,旨在从单细胞基因组数据中去除由裂解细胞释放的游离环境分子及文库制备引入的全局污染,从而提升下游分析的准确性,且其性能在多项基准测试中优于现有方法。
本研究提出了一种基于分裂与合并策略的变长窗口方法,以克服固定窗口大小在重组率变化染色体上的局限性,并通过模拟和真实数据(凤蝶和类人猿)验证了该方法在恢复基因树拓扑结构方面的优越性。
本文系统回顾了稀疏自编码器在生物基础模型中的应用,发现其能跨尺度提取可解释的生物特征,但指出当前验证存在循环论证风险,并呼吁通过实验手段建立从表征到因果机制的三层解释框架以确认模型是否真正习得了生物学机制。
本文介绍了 SLiMMine,这是一种基于深度学习的方法,通过利用蛋白质嵌入和神经网络,能够从高误报率的模式匹配结果中可靠地预测人类蛋白质组中的短线性基序(SLiMs),并作为发现工具识别未表征的基序及精确预测蛋白质相互作用。
本文对基因本体(GO)及其注释资源进行了长达 21 年的纵向分析,揭示了其从持续扩张与结构重组向 2017 年左右开始的成熟稳定期转变的演化规律,为相关研究的可重复性与数据整合提供了重要参考框架。
该研究通过整合配体与基于结构的虚拟筛选策略,成功鉴定出氢氯噻嗪等四种老药作为细粒棘球绦虫和多房棘球绦虫脂肪酸结合蛋白的潜在抑制剂,并经实验验证了其在治疗包虫病中的药物重定位价值。
本文提出了名为“潜在空间动力学(LSD)”的热力学启发式框架,该框架通过在潜在空间中构建可微势函数和局部熵项,利用神经常微分方程从单细胞时序数据中重建连续的细胞分化轨迹,从而在准确推断谱系层级、预测细胞命运及量化发育与癌症中的细胞可塑性方面优于现有方法。
该研究通过针对 GPU 大规模并行特性重新设计伪比对、等价类交集和 EM 算法等核心模块,实现了 kallisto RNA-seq 转录本定量工具的 GPU 版本,使其在基准测试中比多线程 CPU 版本快 30 至 50 倍,将典型样本的处理时间从数分钟缩短至数秒。