Helicase: Vectorized parsing and bitpacking of genomic sequences
本文介绍了 Helicase,一个基于 Rust 的高性能库,它利用 SIMD 向量化技术将 FASTA/Q 解析转化为有限状态机,实现了针对 x86 和 ARM 架构的极速解析、非标准字符处理及 DNA 序列位打包,其吞吐量超越了所有现有同类库。
766 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文介绍了 Helicase,一个基于 Rust 的高性能库,它利用 SIMD 向量化技术将 FASTA/Q 解析转化为有限状态机,实现了针对 x86 和 ARM 架构的极速解析、非标准字符处理及 DNA 序列位打包,其吞吐量超越了所有现有同类库。
该论文介绍了 miRBind2,这是一种基于深度学习的模型,仅通过序列信息即可利用创新的成对核苷酸表示法准确预测 miRNA 结合位点,并能进一步扩展用于预测基因转录抑制,其性能显著优于现有方法且参数量更少。
该研究通过耦合密码子与蛋白质语言模型,揭示了遗传变异致病性同时受“产物”(氨基酸残基特征)和“过程”(密码子级调控约束)驱动,且不同功能变异及实验平台对这两类信号的敏感度存在显著差异。
该研究开发了一种整合多种转录组特征与连接评分方法的计算工作流,成功识别出 64 种具有潜力的抗结核宿主导向治疗药物及 12 个关键桥接基因靶点,为系统性发现细菌感染的宿主导向疗法提供了稳健框架。
本文提出了 TriGraphQA,一种通过构建单体与界面三重几何视图并引入接口上下文聚合模块,从而显著超越现有方法、实现蛋白质复合物结构质量评估的三重图学习框架。
本文提出了 RNASTOP 框架,通过结合深度学习与启发式搜索,显著提升了 mRNA 化学稳定性的预测精度并实现了序列优化,从而为加速 mRNA 治疗药物的开发提供了有力工具。
本研究利用分子对接和免疫信息学方法,通过筛选并评估疟原虫抗原与 T 细胞受体的相互作用,确定了 PfCyRPA、PfMSP10 和 PfCSP 为极具潜力的疟疾疫苗候选抗原,从而为疫苗设计提供了重要的计算生物学依据。
本研究通过整合多个转录组数据集的生物信息学分析与机器学习建模,揭示了维生素 D 代谢紊乱和慢性炎症是 frailty(衰弱)的核心分子特征,并鉴定出具有优异诊断性能的生物标志物,为衰弱的早期临床诊断和治疗靶点开发提供了新策略。
本文提出了可微分基因集富集分析(dGSEA),通过引入软排序、平滑累积及符号特异性归一化等可微技术,解决了转录组预测中基因级目标与通路级解释之间的目标失配问题,从而在不牺牲基因级性能的前提下显著提升了通路层面的预测一致性与稳定性。
本文介绍了 ECHO,这是一个基于 Oxford Nanopore 测序和 Snakemake 流程的用户友好型工具,旨在实现对人类重复序列基因组进行可重复、可扩展且整合遗传与表观遗传变异特征的全流程分析。