生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。

Structured Pooling Improves Detection of Rare Regulatory Mutations in Population-Scale Reporter Assays

该研究通过引入将样本分组以提高等位基因频率的“结构化池化”实验设计及相应的贝叶斯效应量估计模型,成功在 100 人的群体规模上开展了全基因组 STARR-seq 实验,显著提升了罕见调控变异检测的准确性与规模。

Dura, K., Siklenka, K., Strouse, K. P., Morrow, S., Zhang, C., Barrera, A., Allen, A. S., Reddy, T. E., Majoros, W. H.2026-03-31💻 bioinformatics

Protein Language Model Decoys for Target Decoy Competition in Proteomics: Quality Assessment and Benchmarks

该研究评估了基于蛋白质语言模型生成的诱饵数据库在蛋白质组学靶标 - 诱饵竞争中的应用,发现尽管其序列特征更难被区分,但在当前搜索流程中尚未展现出超越传统反向诱饵的整体优势,因此更适合作为基准测试、诊断和压力测试的可调工具。

Reznikov, G., Kusters, F., Mohammadi, M., van den Toorn, H. W. P., Sinitcyn, P.2026-03-31💻 bioinformatics

Pan-Metabolomics Repository Mapping of the Carnitine Landscape

该研究通过跨数据库的泛库数据挖掘策略,利用 MassQL 诊断碎片离子过滤技术系统构建了包含 2,857 种原子组成和 34,222 个独特 MS/MS 谱图的肉碱类代谢物库,从而显著扩展了对肉碱化学多样性及其在宿主代谢、饮食、微生物活动及药物暴露中作用的认知。

Mannochio-Russo, H., Ferreira, P. C., Kvitne, K. E., Patan, A., Deleray, V., Agongo, J., Gouda, H., Goncalves Nunes, W. D., Xing, S., Zemlin, J., van Faassen, M., Reilly, E. R., Koo, I., Patterson, A. (…)2026-03-31💻 bioinformatics

Carafe2 enables high quality in silico spectral library generation for timsTOF data-independent acquisition proteomics

本文介绍了 Carafe2 工具,它通过直接在 timsTOF DIA 数据上微调深度学习模型,生成了包含准确保留时间、碎片离子强度和离子迁移率注释的高质量实验特异性虚拟谱库,从而在多种蛋白质组学应用中显著优于基于 DDA 数据预训练的模型。

Wen, B., Paez, J. S., Hsu, C., Canzani, D., Chang, A. T., Shulman, N., MacLean, B. X., Berg, M. D., Villen, J., Fondrie, W., Pino, L., MacCoss, M. J., Noble, W. S.2026-03-31💻 bioinformatics

Scalable Microbiome Network Inference: Mitigating Sparsity and Computational Bottlenecks in Random Effects Models

本文提出了名为 Parallel-REM 的 Python 并行化管道,通过集成稳健方差过滤、稀疏性检查及批处理主从并行策略,将基于随机效应模型的大规模微生物网络推断速度提升了 26.1 倍(在 64 核架构上将计算时间从数天缩短至数分钟),同时保持了与原始 R 实现超过 99.9% 的方向一致性,从而有效解决了高维稀疏数据中的计算瓶颈,为深度学习及 Transformer 诊断架构提供了高质量的网络特征输入。

Roy, D., Ghosh, T. S.2026-03-31💻 bioinformatics