生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。

RNAElectra: An ELECTRA-Style RNA Foundation Model for RNA Regulatory Inference

本文提出了名为 RNAElectra 的 RNA 基础模型,该模型利用 ELECTRA 风格的替换令牌检测(RTD)预训练策略替代传统的掩码语言建模,在无需任务特定架构的情况下实现了单核苷酸分辨率的 RNA 调控推断,并在结构、相互作用及定量调控等多个基准任务中展现出优于现有基线的泛化能力与可解释性。

Ding, K., Liu, L., Parker, B., Wen, J.2026-03-17💻 bioinformatics

Learning Universal Representations of Intermolecular Interactions with ATOMICA

本文介绍了 ATOMICA,一种基于几何深度学习的通用模型,它通过训练超过 200 万种复合物数据,成功构建了涵盖蛋白质、小分子、金属离子、脂质和核酸五种模态的原子级相互作用表示,并在结构功能预测、暗蛋白质组配体发现及实验验证中展现出卓越性能。

Fang, A., Desgagne, M., Zhang, Z., Zhou, A., Loscalzo, J., Pentelute, B. L., Zitnik, M.2026-03-16💻 bioinformatics

Metagenomic-scale analysis of the predicted protein structure universe

该研究整合了 AlphaFold 和 ESMatlas 的预测数据构建了包含 8.2 亿条记录的 AFESM 数据集,通过聚类分析揭示了 512 万个结构簇,并从中发现了 12 种全新结构折叠及 11,941 种未见过的结构域组合,凸显了宏基因组数据在探索蛋白质结构宇宙未开发区域中的关键价值。

Yeo, J., Han, Y., Bordin, N., Lau, A. M., Kandathil, S. M., Kim, H., Levy Karin, E., Mirdita, M., Jones, D. T., Orengo, C., Steinegger, M.2026-03-16💻 bioinformatics

BiOS: An Open-Source Framework for the Integration of Heterogeneous Biodiversity Data

本文介绍了 BiOS(生物多样性观测系统),这是一个遵循 FAIR 原则的开源模块化框架,通过解耦后端数据管理与前端展示层,提供 API 和可视化界面,有效整合了从分类学到遗传学等异构生物多样性数据,以解决数据碎片化问题并促进协作保护。

Roldan, A., Duran, T. G., Far, A. J., Capa, M., Arboleda, E., Cancellario, T.2026-03-16💻 bioinformatics

An explanatory benchmark of spatial domain detection reveals key drivers of method performance

该研究通过构建包含 63 个真实组织切片和 1000 多个半合成数据集的综合性基准,系统评估了 26 种空间域检测方法,揭示了数据分辨率和细胞异质性对性能的关键影响,并提出了一个模块化基准框架以指导未来工具的优化与选择。

Descoeudres, A., Prusina, T., Schmidt, N., Do, V. H., Mages, S., Klughammer, J., Matijevic, D., Canzar, S.2026-03-16💻 bioinformatics

High-Fidelity Long-term Whole-embryo Lineage and Fate Reconstruction by Iterative Tracking with Error Correction

本文提出了一种名为 ITEC 的全无监督迭代追踪与纠错方法,能够以超过 99.7% 的精度从海量数据中自动重建跨物种(如斑马鱼、小鼠和果蝇)胚胎的完整细胞谱系与命运图谱,从而为解析发育动力学提供了强有力的平台。

Wang, M., Zhang, Q., Wang, C., Chi, Y., Zheng, W., Mu, Z., Cao, X., Zhang, W., Yang, B., Schier, A. F., Acedo, J. N., Wan, Y., Yu, G.2026-03-16💻 bioinformatics

Integrative modeling of read depth and B-allele frequency improves single-cell copy number calling from targeted DNA sequencing panels

本研究开发了名为 scPloidyR 的隐马尔可夫模型,通过联合建模 Tapestri 单细胞靶向测序中的读段深度和 B 等位基因频率信号,显著提升了拷贝数变异的检测精度,并证明了在具备等位基因信息时该方法优于仅依赖深度的现有工具,而在缺乏该信息时深度单一模型则更为适用。

Pei, D., Griffard-Smith, R., Cano Urrego, B., Schueddig, E.2026-03-16💻 bioinformatics