bioinformatics 篇论文

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

本文提出了一种名为 DeepEST 的多模态深度学习框架，通过整合基因表达、基因位置及蛋白质结构信息，显著提升了细菌蛋白质功能预测的准确性，并有效填补了未分类假设蛋白的功能注释空白。

该研究通过理论推导与基于爱沙尼亚生物样本库的模拟分析，揭示了在忽略基因互作（上位效应）的情况下使用线性模型进行全基因组关联分析（GWAS）会导致检验统计量出现偏差，从而在真实参数设置下产生虚假显著性信号，提示在解读现有文献时需对此保持警惕。

本文介绍了 STELAR-X，一种基于三元组的统计一致物种树推断算法，它通过重构数据结构和利用 GPU 并行计算，将内存复杂度优化至 O(nk)，从而实现了在 10 万物种或 10 万个基因的大规模数据集上高效、低内存的物种树重建，显著超越了现有方法（如 ASTRAL-MP）的扩展性极限。

本文介绍了首个在训练数据、模型规模及推理预算严格对标 AlphaFold3 的前提下实现更优性能且完全开源的 Protenix-v1 模型，该模型不仅具备推理时扩展性、模板整合及 RNA 支持等关键能力，还发布了基于更新数据的增强版本并提出了更可靠的评估基准，为生物分子结构预测领域奠定了坚实基础。

这项研究通过对配对口腔临床样本的分析，揭示了宿主炎症环境通过重塑微生物代谢和群落结构，驱动口腔微生物组从共生状态向适应炎症的致病菌群转变的生态机制。

该研究通过模拟实验系统解耦了不完全谱系分选（ILS）与基因树估计误差（GTEE）对物种树推断的影响，发现即使在整体分歧度相当的情况下，GTEE 对推断准确性的负面影响通常强于 ILS，且两者在基因树分布结构上表现出截然不同的特征。

本文介绍了 Folddisco，一种基于位置无关几何特征索引和稀有度评分系统的工具，能够以比现有方法快 20 倍且存储效率高 4 倍的速度，在数秒内从包含 5300 万种结构的庞大数据库中高效搜索蛋白质结构模体。

本文提出了一种直接从序列数据推导共线性区块的通用形式化框架，通过定义不跨越断点的区块来避免掩盖真实变异，并证明了在特定约束下存在能同时最小化区块总长度和数量的线性时间算法。

ProteoMapper 是一个无需编程的集成计算框架，它通过结合 HMMER 结构域注释与用户自定义基序检测，量化基序 - 结构域的空间关系并评估其进化保守性，从而为解析蛋白质功能、疾病突变及亚功能化机制提供高效工具。

本文提出了一种结合分位数回归与特征选择的稀疏贝叶斯神经网络框架（Q-FSNet 和 Q-DirichNet），利用加拿大纵向衰老研究数据识别出 25 种具有特定稳态范围、能最小化生物学年龄加速的代谢物，从而为精准医学中的生理“甜蜜点”发现提供了可扩展且可解释的新工具。