bioinformatics 篇论文

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

本研究表明，急性禁食会通过免疫细胞的重新分布，诱导特定表观遗传钟（特别是基于主成分和系统年龄变体）发生微小的系统性偏移，而死亡率训练钟则保持稳定，这凸显了时钟的可靠性具有上下文依赖性，且需要进行超越标准组内相关系数（ICC）指标的针对扰动特异性的评估。

该论文介绍了 CLASPP，这是一个用于预测多种翻译后修饰的统一模型，它通过对比学习、分层数据策展和多阶段训练策略来克服数据不平衡挑战，从而提高在各种生物体中的预测准确性。

BacteReason 是一种经过微调的大型语言模型，它通过利用基于知识驱动的教师模型来预测细菌的抗生素敏感性并提供机制性原理，从而在预测准确度上较基准方法有了显著提升。

本文介绍了 GLOF，这是一个大规模、经专家策划的基准数据集，包含近 3,000 个人类基因中的 112,000 多个错义变异，并将变异分类为功能增益、功能缺失或中性，以促进用于预测变异机制的计算方法的设计与评估。

VelocityFM 是一种新颖的短时程蛋白质轨迹预测器，它利用速度空间中的修正流匹配（rectified flow matching）技术，为未见的蛋白质生成几何有效、无碰撞且保持折叠结构的动态构象，实现了极高的结构准确度，其中值 TM-score 达到 0.929。

本文介绍了 GLEAM，这是一个基于 Galaxy 工作台构建的、基于 Web 且无需编写代码的软件工具包，旨在使生物医学研究人员能够针对多种数据类型进行严谨、可重复且易于实现的监督式机器学习分析，同时遵循最佳实践。

本文提出了一种可扩展的、经 GPU 加速的泛基因组构建方法，该方法利用蛋白质语言模型嵌入和先进聚类技术，在生成功能连贯且特异的蛋白质簇方面超越了 SCARAP 等现有工具，尤其是在经过实验验证的数据集上。

Ontologizer 3 是一款免费提供的跨平台桌面应用程序，通过提供频率学派和贝叶斯方法来促进基因本体富集分析，其中后者通过考虑层级结构的基因集重叠，在识别因果术语方面展现出更高的精确度。

作者开发了一种名为“OCTOPUS”的基于 UNet 的开源自动化分割工具，该工具在检测小鼠 OCT 扫描中的视网膜发育不良方面实现了高准确度，从而简化了临床前筛选并使各实验室间的评估标准化。

本文提出了一种无需训练的集成方法，该方法将 ProteinMPNN 与抗体特异性语言模型 IgLM 相结合，以显著提高抗体逆折叠中的氨基酸恢复率和序列多样性，有效地弥合了通用结构模型与专业化抗体设计之间的差距。