bioinformatics 篇论文

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

GlyComboCLI 是一款灵活且开源的命令行工具，可自动化质谱数据的聚糖组成分配，从而支持符合 FAIR 原则、可扩展的生物信息学工作流，在显著减少人工解读的同时确保结果的可重复性。

该论文介绍了 geneML，这是一种快速且开源的深度学习工具，与 BRAKER3 和 AUGUSTUS 等现有方法相比，它能显著提高跨多种真菌基因组的基因及可变转录本预测的准确性、灵敏度和生物学完整性。

本文介绍了 NMFBatch，这是一个统一的统计框架，能够同时校正大规模及单细胞质谱蛋白质组学中的离散批次效应和连续信号漂移，并直接处理缺失值，从而在保留生物结构的同时，相较于现有方法减少信息丢失。

ParaDISM 是一个开源流程，它通过利用多序列比对来识别可消除歧义的位置并迭代优化参考序列，从而在高度同源基因组区域中提高短读段比对和变异检测的精度，与标准比对工具相比，显著减少了比对错误伪影和假阳性变异调用。

zFISHer 是一款基于 napari 的开源应用程序，可自动化对连续多重荧光原位杂交（FISH）数据进行三维配准、检测和共定位分析，同时提供交互式人工校正工具，以克服手动分析中劳动密集型的瓶颈。

OmniCellAgent 是一个多智能体人工智能框架，能够自主检索并整合多样化的单细胞 RNA 测序数据集与生物医学先验知识，从而为非计算背景的研究人员生成基于证据的假设，并加速由组学驱动的科学研究发现。

本研究通过基于超过 10 万条流感序列构建系统发育树，估算了病毒蛋白质组中位点特异性的中性突变率与适应度效应，揭示了突变类型间的显著差异、与 SARS-CoV-2 和 HIV 之间强烈的跨病毒相关性，并提供了一个全面且可交互的资源，以阐明突变与选择如何在自然界中塑造流感的进化。

作者开发了 CharacTERT，这是一种机器学习工具，它整合序列和结构特征以准确分类与端粒生物学疾病相关的 hTERT 错义变异，其性能优于现有预测工具，并通过一个免费可访问的 Web 服务器提供全面的突变图谱。

本文介绍了Shiny AMMOA，这是一个用户友好且交互式的R Shiny平台，它通过使实验研究人员能够在无需高级计算技能的情况下，从统一的转录组、蛋白质组和代谢组数据集中探索、可视化并生成假设，从而推动了小鼠衰老整合多组学分析的普及。

ExplainBind 是一种新颖的无结构人工智能框架，能够预测蛋白质 - 配体结合的可能性、精确定位特定的结合残基并解析非共价相互作用模式，从而为药物研发提供机制性见解，其在多种靶点上均优于现有的黑盒模型，并成功识别出具有不同功能机制的抑制剂和激活剂。