bioinformatics 篇论文

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

本文介绍了 Odon，一款基于 Rust 构建的高性能本地桌面查看器，它利用 OME-Zarr 格式和 GPU 加速渲染技术，实现了在普通笔记本电脑上对大规模空间蛋白质组学数据的亚秒级加载、流畅交互及高效可视化分析。

该论文提出了一种基于蛋白质语言模型微调的度量学习框架，仅利用序列信息即可实现可解释、数据高效且高精度的蛋白质 - 蛋白质结合亲和力预测，其性能在多个基准测试中超越了依赖三维结构的现有方法。

本研究开发了一种基于转录组的细胞类型鉴定方法，通过整合单细胞参考数据与批量 RNA-seq 数据，利用 Spearman 相关性和 TabPFN 模型准确评估肾脏细胞系与原生细胞类型的相似性，并推出了配套工具 CellMatchR 以辅助研究人员优化模型选择并提升实验结果的可靠性。

IMMREP25 竞赛结果显示，通过整合结构建模方法，预测模型在针对无实验数据支持的“未见”肽段时取得了显著优于随机猜测的预测性能（宏观 AUC_0.1 达 0.60），标志着 TCR:pMHC 相互作用预测领域的重要进展。

该研究提出了名为 scRitmo 的概率框架，能够从单细胞转录组数据中推断 circadian 相位并量化生物去同步化，有效区分了生物学相位变异与技术噪声，从而在多种组织和物种中实现了对 circadian 同步性的精准评估。

该研究通过整合配体与基于结构的虚拟筛选策略，成功识别出包括具有双重 GLP-1R/GIPR 激动活性的五肽 DPDPE 在内的多种 GLP-1R 激动剂候选分子，建立了一套适用于构象灵活 GPCR 靶点的共识驱动药物发现框架。

该研究通过系统基准测试证明，基于人类泛基因组参考序列进行体细胞单核苷酸变异检测，不仅能显著提升检测精度并减少计算成本，还能有效降低因参考基因组偏差导致的祖先相关差异，尤其使东亚裔个体的检测准确率平均提升了 20%。

本文介绍了 itBins，这是一款基于规则的全自动 Python 软件，能够利用 GC 含量、覆盖度和分类学信息超快速且高精度地优化宏基因组分箱（MAGs），其性能优于现有自动工具且媲美人工优化，同时还能通过标记基因评估分箱成功率。

该论文介绍了名为 ECLIPSE 的计算框架，通过构建蛋白质宇宙序列相似性网络，系统性地识别并优先排序了包括铜绿假单胞菌在内的 ESKAPE 病原体中功能未表征的“暗”蛋白质家族，从而为发现新型抗菌药物靶点提供了重要线索。

该研究开发了一种名为 MaxToki 的时序人工智能模型，该模型利用近 1 万亿个基因令牌训练，能够预测人类衰老过程中的细胞状态轨迹，并通过实验验证了其发现的新型抗衰老靶点。