bioinformatics 篇论文

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

该研究提出了名为 BulkMonSTR 的计算框架，通过结合 STR 特异性误差建模与机器学习分类，实现了从批量测序数据中高精度检测体细胞嵌合短串联重复序列突变，显著优于现有方法并为研究衰老和疾病中的 STR 突变贡献提供了可扩展的基础。

该论文提出了一种基于蛋白质语言模型微调的度量学习框架，仅利用序列信息即可实现可解释、数据高效且高精度的蛋白质 - 蛋白质结合亲和力预测，其性能在多个基准测试中超越了依赖三维结构的现有方法。

IMMREP25 竞赛结果显示，通过整合结构建模方法，预测模型在针对无实验数据支持的“未见”肽段时取得了显著优于随机猜测的预测性能（宏观 AUC_0.1 达 0.60），标志着 TCR:pMHC 相互作用预测领域的重要进展。

该研究提出了名为 scRitmo 的概率框架，能够从单细胞转录组数据中推断 circadian 相位并量化生物去同步化，有效区分了生物学相位变异与技术噪声，从而在多种组织和物种中实现了对 circadian 同步性的精准评估。

该研究通过整合配体与基于结构的虚拟筛选策略，成功识别出包括具有双重 GLP-1R/GIPR 激动活性的五肽 DPDPE 在内的多种 GLP-1R 激动剂候选分子，建立了一套适用于构象灵活 GPCR 靶点的共识驱动药物发现框架。

该研究通过系统基准测试证明，基于人类泛基因组参考序列进行体细胞单核苷酸变异检测，不仅能显著提升检测精度并减少计算成本，还能有效降低因参考基因组偏差导致的祖先相关差异，尤其使东亚裔个体的检测准确率平均提升了 20%。

本文介绍了 emb2dis，这是一种结合蛋白质语言模型、残差网络与空洞卷积的新型深度学习工具，在 CAID3 盲测中表现优异，能够高效预测蛋白质序列中每个残基的无序倾向。

本文介绍了一种名为 VicMAG 的开源工具，该工具利用 PacBio HiFi 长读长测序数据，能够直观展示包含毒力因子、抗生素耐药基因及移动遗传元件注释的复杂环状宏基因组组装基因组（cMAGs），从而促进对细菌毒力与耐药性传播的全面监测。

本文介绍了一种名为 Baktfold 的新型命令行工具，该工具利用 ProstT5 语言模型和 Foldseek 结构搜索技术，实现了跨微生物生命之树的高灵敏度、快速且与分类群无关的蛋白质功能注释，显著提升了细菌和古菌中假设蛋白的注释率。

该论文介绍了 PSALM，一种结合预训练蛋白质语言模型（ESM-2）、残级域状态分类器和结构化概率解码器的蛋白质结构域注释方法，其在大规模基准测试中展现出与 HMMER 相当的灵敏度与特异性权衡，并能在宽松阈值下提供更高的序列覆盖度。