bioinformatics 篇论文

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

💻 bioinformatics

Single-Cell Multi-Omics Dissection of Malignant Evolutionary Mechanisms and Construction of a Prognostic Model for Clear Cell Renal Cell Carcinoma

本研究整合了透明细胞肾细胞癌（ccRCC）不同分级中的单细胞 RNA 和 ATAC 测序技术，揭示了表观遗传变化先于代谢和侵袭性转变，同时定义了一个稳健的 CBG 预后特征，并绘制了免疫耗竭和细胞间通讯网络的动态演变图谱。

Liu, R., Shi, Y., Xiao, Y., Ren, B., Li, L., Qi, B., Li, T., Zhang, Y., Gao, J.2026-06-06

💻 bioinformatics

Handshake: Partner-Specific Protein-Protein Binding Site Prediction at Scale Using ProstT5 and Cross-Chain Attention

本文介绍了 Handshake，这是一种仅基于序列的深度学习模型，它利用 ProstT5 和跨链注意力机制来大规模准确预测特定伴侣的蛋白质-蛋白质结合位点，同时也揭示了现有基准测试中训练数据的高序列冗余度会显著虚增性能指标。

Haspel, N.2026-06-06

💻 bioinformatics

Divergent Loop Architecture Shapes Pocket2 Variation in Shark Legumains

本研究确定了一个被称为“Pocket2”的差异化表面环，它是鲨鱼豆蛋白酶中结构与功能变异的关键来源，这与它们高度保守的催化核心形成了鲜明对比，并暗示该区域可作为未来研究物种特异性蛋白酶适应性的目标。

Eijzenga, M., Leibowitz, M., Henley, E. M.2026-06-06

💻 bioinformatics

CryoDiff: An uncertainty-aware diffusion model for Cryo-EM map enhancement

本文介绍了 CryoDiff，这是一种具有不确定性感知能力的扩散模型，它通过联合提升结构分辨率并提供体素级置信度估计，在增强冷冻电镜（cryo-EM）图谱方面优于现有方法，从而显著提升了图谱的可解释性和下游模型构建能力。

Wen, B., He, B., Cheng, Y., Zhou, S., Han, R., Zhang, F.2026-06-06

💻 bioinformatics

Cellpin enables reference-based imputation and denoising of spatial transcriptomes

本文介绍了 cellpin，这是一种仅在单细胞 RNA 测序数据上训练的可扩展变分自编码器，它利用教师-学生潜变量蒸馏和噪声模拟，在不需要跨模态对齐的情况下，有效地填补未测基因并对空间转录组图谱进行去噪。

Putze, P., Lucarelli, D., Wellappili, D., Bahrami, M., Luecken, M. D., Theis, F. J., Saur, D.2026-06-05

💻 bioinformatics

OmniGene-4: A Unified Bio-Language MoE Model with Router-Level Interpretability

OmniGene-4 引入了一种统一的、可由路由解释的混合专家（Mixture-of-Experts）基础模型，该模型展示了持续预训练如何驱动跨任务专业化，以及专家计算如何处理基于序列的生物学推理，在实现蛋白质同源性和通用生物学知识的领域内达到最先进性能的同时，即使在扩展至多模态输入时也显著降低了计算成本。

Wang, L.2026-06-04

💻 bioinformatics

UnBlender: validating individual analyses in respiratory bulk RNA-seq cell type deconvolution

本文介绍了 UnBlender，这是一个旨在使呼吸科学家能够对大块 RNA-seq 数据进行定制化细胞类型解卷积，同时常规验证估计的细胞类型比例的准确性，以确保结论具有可重复性和可靠性的流水线。

Gillett, T. E., van den Berge, M., Nawijn, M. C., Koppelman, G. H.2026-06-04

💻 bioinformatics

An interpretable machine learning framework for dog breed inference and ancestry decomposition

本文提出了一种可解释的机器学习框架，该框架将降维技术与多输出随机森林模型相结合，通过全基因组单核苷酸多态性（SNP）数据准确推断犬种身份与血统，在 Dog Aging Project 数据集上实现了 91.7% 的准确率，同时识别出了与品种特定性状相关的生物学相关遗传位点。

Bian, Y., Bierman, R., Snyder-Mackler, N., Promislow, D., Karlsson, E., Dog Aging Project Consortium,, Akey, J. M.2026-06-04

💻 bioinformatics

ROTS 2.0: A reproducibility-driven framework for robust statistical modeling across diverse high-throughput omics study designs

本文介绍了 ROTS 2.0，这是一个增强型的开源框架，可在 R 和 Python 中使用，它将针对可重复性优化的检验统计量扩展到了多样化的高通量组学研究设计中，包括多组比较和生存分析，以提高复杂实验设置下特征选择的可靠性。

Suomi, T., Kettunen, J., Pusa, T., Elo, L. L.2026-06-03

💻 bioinformatics

SwiftNJ: Fast Exact Neighbour Joining via Correctness-Gated Coding Agents

本文证明，一个以正确性为门控的编码智能体能够显著超越计算系统发育学中既定的 RapidNJ 基线，通过生成 SwiftNJ（一种优化的邻接法实现）来实现这一目标，该实现在保持与参考标准完全正确性的同时，达到了 0.565 的几何平均运行时间比率。

Christensen, J.2026-05-29