bioinformatics 篇论文

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

💻 bioinformatics

Selecting Chromosomes for Polygenic Traits: Algorithms and Complexity

本文定义并分析了从多个源基因组中选择基因组区块以优化多基因性状的 NP 完全问题，并提出了一套算法组合——包括一个经过认证的分支定界求解器、一种快速的块坐标下降启发式算法以及一个半正定规划松弛方法——这些算法共同提供了具有理论保证的、在酵母规模模拟实验上经过经验验证的最优或近优解。

Zuk, O.2026-07-05

💻 bioinformatics

GTcomplex: Spatial indexing-powered search and alignment of macromolecular complexes

GTcomplex 是一种基于空间索引的新型算法，它通过直接从最优全局叠加中导出链分配，实现了对大分子复合物准确且高效的整体对齐，在多种结构数据集上的速度和精度方面均优于现有方法。

Margelevicius, M.2026-07-05

💻 bioinformatics

Improving Generalizability in Whole-Cell Antibiotic Discovery Through Active Learning

本研究表明，通过回顾性模拟进行优化并在闭环伯氏体（*Borrelia burgdorferi*）筛选活动中得到验证的校准主动学习策略，显著提高了实验命中率，并使能够训练出能够准确预测分布外化合物抗生素活性的泛化机器学习模型。

Serrano, L. R., Zhou, A., Wei, Z., Stocks, K.-L. K., Ektefaie, Y., Gwynne, P. J., Chen, E., Krieger, I., Sacchettini, J. (…)2026-07-05

💻 bioinformatics

Binary search and set operations on compacted k-mer lists

本文介绍了一种将排序后的 k-mer 表示为虚拟超 k-mer 列表的新方法，该方法在 sklib 工具中实现，与 KMC 等现有工具相比，实现了高吞吐量的集合运算并显著降低了内存使用量，同时保持了具有竞争力的查询性能。

Dufresne, Y., Andreace, F.2026-07-04

💻 bioinformatics

A High-Confidence Atlas of Protein Methylation Enables AI-Driven Detection of Methylated Peptides

通过对公共数据集进行严格的统计控制以建立包含 1,828 个位点的高置信度人类甲基化图谱，作者开发并验证了一种基于迁移学习的深度学习模型（AHLF-Methylation），该模型显著提高了甲基化肽段的检测与定位能力。

Wang, S., Hartmaring, Y., Schlaffner, C. N., Bowler-Barnett, E., Martin, M., Fan, J., Sun, Z., Renard, B. Y., Jones, A. (…)2026-07-04

💻 bioinformatics

VirProtRAG: Literature-grounded viral protein function annotation with retrieval-augmented generation

VirProtRAG 是一个检索增强生成框架，通过整合混合文献检索与基于证据的重排序，来增强病毒蛋白质功能注释，从而产生可验证的高质量功能见解并扩展现有的专家人工策展。

Guan, J., Shang, J., Peng, C., Sun, Y.2026-07-04

💻 bioinformatics

Simulating population pangenomes under coalescent demographic models with MSpangenome

本文介绍了 MSpangenome，这是一个具有谱系感知能力的框架，它通过连接溯祖模拟与泛基因组图构建，生成具有已知进化真值的现实群体泛基因组，从而实现对基于图的基因组学工具的严格基准测试。

Piat, L., Denni, S., Dubois, S., Linard, B., Duvaux, L.2026-07-03

💻 bioinformatics

Evidence for post-allopolyploidy genetic exchanges between duplicated regions in three ancient polyploidies

通过使用 POInT 工具分析基因树不一致性，本研究提供了证据，表明在硬骨鱼类、巴氏变形虫和面包酵母谱系中，涉及多倍化后遗传交换的“晚期”二倍体化过程确实存在，从而挑战了二倍体化总是快速过程的观点。

Dhillon, A. K., Pasagadugula, H., Pitts, I., Rohilla, M., Conant, G. C.2026-07-02

💻 bioinformatics

synpact: accurate, memory-light PacBio HiFi read mapping via a hierarchy of locally-consistent syncmer blocks

本文介绍了一种名为 synpact 的、使用 Rust 编写的内存高效且快速的 PacBio HiFi 读取序列比对工具，它利用由局部一致性 syncmer 块构成的层级结构，在实现与 minimap2 等最先进工具相当的准确度的同时，显著降低了在大规模或重复性基因组上的峰值内存使用量并提高了运行速度。

Aydin, M. S., Sahlin, K.2026-07-02

💻 bioinformatics

Mapping pathogenic patterns in membrane transporters from the GLUT transporter family

本研究利用 AlphaMissense 绘制了 GLUT 转运蛋白家族的致病性模式图，揭示了错义突变在跨膜结构域、孔道衬里残基以及中央腔中最具致病性，而该家族内致病性的差异则表明了功能冗余和生理必需性的影响。

Kadasova, N., Martinat, D., Spackova, A., Hutarova Varekova, I., Berka, K.2026-07-02