bioinformatics 篇论文

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

💻 bioinformatics

Hierarchical classification of immune cell transcriptomes at population-scale

本文介绍了独立专家注释资源 Suco 以及层级分类器 Compocyte，旨在建立一个稳健的框架，该框架成功分类了来自近 4,000 名患者的 1,560 万个免疫细胞，揭示了新的免疫表型并推进了人群规模的免疫学研究。

Beltz, C., Qiu, Z., Sadowski, L., Kraske, J. A., Aggarwal, A., Quintanal-Villalonga, A., Manoj, P., Littbarski, A., Baja (…)2026-06-21

💻 bioinformatics

Antibody-Antigen Affinity Prediction with Chain-Aware Protein Language Modeling

本文介绍了 AbAffinity，这是一种轻量级的、仅基于序列的深度学习模型，它利用一种链感知的三流架构来准确预测抗体-抗原亲和力，通过保留独特的重链、轻链和抗原表示，从而在缺乏结构数据的情况下优于现有方法。

Singh, H., Malhotra, A., Srivastava, S. P., SINGH, R. K., Gorantla, R.2026-06-21

💻 bioinformatics

The recount3 Python package for programmatic access to uniformly processed RNA-seq data

recount3 Python 软件包提供了一个强大的 API 和 CLI，通过为数以万计经过统一处理的人类和小鼠 RNA-seq 样本提供高效的程序化访问、缓存和分析就绪的数据格式化，从而弥合了大规模公共转录组数据与现代基于 Python 的机器学习生态系统之间的鸿沟。

Alsalihi, A., Flight, R. M., Moseley, H. N. B.2026-06-20

💻 bioinformatics

Ribosomes are covered by a coat of flexible protein fragments

这项研究揭示了所有生命领域的核糖体都拥有一种此前被忽视的、具有重要功能的柔性蛋白质片段（FPFs）涂层，这些片段在标准结构模型中是不可见的，且其具体成分和长度随核糖体类别而变化，以适应不同的膜和组装环境。

McGrath, H., Kvasnovsky, R., Kolar, M.2026-06-20

💻 bioinformatics

Tox21mer, A transformer foundation model for Tox21 high-throughput concentration-response curves data

该论文介绍了 Tox21mer，这是一个拥有 4350 万参数的 Transformer 基础模型，通过对 250 万条 Tox21 浓度-响应曲线进行掩码响应重构进行预训练，能够生成高质量的 768 维嵌入向量，在预测实验结果和 AC50 值方面达到了最先进的性能，同时实现了对未测试化合物的外推。

Li, L., Hwang, J., Shockley, K., Li, Y., Motsinger-Reif, A., Hsieh, J.-H., Auerbach, S. S., Reif, D.2026-06-19

💻 bioinformatics

Children's DNA Methylation and Family Dynamics in a Congo Basin Subsistence Community: Links with Parental Conflict and Fathers' Caregiving

这项研究表明，在刚果盆地的一个自给自足社区中，儿童的 DNA 甲基化模式与父母冲突及父亲的照料行为显著相关，将这些家庭动态与涉及压力、免疫和发育的基因联系起来，从而表明家庭环境的生物学嵌入是一个跨越不同社会生态背景的普遍现象。

Chan, M. H.-M., Merrill, S. S., Zhuang, B. C., Lin, D. T. S., Macisaac, J. L., Miegakanda, V., Lew-Levy, S., Boyette, A. (…)2026-06-19

💻 bioinformatics

MorphoStat: A Statistics-Aware Pipeline for Morphological Profiling Analysis

MorphoStat 是一个开源 Python 流水线，它实现了高内涵成像数据的归一化、分布感知统计检验以及多重假设检验校正的自动化，旨在促进稳健的形态特征分析。

Altobi, A., Heo, D.2026-06-18

💻 bioinformatics

Predicting optimal growth temperatures of bacteria using learned structural information from a single protein

该论文介绍了 ROSEATE，这是一个创新的框架，它通过利用源自单一普遍存在蛋白质——腺苷酸激酶的 MSA Transformer 衍生结构特征，能够准确预测细菌的最适生长温度，从而实现跨越不同环境的稳健、具有系统发育泛化性且可在群落层面进行的热推断。

Hoffert, M., Myerscough, D., Dragone, N. B., Gebert, M. J., Silberg, J. J., Fierer, N.2026-06-18

💻 bioinformatics

MetaHarmonizer: robust biomedical metadata harmonization and a contamination control for inflated LLM performance on public benchmarks

MetaHarmonizer 是一个稳健、全本地化且确定性的生物医学元数据协调自动化系统，它通过结合多阶段级联与受控词表来防止幻觉和虚高的基准测试性能，在实现模式与本体映射达到最先进准确度的同时，还实现了原则性的真人参与分流。

Li, C., Dahl, A., Gravel-Pucillo, K. D., Long, K., Waters, M., de Bruijin, I., Davis, S., Oh, S.2026-06-17

💻 bioinformatics

VLab4Mic: prediction of structural resolvability in super-resolution microscopy

VLab4Mic 是一个通过模拟探针放置和位阻限制，来预测不同超分辨率显微成像模式下蛋白质复合物结构可分辨性的模拟平台，从而使研究人员能够在进行物理实验之前评估实验的可行性。

Martinez, D., Saraiva, B. M., Shakespeare, T., Bates, M., Owen, D. M., Leterrier, C., Del Rosario, M., Henriques, R.2026-06-16