bioinformatics 篇论文 | Gist.Science

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

A Permutation-Based Framework for Evaluating Bias in Microbiome Differential Abundance Analysis

该研究通过置换策略评估发现，尽管负二项分布模型（如 DESeq2、edgeR）易产生假阳性而成分校正方法（如 ALDEx2、ANCOM-BC2）易产生保守结果，但传统的 t 检验和 Wilcoxon 检验在零假设下表现出更稳健的 p 值分布，提示在微生物组差异丰度分析中需谨慎选择统计方法。

Zeng, K., Fodor, A. A.2026-03-18💻 bioinformatics

Ryder: Epigenome normalization using a two-tier model and internal reference regions

Ryder 是一个灵活的 Python 软件包，它通过利用稳定的内部参考区域（如不变 CTCF 结合位点）构建双层模型，有效校正多种表观基因组测序数据中的技术变异，从而提升跨样本比较的准确性并增强对真实生物学信号的检测能力。

Cao, Y., Ge, G., Zhao, K.2026-03-18💻 bioinformatics

Hierarchical genomic feature annotation with variable-length queries

本文提出了 HKS，一种基于谱 Burrows-Wheeler 变换（SBWT）的数据结构，它通过单一索引支持可变长度 k-mer 的精确分层注释，利用层次感知平滑算法解决多匹配和 novel k-mer 问题，从而在人类基因组特征分配中实现了比现有工具（如 Kraken2）更高的准确性和特异性。

Alanko, J. N., Ranallo-Benavidez, T. R., Barthel, F. P., Puglisi, S. J., Marchet, C.2026-03-18💻 bioinformatics

HARVEST: Unlocking the Dark Bioactivity Data of Pharmaceutical Patents via Agentic AI

本文介绍了 HARVEST 系统，这是一种利用多智能体大语言模型从美国专利局档案中自动提取并结构化海量“暗”生物活性数据的管道，该系统在极低成本和时间内构建了包含数百万条记录及大量新靶点与骨架的数据库，并揭示了现有模型在泛化能力上的根本局限。

Shepard, V., Musin, A., Chebykina, K., Zeninskaya, N. A., Mistryukova, L., Avchaciov, K., Fedichev, P. O.2026-03-18💻 bioinformatics

PREMISE: A Quality-Aware Probabilistic Framework for Pathogen Resolution and Source Assignment in Viral mNGS

本文介绍了一种名为 PREMISE 的基于 Rust 构建的概率框架，该框架通过整合质量感知的期望最大化算法与高效比对技术，克服了传统 k-mer 方法丢失关键信息的缺陷，从而在病毒宏基因组测序中实现了对流感病毒等病原体的高分辨率鉴定、来源分配及混合感染检测。

Vijendran, S., Dorman, K., Anderson, T. K., Eulenstein, O.2026-03-18💻 bioinformatics

Sex Checking by Zygosity Distributions

本文提出了一种名为 Zigo 的新型机器学习方法，该方法仅需标准 VCF 文件即可通过分析 X 染色体基因型分布来自动推断性别，无需参考数据或手动阈值调整，并在多种数据模态和不同数据集上展现了高精度与强泛化能力。

Molina-Sedano, O., Mas Montserrat, D., Ioannidis, A. G.2026-03-18💻 bioinformatics

Interpolating and Extrapolating Node Counts in Colored Compacted de Bruijn Graphs for Pangenome Diversity

本文提出了一种针对彩色压缩 de Bruijn 图的新方法，通过结合插值与外推技术来校正基因组数量差异，并利用 Hill 数指数对稀有和常见节点进行加权，从而实现对泛基因组多样性的有效比较。

Parmigiani, L., Peterlongo, P.2026-03-18💻 bioinformatics

SpeciefAI: Multi-species mRNA-level Antibody Framework Generation using Transformers

该论文提出了 SpeciefAI，一种基于 Transformer 的多物种模型，能够直接在 mRNA 空间生成针对特定物种（如人和犬）优化的抗体框架序列，从而在满足宿主高效表达需求的同时最小化免疫原性。

Grabarczyk, D., Kocikowski, M., Parys, M., Cohen, S. B., Alfaro, J. A.2026-03-18💻 bioinformatics

Homology-based perspective on pangenome graphs

本文通过引入由泛基因组图诱导的同源关系概念，提出了用于比较不同图模型及定义其相互转换性质的同源度量标准，并开发了相应的转换算法及工具包 WGAtools。

Lisiecka, A., Kowalewska, A., Dojer, N.2026-03-18💻 bioinformatics

New Space-Time Tradeoffs for Subset Rank and k-mer Lookup

本文设计了空间占用小于每 k-mer 3 比特的更快子集秩数据结构，从而在低内存区间实现了帕累托最优的 SBWT 基 k-mer 查找结构。

Diseth, A. C., Puglisi, S. J.2026-03-18💻 bioinformatics

← 上一页下一页 →