bioinformatics 篇论文 | Gist.Science

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

ITSxRust: ITS region extraction with partial-chain recovery and structured diagnostics for long-read amplicon sequencing

本文介绍了名为 ITSxRust 的基于 Rust 的长读长真菌 ITS 区域提取工具，它通过结合 HMMER 搜索、去重优化及双锚点部分链恢复策略，在提取成功率（75.3%）和运行速度（比 ITSx 快 4.6 倍）上均显著优于现有工具 ITSx 和 ITSxpress，并提供了结构化的诊断与质控功能。

O'Brien, A., Lagos, C., Fernandez, K., Parada, P.2026-02-26💻 bioinformatics

POTTR: Identifying Recurrent Trajectories in Evolutionary and Developmental Processes using Posets

本文提出了名为 POTTR 的新框架，利用不完全偏序集（posets）和冲突图算法来解决 NP 难的 MkCIIS 问题，从而在肿瘤进化与发育生物学数据中有效识别并解析出具有统计显著性的复发轨迹，克服了传统方法在处理异质性和进化树不确定性方面的局限。

Käufler, S. C., Schmidt, H., Jürgens, M., Klau, G. W., Sashittal, P., Raphael, B.2026-02-26💻 bioinformatics

MaxGeomHash: An Algorithm for Variable-Size Random Sampling of Distinct Elements

本文提出了一种名为 MaxGeomHash 的新型算法，该算法能够在无需预先知道 k-mer 总数的情况下，生成大小介于常数级 MinHash 与线性级 FracMinHash 之间的可变大小随机样本，从而在生物信息学的大规模序列相似性分析中实现了存储效率与估计精度的更好平衡。

Hera, M. R., Koslicki, D., Martinez, C.2026-02-25💻 bioinformatics

PMGen: From Peptide-MHC Structure Prediction to Peptide Generation

本文介绍了 PMGen 框架，该框架通过引入初始猜测和模板工程策略优化 AlphaFold2，实现了跨 MHC I 类和 II 类的高精度变长肽-MHC 复合物结构预测，并成功将其应用于结构感知肽设计及生成高质量数据以训练机器学习模型。

Asgary, A. H., Aleyasin, A., Mehl, J. A., Fallah, S., Aintablian, H., Ludewig, B., Mishto, M., Liepe, J., Soeding, J.2026-02-25💻 bioinformatics

PaNDA: Efficient Optimization of Phylogenetic Diversity in Networks

本文介绍了首个用于在系统发育网络中探索、可视化及最大化多样性的软件包 PaNDA，该工具不仅提出了针对有界扫描宽度的多项式时间算法以高效解决 k 个分类群最大多样性选择问题，还扩展了半定向网络的多样性定义并证明了其计算复杂性。

Holtgrefe, N., van Iersel, L., Meuwese, R., Murakami, Y., Schestag, J.2026-02-25💻 bioinformatics

Protein Compositional Ratio Representation (PCRR)Systematically Improves Human Disease Prediction

该研究提出并验证了蛋白质组成比率表示（PCRR）方法，通过利用蛋白质间的对数比率而非绝对丰度作为特征，显著提升了阿尔茨海默病亚型分类及多种人类疾病预测的准确性，揭示了相对蛋白丰度在捕捉疾病生物学机制中的关键作用。

Madduri, A. V., Ellis, R. J., Patel, C. J.2026-02-25💻 bioinformatics

KuPID: Kmer-based Upstream Preprocessing of Long Reads forIsoform Discovery

本文介绍了 KuPID，一种利用 k-mer 草图技术对长读长 RNA-seq 数据进行上游预处理的方法，旨在通过快速伪比对过滤无关读段，从而在将运行时间缩短 2-3 倍的同时，将异构体发现流程的 F1 准确率最高提升 16.7 个百分点。

Borowiak, M., Yu, Y. W.2026-02-25💻 bioinformatics

GaugeFixer: overcoming parameter non-identifiability in models of sequence-function relationships

本文介绍了 GaugeFixer，这是一个 Python 软件包，通过利用数学结构将计算复杂度从二次降低到线性，从而高效解决了序列 - 功能关系模型中因参数非唯一性（规范自由度）导致的解释难题，并成功应用于分析数百万参数的翻译起始适应度景观。

Marti-Gomez, C., McCandlish, D. M., Kinney, J. B.2026-02-25💻 bioinformatics

Generating Structurally Diverse Therapeutic Peptides with GFlowNet

该论文提出利用 GFlowNet 进行治疗性肽生成，通过按比例采样奖励而非最大化期望奖励，在无需显式多样性惩罚的情况下实现了比 GRPO 更均匀且抗崩溃的序列多样性。

Wijaya, E.2026-02-25💻 bioinformatics

Distilling Protein Language Models with Complementary Regularizers

该论文提出了一种结合不确定性感知位置加权与校准感知标签平滑的互补正则化方法，成功将大型蛋白质语言模型蒸馏为轻量级学生模型，在显著提升推理速度、降低显存需求的同时，克服了单一正则化技术的局限，使其在稀缺数据场景下展现出比教师模型更优越的领域适应能力和生成质量。

Wijaya, E.2026-02-25💻 bioinformatics

← 上一页下一页 →