bioinformatics 篇论文

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

本文介绍了开源工具 Pioneer 和 Altimeter，它们通过显式建模窄隔离窗效应（如碎片同位素效应）和实现快速谱图中心分析，显著提升了数据非依赖性采集（DIA）蛋白质组学数据在大规模场景下的鉴定置信度、定量精度及分析速度。

本文介绍了 edgePython，这是一个将广泛使用的 R 语言 edgeR 包移植到 Python 生态系统的工具，旨在解决单细胞基因组学分析中的集成限制，并新增了适用于多受试者分析的负二项 - 伽马混合模型及细胞水平离散度的经验贝叶斯收缩功能。

本文提出了 CellDyc 这一半监督学习框架，通过利用实验时间点指导转录组速度推断，有效解决了单细胞轨迹重建中实验时间与局部动态难以兼顾的难题，并在发育、疾病及重编程等多种生物学场景中展现出优越性能。

该研究开发并验证了一种基于靶向测序数据的复合突变特征，用于识别由 ERCC2 突变引起的核苷酸切除修复缺陷，发现该特征不仅能预测膀胱癌患者对铂类新辅助治疗的反应及生存获益，还可推广至其他携带 ERCC2 突变的实体瘤以指导靶向治疗。

本文介绍了无需分子标签（UMI）的纳米孔测序生物信息学流程 NanoHIVSeq，该流程通过多步聚类、一致性修正和去噪等策略，能够从高错误率的牛津纳米孔（ONT）数据中高效、准确地恢复全长 HIV-1 包膜（Env）基因变异，为大规模队列研究提供了简化且可靠的解决方案。

该研究通过分子嵌入微调和大语言模型提示工程，在多个数据集上评估了通用及化学专用模型预测反义寡核苷酸疗效的能力，发现结合目标基因信息的 DNA 序列输入配合少样本提示（如 GPT-3.5-Turbo）取得了最佳预测效果。

本文提出了一种基于机器学习（KNN、决策树回归和随机森林回归）的方法，用于从超高分辨率质谱数据中自动分配复杂混合物（如溶解有机质）的分子式，并通过基准测试证明其相比传统方法能显著增加公式分配数量并提高准确性，同时公开了相关数据集与代码以推动该领域发展。

bioinformatics