bioinformatics 篇论文

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

该研究提出了名为 ProtGenesis 的统一框架，揭示了从氨基酸缩合到功能性蛋白质涌现的确定性物理过程，通过三大普适原则和新型空间度量，阐明了蛋白质结构生成的层级组织规律，并为解读深度学习模型及生命分子蓝图的设计奠定了可解释的数学基础。

本研究提出了一种名为 SPrOUT 的计算与靶向测序方法，利用 Angiosperms353 基因集和 HybPiper 组装流程，实现了对混合植物样本中被子植物物种的高精度鉴定。

该研究构建了首个包含超过 1800 万张谱图的全面顶向下质谱谱库 TopRepo，不仅实现了跨数据集的蛋白质组特征分析，还显著提升了蛋白质组鉴定精度并支持了深度学习模型的训练。

本文提出了 CellAwareGNN，一种将单细胞基因组数据整合到增强版生物医学知识图谱（scPrimeKG）中的图基础模型，通过引入细胞类型特异性上下文显著提升了药物适应症预测的准确性与生物学可解释性，特别是在自身免疫疾病领域表现优异。

这项泛癌研究通过跨平台外部验证证明，利用机器学习模型仅基于肿瘤微环境细胞组成特征即可从高维转录组数据中准确推断多种癌症驱动基因突变状态。

MetaTracer 是一款基于核苷酸比对的高分辨率框架，能够单次运行将宏转录组测序读段同时分配至特定微生物物种和表达基因，从而在保持物种级分辨率的同时实现基因表达与物种的精准关联。

本文介绍了 GlycoForge，这是一个开源的 Python 工具包，能够通过基于狄利克雷分布的完全合成数据或基于真实数据的模板化模拟，生成具有已知真实值、可控效应（如基序水平变化）及真实缺失模式且符合成分数据封闭性的糖组学数据，从而为糖组学分析方法的严格基准测试提供解决方案。

该研究通过组装埃塞俄比亚重要作物假香蕉（Ensete ventricosum）品种 Mazia 的高质量基因组，揭示了其约 25% 的基因组为香蕉特有，并鉴定了与适应性及产量相关的关键基因，从而为假香蕉的分子育种奠定了重要基础。

该论文提出了一种名为 HMOTP 的新型机器学习框架，通过结合领域知识构建分层特征、多尺度注意力机制以及基于迁移学习的患者特异性轨迹预测，有效解决了小样本纵向多组学数据整合与预测的难题，并在粪菌移植治疗复发性艰难梭菌感染的研究中实现了高精度预测与可解释的生物标志物发现。

本研究提出了一种可解释的时间分辨逆建模框架，通过分层处理 RNA 测序与细胞染色核形态数据，成功建立了低剂量辐射暴露下随时间变化的转录组响应与核形态特征之间的关联。