bioinformatics 篇论文

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

本文提出了一种名为 OT-knn 的邻域感知最优运输框架，通过整合局部空间邻域信息来增强基因表达表征的鲁棒性，从而有效解决了空间转录组数据在跨切片、跨个体及跨发育阶段对齐中面临的稀疏性、异质性和几何形变等挑战。

本文介绍了 wavess 1.2 框架，该框架通过引入 HLA 特异性细胞毒性 T 淋巴细胞（CTL）反应和可变重组率机制，显著提升了模拟宿主内病毒序列进化及免疫选择压力的能力。

本研究通过大规模文献分析首次系统评估了化学探针在药物发现中的价值，发现其不仅能比现有知识库提前 1-7 年提供靶点证据，还揭示了数百个未被记录的新靶点 - 疾病关联，从而显著推动了早期治疗靶点的优先排序与药物重定位。

该研究通过利用基于 SHAP 的模型解释工具，揭示了在生物医学图像小样本数据中，机器学习模型容易因过拟合个体特征而非学习真实生物学规律，并证明了通过调整任务目标与数据特性相匹配，结合事后解释分析，不仅能识别偏差，还能从有限数据中提取有价值的生物学洞察。

该研究提出了一种整合无监督聚类、有监督分类及新型方向性非负矩阵分解（dNMF）模型的多模态框架，证实了全基因组短串联重复序列（STR）变异在解析人类群体结构方面比单核苷酸多态性（SNP）具有更高分辨率，并能提供基于突变动力学的可解释性人口历史洞察。

ProteinConformers 是一个大规模资源库，通过多种子分子动力学策略生成了 270 万个经过几何优化的蛋白质构象，并辅以能量评估和相似性注释，旨在解决现有资源在构象覆盖度、能量标注及基准测试标准方面的不足，从而为蛋白质动力学、变构效应及药物发现提供连续的能量景观描述和分析平台。

该研究利用多组学数据明确了肺血管周细胞特异性表达 AGTR1 受体，揭示了其在维持肺泡微血管稳态中的关键作用，并发现其信号通路失调与肺气肿等肺部疾病及衰老密切相关，为相关治疗提供了新的细胞特异性靶点。

本文通过构建模拟与真实数据泛基因组图谱，揭示了现有主流流程在识别和表示倒置变异时存在显著差异，并提出了两种倒置气泡拓扑结构及相应的注释工具，指出了当前泛基因组方法在处理倒置变异方面面临的重大挑战。

本研究评估了 DNABERT-2、AgroNT 和 HyenaDNA 三种 DNA 基础模型在植物转录因子结合位点预测中的表现，发现 HyenaDNA 在准确性和计算效率上均优于传统方法，展现了其在植物基因组大规模预测中的巨大潜力。

该研究通过一系列实验表明，空间转录组数据中的稀疏性、噪声以及图像分辨率降低等质量问题会显著削弱基于深度学习的组织学图像基因表达预测性能，且现有的补救措施效果有限，因此强调在优化模型架构之外，提升数据质量是改善预测建模的关键策略。