bioinformatics 篇论文

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

本文介绍了 snputils，这是一个旨在解决现有工具格式不兼容和计算效率低下问题的高性能 Python 库，它通过统一处理基因型、祖先和表型数据，为生物样本库规模的研究提供了高效、可扩展且可重复的基因组分析与可视化框架。

该研究系统评估了多种 Nanopore 长读长测序数据中的串联重复基因分型工具，发现单一工具无法在所有指标上表现最优，且仅靠长度准确性会高估性能，因此强调序列级基准测试对于临床诊断和群体研究工具选择的重要性。

本文提出了 scUnify，这是一个统一的零样本推理框架，旨在通过模块化设计、分布式多 GPU 执行策略及标准化评估指标，解决单细胞基础模型在实际应用中因环境隔离、预处理差异及扩展性受限而导致的部署与比较难题。

该研究评估了结合自监督预训练与度量元学习的 STUNT 框架在微生物组疾病分类中的表现，发现其仅在极端数据稀缺（每类仅 1 个样本）时提供微弱优势，随着样本增加其表现反而下降，表明元学习表征可能限制了任务特异性信号的获取，而疾病与队列间的固有生物学信号强度才是分类成功的关键决定因素。

本文介绍了 DartUniFrac，这是一种结合加权 Jaccard 相似性与草图算法、并借助 GPU 加速实现比现有技术快三个数量级的新算法，能够高效处理百万级样本和十亿级分类单元的大规模微生物组分析，且其结果与精确 UniFrac 方法在统计上无显著差异。

本文介绍了 RankMap，一种基于基因表达排序的高效 R 语言工具，它通过利用高表达基因的秩次信息并结合弹性网络正则化模型，实现了在单细胞和空间转录组数据中快速、稳健且可扩展的细胞类型注释。

该研究提出了一种结合转录组校正方法与深度表示学习的框架，通过利用多模态基础模型将细胞投影到共享嵌入空间，成功实现了跨样本、跨模态（形态、转录组及空间信息）的空间转录组数据对齐，显著优于传统批次校正方法并促进了保守细胞程序与空间生态位的发现。

该研究通过大规模基准测试发现，尽管 AlphaFold3 等先进 AI 方法能生成几何结构合理的抗体 - 抗原复合物，但其内部置信度评分无法有效区分正确的特异性结合与错误的非特异性配对，表明这些评分缺乏结合特异性的校准，需引入真实负样本进行验证。

该研究通过在 scGPT、scFoundation 和 Geneformer 等单细胞基础模型的隐藏表示上训练稀疏自编码器，揭示了模型内部可解释的生物与技术特征，并证明了利用这些特征进行干预可有效消除技术噪声并保留核心生物信号，从而为提升单细胞基础模型的可解释性与可控性提供了新路径。

本文提出了首个考虑转录因子异构体作为独立调控因子的基因调控网络推断流程 AlterNet，该方法通过整合可变剪接信息，在心脏组织数据中成功揭示了传统基因水平方法无法检测到的关键转录本级调控相互作用。