bioinformatics 篇论文

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

该研究提出了一种名为 DEFT 的新方法，通过结合蛋白质语言模型预测 EC 号前两级与结构比对预测后两级的策略，显著提高了肠道细菌粘蛋白 O-糖苷酶等酶类功能分类的准确性与高通量基因组注释效率。

该论文针对多输入生物关联预测中因度比率捷径导致的评估偏差问题，提出了一种实体平衡评估框架及模型无关的 UnbiasNet 训练策略，旨在消除捷径信号干扰，实现对药物 - 靶标相互作用及药物协同效应等任务更公正、鲁棒的性能评估与关联预测。

该研究提出了一种基于前缀的基因组降采样方法，通过构建 k-mer 频率矩阵并结合集成学习模型，在显著降低数据维度的同时实现了高效的细菌表型预测，为轻量级基因组语言模型的发展提供了新路径。

本文提出了一种名为 PIGLET 的新型图 Transformer 方法，通过构建包含结合口袋相似性、蛋白互作及药物相似性的蛋白质组知识图谱来预测药物 - 靶标相互作用，并在更严格的药物划分基准测试及真实案例中展现出优于现有深度学习模型的性能。

该论文提出了一种信息含量感知的 Kendall-tau 相关系数方法（ICI-Kt），通过将代谢组学中因低于检测限而产生的左截断缺失值视为有效信息纳入计算，从而显著提升了异常样本识别和特征网络构建的准确性。

本文介绍了 ProteomeLM，这是一种能够在跨物种全蛋白质组尺度上进行推理的 Transformer 语言模型，它无需监督即可通过注意力机制编码蛋白质相互作用，并显著提升了蛋白质相互作用预测的准确性与速度，同时实现了跨物种的基因必需性预测。

该研究提出了一种名为 ConNIS 的新型统计方法，通过解析计算基因内无插入序列的概率并引入数据驱动的阈值选择标准，显著提高了在不同插入密度下利用 TraDIS 数据检测细菌必需基因的准确性与结果的可比性。

该研究构建了一个基于 k-mer 线性回归的稳健框架，通过分析 560 个乳腺癌基因组中的 350 万个体细胞突变，揭示了不同突变特征（如 APOBEC 和 SBS3 相关特征）如何通过非随机地改变转录因子结合亲和力（导致功能获得或丧失），从而在特定亚型中系统性地重编程基因调控网络并驱动癌症发生。

该研究通过系统评估揭示了现有单细胞扰动响应预测模型的评估指标存在严重缺陷（如对尺度、稀疏性和维度敏感），导致当前复杂深度学习模型的表现往往被高估且远未达到性能上限，从而提出了更稳健的评估框架以推动可靠虚拟细胞模型的发展。

该研究通过识别并校正等位基因频率等关键混杂因素，证实了主流变异效应预测工具在主要遗传祖先群体中具有一致的性能表现，从而支持其在遗传诊断中的广泛应用。