bioinformatics 篇论文

生物信息学宛如一座连接生物学与计算机科学的桥梁，利用强大的算法和数据分析技术，将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察，而是通过代码挖掘基因组的秘密，帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。

作为 Gist.Science 的专属栏目，我们持续追踪来自 bioRxiv 的最新预印本论文，确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理，不仅提供详尽的技术总结，更精心撰写通俗易懂的科普解读，让复杂的生物数据变得清晰易懂。

以下为您呈现该领域最新发表的几项重要研究成果，带您探索生命数字化的最新进展。

该研究通过系统分析 35 名供体在六种组织中的配对数据，发现 3'和 5'单细胞测序间的协议偏差仅由少量可重复的基因驱动，因此建议通过剔除这些偏差基因而非采用激进的归一化或批次校正策略来实现更可靠的数据整合。

本文开发了名为 iGS 的零代码双引擎图形化软件，通过集成 33 种先进预测模型与标准化工作流，解决了基因组选择工具的技术门槛问题，并验证了不同模型在复杂农艺性状预测中的性能差异，从而加速了该技术在农业育种中的普及与应用。

该论文提出了一种名为“最小唯一子串”（MUSs）的变长序列分析框架，通过自适应基因组局部复杂度来替代传统的固定长度 k-mer，在实现 100% 唯一覆盖的同时显著减少了数据冗余，从而为基因组组装、重复序列表征及比较基因组学提供了更高分辨率和压缩效率的解决方案。

本文介绍了 h5adify 这一神经符号工具包，它通过结合确定性生物推断与本地部署的小型大语言模型，有效解决了单细胞和空间转录组数据中 AnnData 格式元数据的语义异质性问题，从而实现了可扩展且隐私保护的 Atlas 级数据整合。

该研究通过构建严格去重的基准数据集，提出了一种融合网络拓扑与病毒分子模拟特征的机器学习方法 vhPPIpred，显著提升了病毒 - 人类蛋白互作的预测精度与效率，并为抗病毒药物研发及新发病毒预警提供了有力工具。

本文提出了 scUnify，这是一个统一的零样本推理框架，旨在通过模块化设计、分布式多 GPU 执行策略及标准化评估指标，解决单细胞基础模型在实际应用中因环境隔离、预处理差异及扩展性受限而导致的部署与比较难题。

本文介绍了 LLPSight，一种利用蛋白质语言模型嵌入和机器学习技术构建的新型预测工具，旨在通过整合严格筛选的实验数据集来高效识别驱动液 - 液相分离（LLPS）的蛋白质，并在人类蛋白质组分析中展现出优于现有工具的预测性能。

该研究评估了结合自监督预训练与度量元学习的 STUNT 框架在微生物组疾病分类中的表现，发现其仅在极端数据稀缺（每类仅 1 个样本）时提供微弱优势，随着样本增加其表现反而下降，表明元学习表征可能限制了任务特异性信号的获取，而疾病与队列间的固有生物学信号强度才是分类成功的关键决定因素。

本研究通过计算机模拟筛选，发现印度药用植物（特别是印度人参）中的多种植物化合物对肠道α-葡萄糖苷酶表现出优于或媲美临床药物米格列醇的结合亲和力，且具有良好的药代动力学特性，提示其作为控制2型糖尿病餐后血糖的潜在候选药物。

本文介绍了 DartUniFrac，这是一种结合加权 Jaccard 相似性与草图算法、并借助 GPU 加速实现比现有技术快三个数量级的新算法，能够高效处理百万级样本和十亿级分类单元的大规模微生物组分析，且其结果与精确 UniFrac 方法在统计上无显著差异。