NovoTax: prokaryotic strain identification from mass spectrometry-based proteomics data
本文介绍了 NovoTax,这是一种能够从原始下至上的蛋白质组学质谱数据中直接鉴定原核生物菌株的端到端流程,它通过结合从头肽段测序与优化的基因组数据库搜索,实现了对微生物样本的菌株级鉴定并支持后续深入分析。
762 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文介绍了 NovoTax,这是一种能够从原始下至上的蛋白质组学质谱数据中直接鉴定原核生物菌株的端到端流程,它通过结合从头肽段测序与优化的基因组数据库搜索,实现了对微生物样本的菌株级鉴定并支持后续深入分析。
该研究通过多阶段机器学习分析揭示,昼夜节律(特别是 ZT8-ZT12 时段)在近视发展中定义了关键的分子窗口,并证实了视网膜与脉络膜之间存在跨组织、跨阶段及跨物种的协调基因调控网络,表明昼夜节律生物学是近视易感性、进展及治疗反应的关键决定因素。
本文介绍了 sctrial,这是一个专为纵向单细胞实验设计的开源分析框架,它通过采用受试者层面的估计量和不确定性量化方法,有效解决了因细胞伪重复导致的统计推断膨胀问题,从而在临床试验和转化研究中提供了更严谨的生物学解释。
本文介绍了一种名为 Halo 的预训练模型,该模型通过整合细胞核形态与 RNA 转录本的空间分布,无需针对特定数据集重新训练即可从仅含细胞核染色的图像中精准重建全细胞边界,从而显著提升了空间转录组学中的细胞分割精度与细胞类型识别可靠性。
本文提出了 GenoJEPA 框架,通过联合嵌入预测架构将基因组表征学习从局部的核苷酸重建转向潜在空间的语义对齐,从而在降低计算成本与参数量的同时,实现了跨 55 个下游任务的强泛化能力并支持无需 GPU 的轻量级分类。
本文介绍了 Looplook,这是一款开源 R 语言工具包,旨在通过整合连通分量聚类与转录组感知优化算法,从复杂的染色质相互作用数据中构建高置信度的空间调控网络,从而有效解决远端顺式调控元件与靶基因关联中的假阳性问题并实现功能注释。
本文提出了 XAttn-DTA 框架,通过结合图注意力网络编码药物分子图、利用 ESM2 预测接触图构建蛋白质残基图,并引入双向交叉注意力融合机制,在不依赖实验结构数据的情况下显著提升了药物 - 靶标亲和力的预测精度及在冷启动场景下的泛化能力。
该研究开发了贝叶斯算法 BayesMonSTR,在单细胞分辨率下揭示了人类组织(尤其是衰老神经元)中嵌合微卫星突变的积累模式及其在转录调控区域的富集特征,为探索发育与衰老过程中的基因组变异及疾病关联奠定了基础。
该研究揭示了癌症药物反应预测中普遍存在的数据泄露问题,指出在交叉验证前进行监督特征筛选会人为夸大模型准确率并导致生物标志物发现失真,且经审计发现大量已发表方法均受此影响。
本文介绍了专为长读长转录组数据设计的 VDJcraft 分析流程,该工具通过独特的双步比对与纠错策略,显著提升了 V(D)J 重组分析的准确性,不仅优于现有方法并发现新基因亚类,还成功揭示了 COVID-19 患者中独特的免疫重组特征。