Temporal AI model predicts drivers of cell state trajectories across human aging
该研究开发了一种名为 MaxToki 的时序人工智能模型,该模型利用近 1 万亿个基因令牌训练,能够预测人类衰老过程中的细胞状态轨迹,并通过实验验证了其发现的新型抗衰老靶点。
1242 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
该研究开发了一种名为 MaxToki 的时序人工智能模型,该模型利用近 1 万亿个基因令牌训练,能够预测人类衰老过程中的细胞状态轨迹,并通过实验验证了其发现的新型抗衰老靶点。
本文介绍了 emb2dis,这是一种结合蛋白质语言模型、残差网络与空洞卷积的新型深度学习工具,在 CAID3 盲测中表现优异,能够高效预测蛋白质序列中每个残基的无序倾向。
本文介绍了首个专门存储和分析噬菌体感染时间分辨双 RNA 测序数据的生物信息学资源 PhageExpressionAtlas,该资源通过统一处理 42 个数据集,不仅验证了既有发现,还揭示了噬菌体基因分类及宿主与噬菌体防御系统转录调控的共性与特异性模式,从而推动了噬菌体 - 宿主相互作用研究的民主化与整合分析。
本文介绍了一种名为 VicMAG 的开源工具,该工具利用 PacBio HiFi 长读长测序数据,能够直观展示包含毒力因子、抗生素耐药基因及移动遗传元件注释的复杂环状宏基因组组装基因组(cMAGs),从而促进对细菌毒力与耐药性传播的全面监测。
ProteoPy 是一个基于 AnnData 的轻量级 Python 库,旨在通过整合数据导入、预处理、差异分析以及 COPF 算法驱动的光蛋白组(proteoform)推断,简化蛋白质组学分析流程并促进多组学研究的可扩展性与可重复性。
该研究通过系统基准测试证明,基于 ESM2 和 ProtT5 等蛋白质语言模型结合简单 MLP 分类器的方法,在预测进化距离较远的酶类 EC 编号时显著优于传统 BLAST 算法,且小尺寸模型在性能上已与更大模型相当。
本文介绍了一种名为 Baktfold 的新型命令行工具,该工具利用 ProstT5 语言模型和 Foldseek 结构搜索技术,实现了跨微生物生命之树的高灵敏度、快速且与分类群无关的蛋白质功能注释,显著提升了细菌和古菌中假设蛋白的注释率。
该论文介绍了 PSALM,一种结合预训练蛋白质语言模型(ESM-2)、残级域状态分类器和结构化概率解码器的蛋白质结构域注释方法,其在大规模基准测试中展现出与 HMMER 相当的灵敏度与特异性权衡,并能在宽松阈值下提供更高的序列覆盖度。
本研究利用新型质谱分析工具 PIPI-C 提出了“氨基酸替代组学”流程,通过对五种癌症的大规模蛋白质组数据分析,发现绝大多数氨基酸替代源于翻译后修饰而非基因组变异,并揭示了其在癌症生物学机制及免疫逃逸和耐药性中的关键作用。
该研究通过生物信息学分析证实,ITGB1 基因在多种癌症中显著高表达,其表达水平与患者不良预后、化疗耐药及免疫逃逸密切相关,提示其可作为癌症预后评估及治疗干预的重要生物标志物。