Efficient protein structure prediction fromcompact computers to datacenters withOpenFold-TRT
本文介绍了结合 OpenFold、TensorRT 及 MMseqs2-GPU 的加速方案,实现了从紧凑型计算机到数据中心在多种硬件架构上比 AlphaFold2 快达 131 倍且无损精度的蛋白质结构预测。
1244 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文介绍了结合 OpenFold、TensorRT 及 MMseqs2-GPU 的加速方案,实现了从紧凑型计算机到数据中心在多种硬件架构上比 AlphaFold2 快达 131 倍且无损精度的蛋白质结构预测。
该研究通过转录组分析揭示,埃及伊蚊对不同类型的拟除虫菊酯(氯菊酯和高效氯氟氰菊酯)在不同浓度下会触发截然不同的分子抗性机制,其中前者主要依赖表皮增厚和代谢解毒,而后者则通过线粒体功能增强和氧化应激防御来维持稳态,表明在病媒控制中需同时考虑杀虫剂类型与浓度以优化抗性管理。
本文提出了 stMCP 框架,通过本地执行的模型上下文协议(MCP)实现自然语言驱动的空间转录组分析,在保障数据隐私与降低成本的同时,显著提升了分析的可及性、可重复性及生物发现效率。
本文介绍了 MOPP 流程,这是一种利用匹配宏基因组数据过滤参考基因组以消除非特异性映射、从而显著提升复杂微生物群落宏核糖体谱(metaRibo-Seq)数据中分类与功能分析准确性的模块化多组学处理方案。
该研究利用长读长测序技术构建了包含 4 万多个全长转录本的卵巢癌综合图谱,揭示了疾病进展中广泛存在的、基因水平无法反映的异构体重塑现象,并发现了多个具有临床预后价值的特异性异构体事件。
本文提出了名为 DisGeneFormer 的端到端疾病基因优先排序模型,通过整合局部与全局图注意力机制及 Transformer 模块,有效解决了现有方法假阳性高、列表过长的问题,显著提升了临床可操作的短列表预测精度。
ProteinMCP 是一个基于模型上下文协议(MCP)的自主智能体框架,它通过自动化编排 38 种专业工具及自动化工具转换机制,显著加速并 democratize 了蛋白质工程流程,实现了从高效建模到从头设计高亲和力结合剂及治疗性纳米抗体的全自主闭环。
该研究开发了 Off-target Probe Tracker (OPT) 工具,揭示了 10x Genomics Xenium 技术中探针脱靶结合会扭曲空间转录组数据的准确性,并通过多组学验证证实了部分基因的表达信号实为靶基因与脱靶基因信号的混合,从而提升了空间转录组数据的生物学可解释性与可重复性。
本研究介绍了一个名为 ANNEXA 的开源 Nextflow 流程,该流程通过整合长读长 RNA 测序数据、多种转录组重建工具及深度学习模型,显著提升了基因组注释的准确性与质量控制能力,并在跨物种癌症研究中成功鉴定出大量新型基因和转录本。
该研究通过独立基准测试指出,当前基于深度学习的 RNA 结构预测方法虽在特定条件下表现尚可,但其成功主要依赖于对已知结构的记忆而非泛化能力,且缺乏可靠的模型准确性评估手段,因此难以准确预测新颖的 RNA 结构。