Co-designing sequence and structure of functional de novo enzymes with EnzyGen2
本文介绍了 EnzyGen2,一种基于 7.3 亿参数的蛋白质基础模型,它能够同时共设计序列与结构以生成具有催化活性的高性能全新酶,并在计算基准测试和多种酶家族的实验验证中展现出超越现有最先进方法的性能与效率。
766 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文介绍了 EnzyGen2,一种基于 7.3 亿参数的蛋白质基础模型,它能够同时共设计序列与结构以生成具有催化活性的高性能全新酶,并在计算基准测试和多种酶家族的实验验证中展现出超越现有最先进方法的性能与效率。
本文介绍了 Flipper,这是一个专为 eCLIP 数据设计的先进框架,通过整合输入对照、分层归一化策略及改进的下游分析工具,有效解决了现有工具在差异 RNA 结合分析中缺乏严谨统计推断、无法区分表达驱动效应与真实结合变化的问题,从而显著提升了分析的灵敏度、精确度及生物学洞察力。
本文介绍了 R 语言包 WayFindR,该工具将 WikiPathways 和 KEGG 数据库中的通路数据转化为图结构以分析反馈回路,并揭示了当前通路数据中负反馈机制普遍缺失的问题,从而强调了改进数据注释以深入理解生物调控动态的重要性。
本文提出了 MoCoO 框架,通过整合变分自编码器、神经微分方程和动量对比学习,并辅以流匹配优化,在 20 个单细胞数据集上显著提升了细胞类型聚类与连续发育轨迹的表征质量,实现了优于现有方法的轨迹推断与下游分析性能。
该研究通过分析多个单细胞测序队列发现,细胞类型组成(特别是经过中心对数比转换的比例)是驱动患者分层的关键因素,其表现优于复杂方法且更具可解释性,并据此开发了开源工具 scECODA 以支持基于细胞组成的可解释性队列分析。
该研究评估了基于蛋白质语言模型生成的诱饵数据库在蛋白质组学靶标 - 诱饵竞争中的应用,发现尽管其序列特征更难被区分,但在当前搜索流程中尚未展现出超越传统反向诱饵的整体优势,因此更适合作为基准测试、诊断和压力测试的可调工具。
该研究通过跨数据库的泛库数据挖掘策略,利用 MassQL 诊断碎片离子过滤技术系统构建了包含 2,857 种原子组成和 34,222 个独特 MS/MS 谱图的肉碱类代谢物库,从而显著扩展了对肉碱化学多样性及其在宿主代谢、饮食、微生物活动及药物暴露中作用的认知。
本文介绍了 Carafe2 工具,它通过直接在 timsTOF DIA 数据上微调深度学习模型,生成了包含准确保留时间、碎片离子强度和离子迁移率注释的高质量实验特异性虚拟谱库,从而在多种蛋白质组学应用中显著优于基于 DDA 数据预训练的模型。
本文提出了名为 Parallel-REM 的 Python 并行化管道,通过集成稳健方差过滤、稀疏性检查及批处理主从并行策略,将基于随机效应模型的大规模微生物网络推断速度提升了 26.1 倍(在 64 核架构上将计算时间从数天缩短至数分钟),同时保持了与原始 R 实现超过 99.9% 的方向一致性,从而有效解决了高维稀疏数据中的计算瓶颈,为深度学习及 Transformer 诊断架构提供了高质量的网络特征输入。
本文介绍了 BCAR,一种专为纠错而设计的高速通用条形码序列比对工具,它通过充分利用碱基质量分数和所有证据,在模拟及真实数据集中均能生成比现有方法更高质量的条形码序列图谱。