Teaching Diffusion Models Physics: Reinforcement Learning for Physically Valid Diffusion-Based Docking
该论文提出了一种基于强化学习的框架,用于微调扩散模型(DiffDock-Pocket),使其在无需增加推理计算成本的情况下,能够生成更多符合物理约束、保留关键相互作用且结构更准确的分子对接构象,特别是在处理与训练数据差异较大的蛋白靶点时表现优于传统及现有机器学习方法。
766 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
该论文提出了一种基于强化学习的框架,用于微调扩散模型(DiffDock-Pocket),使其在无需增加推理计算成本的情况下,能够生成更多符合物理约束、保留关键相互作用且结构更准确的分子对接构象,特别是在处理与训练数据差异较大的蛋白靶点时表现优于传统及现有机器学习方法。
该论文提出了两种在最大似然系统发育分析中整合谱系丰度信息的新方法(分别基于多歧树拓扑解释和树先验假设),通过优先将序列定位到常见谱系而非罕见谱系,显著提高了如 SARS-CoV-2 等存在大量多歧分支场景下的系统发育推断准确性,并已在开源软件 MAPLE 中实现。
本文提出了名为 Amaranth 的新型单细胞转录组组装工具,通过判别式建模区分 UMI 读段与内部读段的生物学及统计特性,显著提升了 Smart-seq3 数据中全长转录本及异构体水平的组装精度。
本文提出了一种名为 PerturbGraph 的生物信息图学习框架,通过整合蛋白质相互作用网络、功能注释及转录特征,利用图神经网络成功预测了未见过的基因扰动所引发的转录组响应,其性能显著优于现有的经典机器学习及深度学习模型。
Nextstrain 是一个自动化平台,它利用开放数据对 21 种病毒和结核分枝杆菌进行持续更新的实时系统发育动力学分析,以支持针对流行及新发病原体的公共卫生干预。
本文提出了 FoundedPBI,一种利用针对原核生物和噬菌体基因组预训练的多种 DNA 基础模型构建的集成深度学习框架,通过创新性的长上下文聚合策略处理全基因组序列,显著提升了噬菌体与细菌相互作用预测的准确性。
该研究通过构建计算框架并分析大肠杆菌中 107 对连续酶的结构模型,发现尽管连续酶倾向于发生相互作用,但其催化位点并未表现出为优化代谢物传递而进行的空间邻近排列。
本文介绍了 Tripso,一种基于自监督 Transformer 的深度学习模型,它通过从预定义及数据驱动的基因程序中学习多重嵌入,克服了传统单细胞表征的局限性,从而在造血发育、干细胞培养优化及特应性皮炎免疫机制等研究中实现了具有可解释性和生物医学价值的发现。
本文提出了一种名为“签名距离”(Signature Distance)的新指标,通过比较排序后的点距离分布均值差异来推广能量统计方法,从而在保持相同计算复杂度的同时,有效克服了传统能量距离对局部密度和拓扑结构变化不敏感的局限,并成功应用于癌症转录组数据分析及生成模型训练。
本文介绍了 Chromatix,这是一个基于 JAX 构建的开源、GPU 加速且可微分的波光学仿真库,旨在通过标准化光学元件与传播方法,解决计算光学领域缺乏统一框架的问题,并显著提升在快照显微镜、全息术及相位恢复等应用中的模拟速度与并行效率。