ProtFlow: Flow Matching-based Protein Sequence Design with Comprehensive Protein Semantic Distribution Learning and High-quality Generation
本文提出了 ProtFlow,一种基于流匹配算法的蛋白质序列生成模型,通过引入语义整合网络与重流技术,有效解决了现有模型在分布集中化和全局语义学习方面的不足,实现了高质量且覆盖长尾功能分布的蛋白质(特别是抗菌肽)设计。
1250 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文提出了 ProtFlow,一种基于流匹配算法的蛋白质序列生成模型,通过引入语义整合网络与重流技术,有效解决了现有模型在分布集中化和全局语义学习方面的不足,实现了高质量且覆盖长尾功能分布的蛋白质(特别是抗菌肽)设计。
该研究构建了一个基于 k-mer 线性回归的稳健框架,通过分析 560 个乳腺癌基因组中的 350 万个体细胞突变,揭示了不同突变特征(如 APOBEC 和 SBS3 相关特征)如何通过非随机地改变转录因子结合亲和力(导致功能获得或丧失),从而在特定亚型中系统性地重编程基因调控网络并驱动癌症发生。
该研究通过系统评估揭示了现有单细胞扰动响应预测模型的评估指标存在严重缺陷(如对尺度、稀疏性和维度敏感),导致当前复杂深度学习模型的表现往往被高估且远未达到性能上限,从而提出了更稳健的评估框架以推动可靠虚拟细胞模型的发展。
该研究通过识别并校正等位基因频率等关键混杂因素,证实了主流变异效应预测工具在主要遗传祖先群体中具有一致的性能表现,从而支持其在遗传诊断中的广泛应用。
该研究提出了一种受语言学启发的物理感知框架,通过将蛋白质序列离散化为进化衍生的“蛋白质词汇”,在提升功能预测精度的同时,成功揭示了新的生物学调控机制并实现了可编程的蛋白质设计。
本文提出了名为 RNAiSpline 的深度学习模型,该模型通过结合自监督预训练、Kolmogorov-Arnold 网络(KAN)、卷积神经网络(CNN)和 Transformer 编码器,有效克服了数据稀缺与偏差挑战,实现了对 siRNA 效力的准确预测。
本文提出了名为 TITAN-BBB 的多模态深度学习架构,通过融合表格、图像和文本特征并采用注意力机制,在构建的最大规模血脑屏障渗透性数据集上实现了超越现有最先进方法的分类与回归预测性能。
本文提出了 MolDeBERTa,这是一种基于字节级分词策略和三种新颖预训练目标的自监督分子编码器,它在 1.23 亿个 SMILES 分子上进行预训练,通过注入物理化学和结构先验知识,在多个下游基准测试中显著超越了现有的掩码语言模型。
本文提出了名为 FiCOPS 的 FPGA 计算框架,通过软硬件协同设计优化了基于质谱的肽段数据库搜索算法,在 Intel Stratix 10 平台上实现了相比 CPU 方案 3.5 倍的加速以及相比 CPU 和 GPU 方案 3 至 5 倍的功耗降低。
本文提出了一种名为 MW-RaMViD 的基于随机掩码视频扩散模型的二维倾斜图像生成方法,通过引入可控推理协议(如滑动窗口渐进式补全)和针对冷冻电镜数据的格式适配,有效校正了冷冻电子断层扫描中的缺失楔伪影并提升了重建保真度。