VarDCL: A Multimodal PLM-Enhanced Framework for Missense Variant Effect Prediction via Self-distilled Contrastive Learning
本文提出了 VarDCL 框架,通过融合多模态蛋白质语言模型嵌入与自蒸馏对比学习机制,有效捕捉突变前后的序列与结构差异,从而在区分致病与良性错义变异的任务中显著优于现有最先进方法。
1244 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文提出了 VarDCL 框架,通过融合多模态蛋白质语言模型嵌入与自蒸馏对比学习机制,有效捕捉突变前后的序列与结构差异,从而在区分致病与良性错义变异的任务中显著优于现有最先进方法。
RIBEX 是一种结合蛋白质语言模型嵌入与蛋白质互作网络拓扑结构的多模态框架,通过整合序列信息与互作上下文,显著提升了包括富含内在无序区及缺乏经典 RNA 结合域蛋白在内的 RNA 结合蛋白预测精度与可解释性。
该研究构建了一个整合表型扩散、资源竞争及生命史权衡的表型结构偏微分方程模型,揭示了肿瘤增殖异质性的生态进化动态,并阐明不同靶向治疗方案如何通过重塑适应度景观导致肿瘤进化轨迹的分化,从而为设计能预测和对抗适应性耐药的治疗策略提供了理论框架。
本文介绍了 Glydentify,这是一个结合蛋白质语言模型与分子编码器的可解释深度学习平台,能够高精度预测糖基转移酶的供体底物特异性,并通过实验验证及注意力机制分析揭示了其预测依据。
本文介绍了 3D-Manhattan,这是一款基于 WebGL 的交互式浏览器工具,它通过将多个全基因组关联分析(GWAS)结果整合到统一的三维坐标系中,克服了传统二维曼哈顿图在比较不同时间点、性状或实验条件下遗传信号时的局限性,从而有效促进了稳定及动态遗传关联的探索性分析。
本文介绍了 BioOS,一种基于基因调控网络而非硬编码规则的基因驱动数字孪生运行时系统,该系统通过“形式细胞”抽象实现了从分子调节到器官形态发生的植物表型预测,并在拟南芥主根发育等基准测试中取得了优异表现。
本研究提出了一种整合人工智能、量子化学与结构生物信息学的综合框架,通过从头设计并计算验证新型小分子"Solres",使其能够靶向结合青枯菌等植物病原菌的关键毒力蛋白,从而为应对抗生素耐药性威胁下的作物病害防治提供了具有潜力的先导化合物及计算策略。
本文介绍了 LigandForge,一种基于离散扩散的单步生成模型,它仅凭受体口袋几何信息即可在无需结构预测或迭代优化的情况下,以每秒超千种序列的超高通量生成具有广泛结构多样性且预测结合亲和力极高的多肽配体,从而实现了从依赖结构的单候选优化向无结构的大规模序列空间探索的范式转变。
本文提出了名为 RNAElectra 的 RNA 基础模型,该模型利用 ELECTRA 风格的替换令牌检测(RTD)预训练策略替代传统的掩码语言建模,在无需任务特定架构的情况下实现了单核苷酸分辨率的 RNA 调控推断,并在结构、相互作用及定量调控等多个基准任务中展现出优于现有基线的泛化能力与可解释性。
本文介绍了 NYX,这是一种基于 OpenZL 框架的格式感知学习压缩系统,能够针对 FASTA、FASTQ 等多种组学文件格式,在保持无损压缩的同时,实现比专用压缩工具更高的压缩比和更快的处理速度。