Predicting peptide aggregation with protein language model embeddings
该研究提出了一种名为 PALM 的深度学习模型,利用预训练蛋白质语言模型的嵌入表示来预测肽段聚集,结果表明迁移学习在小数据集上表现优异,但预测单点突变对聚集速率的影响仍需更多实验数据支持。
1250 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
该研究提出了一种名为 PALM 的深度学习模型,利用预训练蛋白质语言模型的嵌入表示来预测肽段聚集,结果表明迁移学习在小数据集上表现优异,但预测单点突变对聚集速率的影响仍需更多实验数据支持。
本文提出了一种名为 Floco 的新方法,通过结合负二项分布计算的节点原始拷贝数概率与网络流整数线性规划优化,在基因组图比对中显著提升了拷贝数变异检测的准确性,有效克服了传统线性参考基因组方法的局限性。
本文介绍了名为 bronko 的超快速、无需比对的病毒基因组变异检测框架,该工具通过创新的局部敏感分桶、k-mer 计数伪映射及流式滑动窗口异常检测技术,在保持高精度和召回率的同时实现了计算效率的显著提升,能够高效处理大规模病毒测序数据并揭示宿主内的病毒进化模式。
该研究开发了一种整合多组学数据的基因中心发现平台,通过背景感知过滤和变异性控制策略,成功鉴定出多种肿瘤类型特异性 DNA 甲基化生物标志物,并在结直肠癌、肝细胞癌及肺癌亚型中经 MSRE-qPCR 验证具有高诊断效能,从而架起了大规模表观基因组发现与临床可及的 PCR 检测之间的桥梁。
CoMR 是一种整合了靶向信号预测、同源搜索及系统发育分析等多源证据的评分流程,旨在通过统一框架显著提升模型与非模型真核生物线粒体蛋白质组重建的准确性。
该论文提出了一种结合重组条形码实验方案与隐马尔可夫模型计算框架(DemuxHMM)的新方法,旨在通过显式建模连续 SNP 模式,克服现有去复用技术在大规模单细胞胚胎发育时间序列研究中的局限性。
本文提出了一种基于-ELBO 损失函数的鲁棒自编码器模型 RSTG,旨在通过变分推断生成高质量的空间转录组数据,并在含噪声(如离群值、批次效应和dropout)的训练条件下展现出优于现有方法的稳健性与准确性。
本文提出了一种名为 OligoGraph 的新型基于几何图的深度学习架构,通过利用 RiNALMo 嵌入、图注意力与 Transformer 卷积层及自监督预训练技术,在多种数据集上显著提升了 siRNA 疗效预测的准确性,有效克服了现有模型在数据稀缺、偏差及固定长度限制方面的不足。
该研究通过整合多组学、功能基因组学及分子动力学模拟,揭示了食管癌和胃癌中存在由固有无序蛋白驱动的凝聚体富集转录程序,并鉴定出 TOPBP1 和 CHERP 等关键蛋白作为通过相分离形成凝聚体且对肿瘤细胞存活至关重要的保守治疗靶点。
该论文提出了一种基于功能注释整合多种基因表达相似性度量的方法,通过构建优化权重组合的适应度函数(FFFAG)生成综合相似性评分(ISS),显著提升了基因相似性识别能力并成功预测了 40 个未分类酵母基因的功能类别。