Differentiable Gene Set Enrichment Analysis for Pathway-Level Supervision in Transcriptomic Learning
本文提出了可微分基因集富集分析(dGSEA),通过引入软排序、平滑累积及符号特异性归一化等可微技术,解决了转录组预测中基因级目标与通路级解释之间的目标失配问题,从而在不牺牲基因级性能的前提下显著提升了通路层面的预测一致性与稳定性。
1244 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文提出了可微分基因集富集分析(dGSEA),通过引入软排序、平滑累积及符号特异性归一化等可微技术,解决了转录组预测中基因级目标与通路级解释之间的目标失配问题,从而在不牺牲基因级性能的前提下显著提升了通路层面的预测一致性与稳定性。
本文介绍了 ECHO,这是一个基于 Oxford Nanopore 测序和 Snakemake 流程的用户友好型工具,旨在实现对人类重复序列基因组进行可重复、可扩展且整合遗传与表观遗传变异特征的全流程分析。
本文介绍了 scCChain,一种基于 Transformer 的框架,它通过将空间转录组数据中的细胞连接成链来量化配体 - 受体相互作用,从而在单细胞和空间分辨率下识别并定位具有生物学意义的细胞通讯程序及热点区域。
本文提出了首个面向泛病毒基因组分析的基础模型 HViLM,该模型通过在大规模病毒序列上预训练并结合参数高效微调,在致病性、宿主范围和传播性预测任务上实现了超越现有方法的性能,并揭示了病毒免疫逃逸的生物学机制。
该研究利用 UK Biobank 大规模数据,通过新颖的 Wasserstein 距离框架系统评估了五种机器学习变异注释方法在罕见变异关联测试中的表现,发现 CADD 注释在信号分离度上表现最佳,而 AlphaMissense 存在校准偏差,且不同方法组合均能有效富集对功能缺失不耐受的基因。
该研究提出,利用多种变异效应预测器之间的一致性差异来筛选目标蛋白,能够指导实验优先级的设定,从而最大化实验数据(如 MAVEs)在解析遗传变异功能后果方面的信息价值。
本文介绍了 ISdetector,一种专为短读长测序数据设计的生物信息学流程,它通过独特的 IS 清洁参考策略和软剪切读段聚类技术,实现了对插入序列精确插入位点及其伴随结构变异的高效、准确检测,显著优于现有工具并适用于大规模群体研究。
本文提出了 Pro2RNA,一种结合蛋白质、分类学和 RNA 多模态预训练语言模型的框架,能够根据目标宿主物种的遗传密码和密码子偏好,从蛋白质序列生成优化的 mRNA 编码序列。
本文分析了多种不确定性量化方法在基因组语言模型中的应用,发现温度缩放和认知神经网络能有效提升模型在分布偏移(如未知物种和新变异)下的预测可靠性。
该研究提出了一种利用预训练基因组语言模型 Evo2 生成的嵌入向量进行噬菌体宿主预测的无监督检索方法,结果表明 Evo2 虽在物种级精确匹配上略逊于传统方法,但在捕捉更高层级分类宿主范围信号及与现有工具融合提升整体检索性能方面具有显著优势。