The gift of novelty: repeat-robust k-mer-based estimators of mutation rates
本文提出了三种能够克服高度重复序列干扰的新型 k-mer 突变率估计器,并在 alpha 卫星序列等重复性数据上的实证测试中证明了其优越性。
766 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文提出了三种能够克服高度重复序列干扰的新型 k-mer 突变率估计器,并在 alpha 卫星序列等重复性数据上的实证测试中证明了其优越性。
本研究针对肝细胞癌(HCC)预后预测中分子异质性捕捉不足的问题,开发了一种基于注意力机制的可解释多分支深度学习框架,通过整合 mRNA、miRNA 和 DNA 甲基化等多组学数据,在 TCGA 和 GSE14520 队列中显著提升了生存预测性能,并成功识别出具有生物学意义的特征及候选生物标志物。
本文介绍了 PanTEon,这是一个跨界的深度学习框架,通过整合自动策展的泛物种转座元件数据库与模块化基准测试平台,实现了转座元件分类的可重复性、标准化评估及可扩展性,从而揭示了不同分类器在跨物种泛化中的性能差异并推动了社区驱动的注释工作。
本文介绍了 Correlate,一款无需安装登录即可在浏览器中运行的免费网络应用,它通过分析超过 1000 种人类癌细胞系的 CRISPR 筛选数据,直接基于功能表型而非先验知识来探索基因依赖关系、分析基因集并辅助实验设计。
该论文提出了一种名为 Nettle 的新方法,通过插补肽段保留时间边界而非直接插补缺失的定量值,显著提高了数据非依赖性采集(DIA)蛋白质组学中的定量准确性并降低了检测下限。
CellWHISPER 是一种能够克服空间结构干扰、实现严格误差控制且计算可扩展的统计框架,它从单细胞分辨率空间转录组数据中精准推断直接接触介导的细胞间通讯(如间隙连接和配体 - 受体机制),并成功揭示了阿尔茨海默病模型中特定的细胞通讯重编程模式。
该论文提出了 GATSBI 框架,通过整合多源生物数据构建上下文感知的蛋白质嵌入,并采用与具体生物任务对齐的数据划分策略进行训练与评估,从而显著提升了模型在相互作用预测、功能注释及功能模块发现等任务中的泛化能力,特别是在针对研究不足的蛋白质和归纳式节点划分场景下表现优异。
该论文介绍了 muat,一种基于 Transformer 的便携式软件,利用体细胞变异数据对肿瘤进行分类和表征学习,并通过 Docker 和 Bioconda 实现跨环境部署,在无需重新训练的情况下即可在多种测序数据(如 WGS 和 WES)及受保护处理环境中实现高精度的肿瘤类型识别。
本文介绍了 PANDA,一种用于靶向亚硫酸氢盐扩增子测序的端到端图形化流程,它通过连接未合并的双端读段来恢复单分子水平的连续甲基化模式,从而克服了传统位点平均分析无法解析表等位基因异质性的局限。
OncoMORPHIA 是一个免费的集成化 Web 平台,通过自动整合来自十个公共数据库的数据,将癌症突变的三维结构可视化、临床注释、药物靶点映射、生存分析及 AI 解读等功能统一于单一界面,使研究人员无需专业生物信息学背景即可在结构及临床背景下探索癌症突变。