Benchmarking 80 binary phenotypes from the openSNP dataset using deep learning algorithms and polygenic risk score tools
该研究利用 openSNP 数据集上的 80 种二元表型,系统评估了多种机器学习、深度学习算法及多基因风险评分工具的性能,发现机器学习在 44 种表型上表现更优,而多基因风险评分工具在其余 36 种表型上更具优势。
1246 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
该研究利用 openSNP 数据集上的 80 种二元表型,系统评估了多种机器学习、深度学习算法及多基因风险评分工具的性能,发现机器学习在 44 种表型上表现更优,而多基因风险评分工具在其余 36 种表型上更具优势。
本文介绍了 MapMyCells,这是一个开源的高性能框架,能够将未经标注的单细胞多组学数据高效、可扩展且模态无关地映射到包括全脑图谱和跨物种共识在内的多层次脑细胞类型参考分类体系中,从而实现可重复的细胞类型注释和跨研究整合。
本文介绍了 NIFty,一种基于成对特征选择的单细胞蛋白质组学分类流程,它无需数据预插补、避免了循环分析并能在不校正批次效应的情况下克服批次影响,从而在多种挑战性数据集上实现了准确且高效的细胞类型分类。
本文提出了 CLASP,这是一个结合了几何深度学习、自然语言模型、蛋白质语言模型和对比学习的统一三模态框架,能够整合蛋白质序列、结构和文本描述信息,从而在零-shot 分类、检索及聚类任务中超越现有最先进基线模型。
该论文介绍了 anndataR 包,它通过支持在 R 中直接读写 HDF5 格式的 AnnData 文件、实现与 SingleCellExperiment 或 Seurat 对象的转换以及确保跨语言兼容性,显著提升了单细胞转录组学数据在 R 和 Python 生态之间的互操作性。
该研究通过构建包含最新文献证据且规模翻倍的标准化哺乳动物病毒宿主数据集,评估了多种机器学习模型在预测病毒宿主感染方面的性能,发现扩大宿主分类层级(如哺乳动物)和减少训练集与测试集间的系统发育距离能显著提升预测准确率,但在跨病毒科预测时模型表现接近随机水平,表明病毒宿主预测在缺乏共同祖先的情况下难以实现良好的泛化。
本文提出了 MiRformer,这是一种基于双 Transformer 编码器和滑动窗口注意力机制的统一生成框架,能够直接从原始序列中学习长 mRNA 上下文中的 miRNA 相互作用模式,在实现高精度结合位点定位与降解位点识别的同时,生成具有生物学意义的靶标特异性 miRNA 序列。
本文介绍了一种名为随机系统识别工具包(SSIT)的开源 MATLAB 软件,它通过整合多种随机模拟方法、统计推断及实验设计功能,旨在高效处理生物数据中的随机性与异质性,从而优化参数估计、预测准确性并指导实验设计。
本文介绍了 HP2NET 框架,该框架通过集成先进工具、优化任务打包与数据重用机制以及利用并行计算,显著提升了大规模病毒进化网络分析的效率、可重复性与可扩展性。
该研究构建了首个公开且统一处理的多发性硬化症(MS)B 细胞受体(BCR)测序数据库(MS-BCR-DB),通过整合临床与技术元数据,揭示了 MS 相关的 BCR 特征(如脑脊液中的寡克隆扩增和病毒/自身抗原特异性序列),为理解 MS 发病机制及开发生物标志物提供了可扩展的基础资源。