anndataR improves interoperability between R and Python in single-cell transcriptomics
该论文介绍了 anndataR 包,它通过支持在 R 中直接读写 HDF5 格式的 AnnData 文件、实现与 SingleCellExperiment 或 Seurat 对象的转换以及确保跨语言兼容性,显著提升了单细胞转录组学数据在 R 和 Python 生态之间的互操作性。
768 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
该论文介绍了 anndataR 包,它通过支持在 R 中直接读写 HDF5 格式的 AnnData 文件、实现与 SingleCellExperiment 或 Seurat 对象的转换以及确保跨语言兼容性,显著提升了单细胞转录组学数据在 R 和 Python 生态之间的互操作性。
该研究通过构建包含最新文献证据且规模翻倍的标准化哺乳动物病毒宿主数据集,评估了多种机器学习模型在预测病毒宿主感染方面的性能,发现扩大宿主分类层级(如哺乳动物)和减少训练集与测试集间的系统发育距离能显著提升预测准确率,但在跨病毒科预测时模型表现接近随机水平,表明病毒宿主预测在缺乏共同祖先的情况下难以实现良好的泛化。
本文提出了 MiRformer,这是一种基于双 Transformer 编码器和滑动窗口注意力机制的统一生成框架,能够直接从原始序列中学习长 mRNA 上下文中的 miRNA 相互作用模式,在实现高精度结合位点定位与降解位点识别的同时,生成具有生物学意义的靶标特异性 miRNA 序列。
本文介绍了一种名为随机系统识别工具包(SSIT)的开源 MATLAB 软件,它通过整合多种随机模拟方法、统计推断及实验设计功能,旨在高效处理生物数据中的随机性与异质性,从而优化参数估计、预测准确性并指导实验设计。
本文提出了一种名为 SPAE 的集成正弦与分段自编码器模型,旨在通过提升准确性和鲁棒性,有效解析单细胞 RNA 测序数据中的细胞周期动态与细胞状态,并辅助去除细胞周期效应及预测癌症细胞周期转换。
REMAG 是一款利用对比学习(结合 HyenaDNA 基础模型、Siamese 网络和 Barlow Twins 损失函数)从长读长宏基因组数据中高效回收高质量真核生物基因组组装(MAGs)的新工具,有效解决了现有流程因依赖原核参考数据库而难以处理真核生物基因组的问题。
针对现有基因结构可视化工具在自定义注释和交互性方面的不足,本文介绍了名为 geneSTRUCTURE 的现代平台,该平台通过命令行和网页界面,支持基于 GFF3 和 GTF 格式灵活、交互式地可视化基因结构并叠加突变位点等补充注释。
本研究完成了兰花科首个端粒到端粒(T2T)水平的四倍体石斛基因组组装与单倍型解析,揭示了其约 86 万年前的四倍化事件,并阐明了 SWEET 基因家族在附生适应及菌根共生中的关键作用。
该研究提出了一种结合机器学习和深度学习的分析流程,通过分类表型并计算特征重要性,成功从开放 SNP 数据中识别出与 30 种表型相关的基因,其结果与 GWAS 目录高度一致,表明该方法能有效辅助疾病机制研究和治疗靶点发现。
本研究通过分子对接、动力学模拟及结合自由能分析,证实了 Withaferin A 能稳定结合 Marburg 病毒的关键蛋白(VP35 和 NP),展现出良好的药代动力学特征和作为多靶点抗病毒候选药物的潜力。