PanXpress: Gene expression quantification with a pan-transcriptomic gapped k-mer index
PanXpress 是一个统一的细菌泛转录组分析框架,它通过直接从基因组文件构建包含 gapped k-mer 的索引,实现了无需比对的高效读段映射与基因表达定量,有效解决了混合菌株样本中的参考偏差问题,并在准确性、速度和索引效率上优于现有工具。
1244 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
PanXpress 是一个统一的细菌泛转录组分析框架,它通过直接从基因组文件构建包含 gapped k-mer 的索引,实现了无需比对的高效读段映射与基因表达定量,有效解决了混合菌株样本中的参考偏差问题,并在准确性、速度和索引效率上优于现有工具。
本研究介绍了一种集成于 MorphoBank 的 AI 辅助工具,利用大语言模型自动从文献中提取并标准化形态学特征数据,将其转换为 NEXUS 格式,从而显著提升了生物与古生物学数据集的准确性、标准化程度及 FAIR 原则(可发现、可访问、可互操作、可重用)的合规性。
本文介绍了 SOORENA,一种基于两阶段 Transformer 模型的生物网络分析工具,它通过从数百万篇文献中系统性地识别和分类蛋白质自调控机制,构建了包含超过 10 万条记录的交互式数据库,从而有效弥合了文献挖掘与系统生物学之间的鸿沟,为动态网络建模和预测性分析提供了关键资源。
本文提出了 GatorSC,一种基于多尺度细胞与基因图及专家混合融合机制的自监督表示学习框架,通过整合异构图视图并联合图重构与对比学习,在单细胞转录组数据的聚类、插补、注释及轨迹推断等任务中显著优于现有最先进方法。
该研究对来自扎格陨石(Zag meteorite)的核酸序列进行了多层级分析,发现其虽缺乏已知生物编码特征且非随机,但展现出独特的受限复杂性,表明这些序列处于现有生物或技术模型难以解释的序列空间区域,从而缩小了可能解释的范围并呼吁进一步独立验证。
该研究利用大语言模型从多机构 Ewing 肉瘤病理报告中高效提取结构化数据,验证了其高准确性,并发现 NSE 阳性与 S100 阳性分别是该疾病(尤其是非转移性病例)的不良和良好预后生物标志物,表明 AI 辅助的病理数据挖掘可优化风险分层。
本文提出了 FlashS 方法,通过将空间可变基因检测移至频域并利用随机傅里叶特征与稀疏草图技术,实现了在无需构建距离矩阵的情况下对零膨胀数据进行多尺度核测试,从而在保持校准精度的同时,显著提升了在大规模空间转录组数据(如包含 394 万个细胞的 Allen 脑图谱)中的计算效率与检测性能。
本文介绍了 Harmony2,这是一种能够无需专用硬件即可高效整合超过 1 亿个细胞和 1000 多个数据集、同时防止生物异质性数据出现过整合问题的单细胞 RNA 测序整合软件。
本文开发了 ChiMER 这一基于图论的计算框架,通过整合染色质互作信息构建剪接图谱,有效克服了传统工具在低表达水平下难以检测增强子-RNA 与编码基因融合转录本的局限,并在癌症数据中揭示了此类嵌合转录本与超级增强子及 R-loop 结构的潜在关联。
该研究提出了名为 STpath 的框架,通过整合组织病理学基础模型嵌入与空间转录组数据,利用机器学习模型将不可解释的图像特征转化为具有生物学意义的细胞组成和基因表达特征,从而有效支持癌症临床结局的关联研究。