Genome assembly with variable order de Bruijn graphs
本文首次为可变阶 de Bruijn 图(voDBG)提出了形式化的重叠群定义,通过引入基于频率范围的(ℓ, h)-tigs 概念及高效枚举算法,在 PacBio HiFi 数据上实现了比固定阶图更优的组装连续性,同时保持了比全基因组组装器更轻的计算负载。
1244 篇论文
生物信息学宛如一座连接生物学与计算机科学的桥梁,利用强大的算法和数据分析技术,将海量的生命遗传信息转化为可理解的科学发现。这一领域不再依赖显微镜下的观察,而是通过代码挖掘基因组的秘密,帮助科学家理解疾病机制、追踪病毒变异并推动精准医疗的发展。
作为 Gist.Science 的专属栏目,我们持续追踪来自 bioRxiv 的最新预印本论文,确保您能第一时间接触前沿动态。团队对每一篇新上传的预印本进行深度处理,不仅提供详尽的技术总结,更精心撰写通俗易懂的科普解读,让复杂的生物数据变得清晰易懂。
以下为您呈现该领域最新发表的几项重要研究成果,带您探索生命数字化的最新进展。
本文首次为可变阶 de Bruijn 图(voDBG)提出了形式化的重叠群定义,通过引入基于频率范围的(ℓ, h)-tigs 概念及高效枚举算法,在 PacBio HiFi 数据上实现了比固定阶图更优的组装连续性,同时保持了比全基因组组装器更轻的计算负载。
本文介绍了 Nerpa 2,一种基于隐马尔可夫模型的概率框架,能够更准确、可扩展地将非核糖体肽生物合成基因簇与其对应的化学结构进行关联,从而在基因组挖掘中有效识别已知化合物并发现新型化学产物。
本文介绍了 ATOMICA,一种基于几何深度学习的通用模型,它通过训练超过 200 万种复合物数据,成功构建了涵盖蛋白质、小分子、金属离子、脂质和核酸五种模态的原子级相互作用表示,并在结构功能预测、暗蛋白质组配体发现及实验验证中展现出卓越性能。
该研究整合了 AlphaFold 和 ESMatlas 的预测数据构建了包含 8.2 亿条记录的 AFESM 数据集,通过聚类分析揭示了 512 万个结构簇,并从中发现了 12 种全新结构折叠及 11,941 种未见过的结构域组合,凸显了宏基因组数据在探索蛋白质结构宇宙未开发区域中的关键价值。
该研究揭示了通过内含子中替代性多聚腺苷酸化位点切除含提前终止密码子的外显子,从而逃避免疫监视(NMD)并调节基因表达是一种广泛存在但此前被忽视的转录后调控机制。
MetaXtract 是一款开源工具,能够从 Thermo Fisher 质谱原始文件中提取关键元数据并转换为结构化表格,从而显著提升数据的 FAIR 属性、支持实时质量控制并优化工作流。
本研究开发了结合 ESM-2 与 Transformer 架构的双引擎预测工具 XAMP,通过消除数据偏差显著提升了预测精度与速度,并成功从深海微生物组中挖掘出具有广谱抗耐药菌活性的新型抗菌肽。
ARCADIA 是一种无需细胞条形码配对或特征直接对应即可整合单细胞转录组与空间蛋白质组数据的生成式框架,它通过识别并跨模态对齐表征极端表型状态的“模态特异性原型”,成功揭示了空间微环境如何塑造 B 细胞成熟及 T 细胞激活或耗竭等转录程序。
本文介绍了 RingNet,这是一款基于 Web 的交互式多模态数据可视化平台,它通过结合高效的 R 后端计算与灵活的 JavaScript 前端探索,使生物医学专家无需编程技能即可直观分析复杂生物网络并生成可发表的研究图表。
本文提出了 Neretva,一种基于自动编码变分贝叶斯(AEVB)的新型框架,通过概率隐变量建模高效解决了高度多态基因(如 CYP 和 KIR)的等位基因分型难题,在可扩展性和准确性上均优于现有方法。