Leviathan: A fast, memory-efficient, and scalable taxonomic and pathway profiler for (pan)genome-resolved metagenomics and metatranscriptomics

Leviathan 是一个开源软件包,它通过将无比对分类学方法与 DNA 空间伪比对相结合,绕过计算成本高昂的翻译搜索步骤,从而实现对宏基因组和宏转录组在基因组和泛基因组分辨率下超快速、内存高效且准确的分类学与功能谱分析。

原作者: Espinoza, J. L., Dupont, C. L., Phillips, A.

发布于 2026-05-28
📖 1 分钟阅读☕ 轻松阅读

原作者: Espinoza, J. L., Dupont, C. L., Phillips, A.

原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

想象你有一座巨大的图书馆,里面藏有数百万本由不同作者(微生物)撰写的书籍,而你想要知道两件事:特定的一堆书中是作者,以及这些书讲述了什么故事(功能)。

长期以来,试图解决这一难题的科学家们采用了一种方法,就像阅读每一本书的每一个字来寻找匹配项。这种方法极其准确,但速度慢得令人痛苦,甚至需要超级计算机来维持其运行。这正是本文所解决的问题:现有的工具过于缓慢且消耗内存,无法处理我们如今拥有的庞大而现代的微生物“书籍”收藏。

现在,Leviathan 登场了,这是一款专为这类分析设计的“快速通道”软件工具。以下是它的工作原理,使用了简单的类比:

1. 速度技巧:跳过阅读

Leviathan 不像旧工具那样阅读每一个字,而是利用两个巧妙的捷径:

  • “指纹”扫描仪(分类学): 为了弄清楚这堆书中在场,它使用了一个名为 Sylph 的工具。这就像扫描书的条形码或独特的指纹,而不是阅读整个故事。它能瞬间识别出作者,甚至无需阅读一个句子。
  • “目录”检查(功能): 为了弄清楚微生物在做什么,它使用了一个名为 Salmon 的工具。Leviathan 不再将文本翻译成另一种语言(这是旧工具使用的缓慢过程,称为“翻译搜索”),而是直接在原始语言中查看“目录”(基因目录)。它将看到的章节与已知的故事进行匹配,完全跳过了繁重的翻译步骤。

2. 双重检查系统

Leviathan 不仅仅是猜测;它为发现的每一个故事提供两个具体的评分:

  • 丰度(Abundance): “这个故事有多少个副本?”(就像统计有多少人正在阅读某一本书)。
  • 覆盖率(Coverage): “整个故事都在吗,还是只有几页?”它会检查微生物群落是否拥有完成完整代谢途径所需的所有必要“章节”(酶促步骤),确保故事从头到尾逻辑通顺。

3. 结果:更快、更轻量

当作者将 Leviathan 与当前的黄金标准(一种名为 HUMAnN 的工具)进行对比测试时,结果令人瞩目:

  • 速度: 速度提升了高达 74 倍。如果旧工具完成一项工作需要一周,Leviathan 只需几个小时。
  • 内存: 它使用的计算机内存减少了 14 倍。这就像背着装满砖块的背包跑马拉松,与只穿着轻便夹克跑步的对比。
  • 准确性: 它不仅变得更快,而且在识别特定微生物及其遗传变异(泛基因组)方面表现更佳,准确率提高了高达 12%。

4. 现实世界的例子

本文通过两个具体的故事展示了 Leviathan 的实际应用:

  • 海洋生物膜: 他们观察了在海洋塑料上生长的微生物。Leviathan 帮助他们看到了随着生物膜从年轻阶段发展到成熟阶段,“群落对话”是如何变化的,揭示了它们在摄食和生存方式上的转变。
  • 龋齿研究: 他们分析了牙菌中细菌的“声音”(基因活性)。通过观察细菌的特定遗传变异,他们发现了独特的模式,能够区分健康的口腔和患有龋齿的口腔。

简而言之: Leviathan 是一款新的开源工具,它让科学家能够以前所未有的速度、更少的计算资源来分析复杂的微生物群落,同时不牺牲准确性。这就像从缓慢的手动打字机升级到了既能高速打印又能自动检查自身工作的高性能数字打印机。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →