Accurate ab initio gene prediction in eukaryotes with Tiberius in multiple clades

本文介绍了Tiberius,这是一种基于深度学习的从头基因预测工具,它通过训练谱系特异性模型,在多种真核生物分支中实现了最先进的准确性并显著缩短了运行时间,从而有效解决了当前基因组注释中的瓶颈问题。

原作者: Gabriel, L., Bruna, T., Kaur, A., Krishnan, A., Ortmann, F., Salamov, A., Talbot, S., Becker, F., Krieg, R., Wheat, C. W., Grigoriev, I. V., Stanke, M., Hoff, K. J.

发布于 2026-04-28
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一下,一个生物体的 DNA 就像一座庞大而古老的图书馆,里面堆满了书籍。这些书中的大部分文字只是随机的涂鸦或背景噪音,但其中隐藏着真正的“操作手册”(基因),它们指导生物体如何构建自身并维持生命。基因组注释的工作,就是充当一位能够扫描数百万页内容、找出真正操作手册并正确标注它们的图书管理员。

长期以来,这项工作一直是一个瓶颈。这就像试图在一座图书馆中寻找特定的句子,而馆中的书籍是用成千上万种不同的方言写成的,且我们过去用来阅读它们的工具要么缓慢、要么不准确,要么仅适用于少数几种特定语言。

Tiberius 登场了,这是一位由“深度学习”(一种通过观察模式进行学习的人工智能,有点像孩子通过观察许多不同的猫来学会识别猫)驱动的新型超级智能数字图书管理员。

以下是这篇论文对 Tiberius 的简要说明:

  • 它精通多种语言:此前,这类智能图书管理员(Tiberius)主要被训练用于阅读哺乳动物(如人类和小鼠)的“方言”。本文表明,研究人员已教会 Tiberius 阅读另外六大生命类群的操作手册:开花植物、真菌、脊椎动物、昆虫、绿藻和硅藻(微小的水生生物)。他们并未使用一本通用的规则手册,而是为每个类群专门训练了一位“专家”。
  • 它是最快且最准确的:研究人员在 33 种不同物种中将 Tiberius 与其他顶级数字图书管理员(名为 Helixer 和 ANNEVO)进行了测试。Tiberius 每次都赢得了比赛。它比其他工具更准确地找到了正确的基因,并且速度快得多。
  • “神奇”的对比:还有另一个名为 BRAKER3 的工具非常强大,但它需要额外辅助才能良好运行。它需要来自 RNA-Seq(活跃基因的快照)和蛋白质证据(基因产物的物理证明)的“线索”。然而,Tiberius 是一个“从头开始”(ab initio)的工具,这意味着它像一位侦探,仅利用 DNA 文本本身中发现的线索来解开谜团,无需那些额外的外部提示。
    • 即使没有这些额外线索,Tiberius 在植物、真菌和藻类方面的准确率仍与 BRAKER3 相当。
    • 最大的亮点在于?当 Tiberius 在现代图形处理器(GPU)上运行时,其速度比 BRAKER3 快 80 倍。这就像将蜗牛与火箭飞船相提并论。

简而言之:这篇论文介绍了一位升级版的、多语言的人工智能图书管理员,它能够从多种不同生命形式的 DNA 中找到操作手册。它比竞争对手更准确,无需额外外部线索即可工作,并且能在极短的时间内完成任务。您可以在论文提供的 GitHub 链接中找到这一新工具。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →