gTranslate: rapid and accurate translation table prediction for prokaryotic genomes

本文介绍了 gTranslate,这是一种计算高效的机器学习工具,能够在无需预先进行分类学分类的情况下,准确预测原核基因组的翻译表,其准确率超过 99.99%,并能够发现特定细菌谱系中的新型遗传密码变异。

原作者: Chaumeil, P.-A., Hugenholtz, P., Parks, D. H.

发布于 2026-05-28
📖 1 分钟阅读☕ 轻松阅读

原作者: Chaumeil, P.-A., Hugenholtz, P., Parks, D. H.

原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

想象一下,每个生物体都拥有一本秘密指令手册,用仅由四个字母组成的语言书写。要阅读这本手册并理解生物体如何构建其蛋白质(即其基本构件),你需要一个特定的“解码环”或翻译表。对于大多数细菌而言,这个解码环是标准的,但有些细菌却替换了某些符号——例如,将某个特定氨基酸的“终止”信号改为“继续”信号。

问题在于,科学家往往需要在确切知道所观察的是哪种细菌之前,就先阅读这些手册。目前,他们不得不根据细菌的科属名称(而他们可能尚未知晓)来猜测应使用哪种解码环,或者依赖粗略的经验法则。这就像试图用外语读书,却不知道该抓哪本字典,常常导致困惑或错误。

gTranslate 登场:智能解码环

本文介绍了一种名为gTranslate的新工具。它就像一个超级智能的自动化翻译器,无需你事先告知细菌的名称。它不再靠猜测,而是利用由五种不同“侦探”(机器学习方法)组成的团队,审视 DNA 中的特定线索:

  1. 指令的拥挤程度:它会检查基因的紧密排列程度。
  2. “终止”信号之谜:它会专门寻找一个名为"UGA"的符号。在标准细菌中,UGA 意味着“终止”。但在某些奇特的细菌中,UGA 意味着“色氨酸”(一种基本构件)或“甘氨酸”。gTranslate 通过统计这种转换发生的频率,来推断实际使用的是哪种解码环。

为何意义重大

作者们在数千个细菌基因组上测试了 gTranslate,其准确率极高——超过 99.99% 的情况下都能给出正确答案。为了便于理解,如果你用该工具分析 10,000 种不同的细菌,其出错次数将少于一次。此外,它的运行速度和效果都远优于科学家此前使用的笨拙方法。

新发现

由于 gTranslate 极其擅长识别这些隐藏规则,研究人员发现了一些令人惊讶的事实:

  • 他们发现了一个特定的细菌类群(Ca. Stammera capleta 的一个谱系),原本被认为使用"UGA = 色氨酸”的转换,但 gTranslate 显示它们实际上遵循标准的"UGA = 终止”规则。这就像发现一个被所有人认为说法语的家族,实际上却讲英语。
  • 他们在一个名为 Patescibacteriota 的类群中,找到了首批使用"UGA = 色氨酸”转换的细菌实例。这意味着该特定细菌类群是独一无二的,因为其成员能够使用三种不同类型的解码环(表 4、表 11 和表 25),这是其他任何细菌类群尚未被知晓所能做到的。

简而言之,gTranslate 是一款快速且高度准确的工具,能够自动解析细菌如何解读其遗传指令,解决了科学家面临的一大难题,并揭示了生命解读自身密码的新秘密。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →