Carbon: Decoding the Language of Life

本文介绍了 Carbon,这是一系列高效的领域自适应生成式 DNA 语言模型,它们采用非重叠的 6-mer 分词和专门的训练目标,在实现与现有大规模基因组模型相当的性能的同时显著提升了推理速度,从而证明了将模型设计与 DNA 独特的统计和生物学特性相契合的重要性。

原作者: Allal, L. B., Li, Q., Fiusco, M., Tunstall, L., Rasul, K., Beeching, E., Aubakirova, D., Patino, C., Frere, T., Lozhkov, A., Channing, G., Wolf, T., Bernardo, D. d., Werra, L. v.

发布于 2026-05-25
📖 1 分钟阅读☕ 轻松阅读

原作者: Allal, L. B., Li, Q., Fiusco, M., Tunstall, L., Rasul, K., Beeching, E., Aubakirova, D., Patino, C., Frere, T., Lozhkov, A., Channing, G., Wolf, T., Bernardo, D. d., Werra, L. v.

原始论文采用 CC BY 4.0 许可(https://creativecommons.org/licenses/by/4.0/)。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

想象一下,地球上所有生命体的构建指令都是用四字母表(A、C、G 和 T)写成的。长期以来,科学家们一直试图教会计算机阅读和理解这种“生命语言”,就像我们教会计算机理解人类语言或文本一样。

最近,一种名为“大语言模型”(LLM)的新型人工智能在理解人类语言方面变得极其出色。这篇论文背后的研究团队 Carbon 提出了一个重大问题:我们能否利用这些同样强大的人工智能工具来理解 DNA?

以下是他们面临的挑战,通过一个简单的类比来解释:

问题:将小说翻译成词典

人类语言建立在单词之上。如果你想让 AI 阅读一本书,你会将文本拆分为单词(token)。但 DNA 并非由单词构成;它是一条由单个字母组成的连续流。

如果你将每个字母(A、C、G、T)视为一个独立的“单词”,故事就会变得无限漫长。人类基因组就像一座拥有数百万页的图书馆。如果你强迫 AI 一次只读一个字母,它会在理解整个故事之前就因不堪重负而耗尽内存。

然而,如果你将字母分组为块(像单词一样),你可能会忽略那些微小却至关重要的细节。在 DNA 中,仅仅改变一个字母就可能是健康细胞与疾病之间的区别。因此,AI 需要同时看到整个基因组的“大局”和单个字母的“细则”。

解决方案:Carbon

该团队构建了 Carbon,这是一个专为解决这一生物学难题而设计的全新 AI 模型家族。他们并没有试图完全复制人类语言模型,而是调整了方案以适应生物学特性。

将 Carbon 想象成一位聪明的图书管理员,它使用一种特殊技巧来阅读 DNA 书籍:

  1. 特殊词典(分词): Carbon 不是一次读一个字母,而是一次读取六个字母组成的组(称为"6-mer")。想象一下,你不是逐个字母阅读句子,而是通过像“那只猫坐着”这样的小短语来阅读。这使得故事大大缩短且更易于处理,同时仍保留足够的细节以识别重要变化。
  2. 长程记忆(上下文): Carbon 拥有巨大的记忆容量。它一次能在“脑海”中容纳多达 786,000 个 DNA 字母。这就像能够一次性读完整本百科全书,使其能够理解某一章节中的基因如何与完全不同章节中的调控因子相关联。
  3. 训练方法: 他们并没有随意地向 AI 投喂 DNA 数据。他们精心策划了数据,并分阶段训练模型:首先学习语言的基本统计规律,然后学习预测序列的下一部分。

结果:快速且高效

论文声称 Carbon 的效率令人惊讶。

  • 更小但更强: 较小的 Carbon 模型(30 亿参数)的表现与更大、更复杂的竞争对手(Evo2-7B)相当,尽管其“脑力”不到后者的一半。
  • 速度: 由于其高效的设计,在执行类似任务时,Carbon 的“思考”(推理)速度比其他模型快数十倍。
  • 更好的长程理解: 较大的 Carbon 模型(80 亿参数)在发现 DNA 远距离部分之间的关联方面表现出最大的提升,这对于理解基因调控至关重要。

核心启示

这篇论文的主要观点不仅仅是他们构建了一个快速的 AI。而是他们证明了你不必强行将 DNA 塑造成人类语言的样子也能获得良好的结果

通过尊重 DNA 的独特结构——采用特定的字母分组方式,并根据生物学现实量身定制训练——他们创造了一个既强大又高效的模型。他们正在向公众发布他们的“配方”(代码、数据和模型),邀请他人看到:在设计专门用于生物学的 AI 时,我们仍有巨大的改进空间,而不仅仅是照搬适用于人类文本的方法。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →