Pushing the limits of one-dimensional NMR spectroscopy for automated structure elucidation using artificial intelligence

本文提出了一种基于 Transformer 架构的深度学习框架,该框架仅利用一维 1^1H 和 13^{13}C NMR 谱图,即可成功实现对含有多达 40 个非氢原子的有机分子的自动化从头结构解析,并在 60.4% 的案例中将目标分子正确识别在排名前 15 的预测结果之内。

原作者: Frank Hu, Jonathan M. Tubb, Dimitris Argyropoulos, Sergey Golotvin, Mikhail Elyashberg, Grant M. Rotskoff, Matthew W. Kanan, Thomas E. Markland

发布于 2026-06-10
📖 1 分钟阅读☕ 轻松阅读

原作者: Frank Hu, Jonathan M. Tubb, Dimitris Argyropoulos, Sergey Golotvin, Mikhail Elyashberg, Grant M. Rotskoff, Matthew W. Kanan, Thomas E. Markland

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下你是一名正在试图破解谜团的侦探,但你手里没有指纹或目击者,只有一个模糊的嫌疑人影子照片。你的任务是仅凭这一个影子,就重构出嫌疑人的整张脸、身体和衣着。

这本质上就是化学家在试图仅通过 1D NMR(一维核磁共振)光谱 来确定一种新分子结构时所面临的挑战。

不可能的拼图

在化学世界中,一个分子就像是一个复杂的乐高结构。对于一个中等大小的分子(拥有大约 36 到 40 个像碳、氮或氧这样的“重”原子),将这些乐高积木拼凑在一起的可能性比地球上所有沙滩上的沙粒还要多。论文估计这个数字在 102010^{20}106010^{60} 之间。

传统上,仅使用简单的 1D NMR “影子”(光谱)来确定你拥有哪种特定的乐高结构被认为是不可能的。这就像仅仅通过看一个扁平的影子,就试图猜出十亿块乐高积木的具体排列方式。通常,化学家需要更多的线索,比如 2D NMR(它能提供 3D 地图)或者确切的成分清单(分子式)来解开这个谜题。

AI 侦探

研究人员构建了一个超级聪明的 AI 侦探(一个“Transformer”模型,与许多现代聊天机器人背后的技术相同),它可以仅凭 1D NMR 影子来解决这个难题。

他们通过一个巧妙的两步过程来训练它:

第一步:学习形状的语言(预训练)
在 AI 开始观察 NMR 影子之前,他们先教它玩另一种游戏。他们给它“Morgan 指纹”——这就像是描述分子微小碎片(片段)的数字条形码——并要求 AI 根据这些条形码构建完整的乐高结构。

  • 类比: 想象你在教一个孩子通过展示一堆砖块(窗户、门、墙壁)来建造一座房子,并要求他们组装出这座房子。
  • 结果: AI 成为了一个大师级的建筑师。它可以通过查看一份片段清单,在 97.8% 的情况下正确地重建整座房子。

第二步:真正的测试(光谱到结构)
一旦 AI 成为了建筑大师,他们便教它真正的任务:直接通过观察 NMR “影子”来猜测乐高结构。

  • 他们没有给它成分清单(分子式)。
  • 他们没有给它 3D 地图。
  • 他们只给了它 1D NMR 光谱。

结果:解决“不可能的任务”

该 AI 在这项不可能的任务上创造了奇迹:

  • 准确度: 对于长达 40 个原子的分子,AI 在其前 15 个猜测中,有约 60% 的时间能猜中正确的结构。
  • “影子” vs. “地图”: 即使 AI 没有得到完全精确的答案,它通常也非常接近。如果它猜错了,它建议的结构通常与真实分子有 82% 的相似度。这就像侦探猜错嫌疑人戴的是红帽子而不是蓝帽子,但把剩下的整套衣服都猜对了。
  • 单眼足矣: 令人惊讶的是,AI 仅使用氢(1H)NMR 光谱就能完成大部分工作,而不需要碳(13C)的数据。它在前 15 个猜测中仍能有 46.6% 的概率得到正确答案。
  • 现实世界的适应性: 该 AI 是基于计算机模拟进行训练的,但研究人员展示了它可以通过仅 50 个真实的实验光谱进行“微调”。即便只有这么少量的真实数据,它也能从真实数据上的 0% 准确率跃升至 21.5%。

为什么这很重要

想象一下,化学空间就像一个拥有 106010^{60} 本书的图书馆。仅通过阅读封面(1D NMR 光谱)来找到你需要的特定那本书被认为是极其困难的。这个 AI 不仅仅是在找书,它还能将搜索范围缩小到一小叠书(15 本),其中有 6 本很可能就是你要找的那本。

论文结论指出,这个工具让科学家们能够跳过获取更复杂数据的昂贵且耗时的步骤。它作为一个强大的过滤器,能够基于化学实验室中最简单、最常见的数据,迅速将无限的可能性缩小到可控的少数几种。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →