Elucidating the Size of Chemical Space with Assembly Theory

本文利用组装理论(一种基于递归键合操作的分子复杂性第一性原理度量方法)重新估算了化学空间的大小,揭示了在类药性约束(质量 < 500 Da)下,当组装指数为 25 时,可能存在的分子数量达到约 10^117,并随着复杂度的增加从超指数级增长转变为双指数级增长。

原作者: Juan Carlos Morales Parra, Keith Y Patarroyo, Abhishek Sharma, David Obeh Alobo, Leroy Cronin

发布于 2026-06-11
📖 1 分钟阅读☕ 轻松阅读

原作者: Juan Carlos Morales Parra, Keith Y Patarroyo, Abhishek Sharma, David Obeh Alobo, Leroy Cronin

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

想象一下,你正试图计算出你可能搭建出的每一个可能的乐高城堡。你可能会想:“由于拼凑积木的方式实在太多了,这个数字基本上是无穷大的。”科学家们曾尝试估算过这个数字,通常认为大约有 10 的 60 次方(即 1 后面跟着 60 个 0)个“类药物”分子。但这些猜测存在一个缺陷:它们统计了所有可能的积木组合,甚至包括那些会立刻散架或在物理上毫无意义的组合。它们没有追问:“建造这个东西到底有多难?”

这篇论文引入了一种新的方法来计数可能的分子宇宙,使用的是组装理论(Assembly Theory)的概念。请不要仅仅把它看作是在计数最终完成的城堡,而是要计算构建它所需的最小步骤数

以下是利用简单类比对他们研究结果的解读:

1. “说明书”度量指标

假设你有一个特定的分子。要建造它,你需要一套指令。

  • 旧方法: 只计算分子中有多少个原子。
  • 新方法(组装理论): 计算从零开始构建该分子所需的最小“拼插”步数。
    • 如果你有一条由相同珠子组成的长链,你可以通过不断复制一个小块来快速构建它。这是一个“低复杂度”物体。
    • 如果你的分子中每一个部分都是独特的,你必须一个接一个地连接它们,那么这需要更多的步骤。这就是一个“高复杂度”物体。

研究人员将这个步骤数称为组装指数(Assembly Index)。它就像是一个“难度等级”。

2. “乐高宇宙” vs. “现实世界”

论文区分了两个空间:

  • 组装宇宙(The Assembly Universe): 这是理论上的空间,包含了你可以用乐高积木做出的所有可能形状,即使这些形状是不稳定或在现实中无法稳固存在的。
  • 化学空间(Chemical Space): 这是“现实世界”的子集。它仅包含物理性质稳定且能实际存在的分子(例如包含近 10 亿种真实药物分子的 GDB-13 数据库)。

研究人员使用 GDB-13 数据库作为地图,来观察“现实世界”的化学空间究竟有多大。

3. 空间增长速度如何?

核心问题是:随着“难度等级”(组装指数)的上升,可能分子的数量是如何爆炸式增长的?

  • 研究发现: 可能分子的数量增长得极其迅速
    • 它的增长速度超过了标准的指数曲线(如复利增长)。
    • 它的增长率介于“超指数”和“双指数”之间。
    • 类比: 如果你把分子数量想象成一个气球,标准增长就像是在缓慢吹气;而这篇论文表明,这个气球膨胀得如此之快,以至于它实际上是在爆炸。

4. “过滤器”效应

论文还研究了如果给乐高积木加上“过滤器”会发生什么。

  • 无环结构: 如果你只允许直链状原子(没有环路),空间的增长方式是特定的。
  • 有环结构: 如果你允许原子形成环路(环状结构),分子往往会更具“对称性”(更容易通过复制部分来构建),这改变了空间增长的方式。
  • 特定基团: 如果你要求分子必须具有特定的形状(比如正方形环),空间会缩小,但依然庞大得惊人。

5. 最终计数

当研究人员应用了所有关于“类药物”分子的标准规则(例如:重量必须在一定范围内、必须稳定、必须具有特定类型的原子),并观察组装指数为 25 的分子时,他们计算了这个空间的大小。

结果: 存在大约 10 的 117 次方个可能的分子。

为了让你理解这个概念:

  • 之前的估计是 10^60。
  • 新的估计是 10^117。
  • 这是一个如此巨大的数字,它让整个可观测宇宙中的原子总数都显得微不足道。

总结

这篇论文指出,“可能的分子宇宙”不仅很大,而且随着复杂度的增加,它以一种令人胆寒的速度飞速增长。通过使用“计步法”(组装理论)而非仅仅计数原子,他们发现即使对于构成优秀药物的严格规则,可能性的数量也大约是 10^117。这表明,在如此浩瀚的可能性海洋中寻找一个特定的、有用的分子是一项极其艰巨的任务,仅仅是因为这个海洋比我们之前认为的要大得多。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →