Attention-based optimizer for symmetry finding

原作者： Shreya Banerjee, Vinodh Raj Rajagopal Muthu, Charlie Nation, Rick P. A. Simon, Francesco Martini, Alessandro Ricottone, Federico Cerisola, Luca Dellantonio

发布于 2026-06-01

📖 1 分钟阅读🧠 深度阅读

查看于 arXiv ↗PDF ↗

CC BY 4.0

原作者： Shreya Banerjee, Vinodh Raj Rajagopal Muthu, Charlie Nation, Rick P. A. Simon, Francesco Martini, Alessandro Ricottone, Federico Cerisola, Luca Dellantonio

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正在试图解开一个巨大且极其复杂的谜题。这个谜题代表着一个物理系统，比如一群相互作用的原子或粒子。在物理学世界中，这些相互作用通过一种被称为“哈密顿量”（Hamiltonian）的东西来描述。

通常，为了理解这些系统，科学家会寻找对称性（Symmetries）。把对称性想象成一条隐藏的规则或模式，无论你如何重新排列这些碎片，它都保持不变。如果你找到了这条规则，这个谜题就会变得容易解决，因为你可以忽略掉许多令人困惑的细节。

长期以来，寻找这些隐藏规则的过程就像是在用一种非常缓慢、有条不紊且僵化的过程在草堆里找针。如果草堆非常庞大（在量子物理学中经常如此），这种方法会耗费极长的时间。

新方法：一个“智能”搜索引擎

在这篇论文中，作者引入了一种利用**人工智能（AI）**来更快找到这些对称性的新工具。他们称之为“基于注意力的优化器”（Attention-based Optimizer）。

以下是它的工作原理，我们使用一些日常类比：

1. 问题：一群嘈杂的人

想象哈密顿量是一个充满人（“泡利算符串”，Pauli-Strings）的房间，大家都在同时说话。你需要找到一个特定的人（“对称性”），他可以站在角落里倾听所有人，而不会干扰或感到困惑。用物理术语来说，这个人必须与所有人“对易”（commute），这意味着他的存在不会改变对话的内容。

寻找这个人的旧方法是逐一检查每一个人与其它所有人的关系。这种方法虽然彻底，但极其缓慢。

2. 解决方案：集合变换器（超级倾听者）

作者构建了一个名为集合变换器（Set-Transformer）的机器学习模型。你可以把这个模型想象成一个超级智能的倾听者，他不仅能听到言语，还能理解言语之间的关系。

自注意力机制（Self-Attention）： 就像你可以倾听一群朋友聊天并立刻注意到谁在赞同谁，或者谁在争吵一样，这个 AI 使用“自注意力机制”。它同时观察房间里的所有“人”，并弄清楚他们是如何相互关联的。
顺序无关性： 在正常的对话中，词语的顺序很重要。但在这种谜题中，粒子的顺序并不重要。该 AI 被设计为能够理解：无论你按从左到右还是从右到左的顺序列出这些人，这个群体都是一样的。这对于正确解决物理谜题至关重要。

3. 训练：通过试错学习

AI 在开始时并不知道答案。它会对谁是那个“对称性”的人做一个猜测。

评分卡（损失函数）： 系统会检查这个猜测。如果猜中的那个人干扰了对话（不对易），得分就会很低。AI 会受到“惩罚”，然后再次尝试。
障碍： AI 必须避免两个陷阱：
1. “无所作为”陷阱： 它不能仅仅猜测“沉默”（单位矩阵/Identity）就是答案，因为那是一个无聊且毫无用处的对称性。系统会强制它寻找一个真实的、活跃的模式。
2. “模棱两可”陷阱： AI 最初会给出模糊的答案（比如“50% 确定”）。系统会推动它做出明确的决定（要么是“是的，这就是对称性”，要么是“不是”）。

4. “自适应上下文扩展”（魔法助力）

有时，AI 会陷入困境。这就像一名侦探观察了房间里所有的线索，却仍然无法破案，因为线索太稀疏或太混乱。AI 可能会陷入“局部极小值”——即一个它认为表现尚可、但实际上离真实答案还很远的位置。

为了解决这个问题，作者添加了一个名为**自适应上下文扩展（ACE）**的功能。

类比： 侦探意识到：“我被卡住了。我需要更多线索。”于是，系统通过组合现有的线索（在数学上通过将两个“人”相乘来创造一个新的“人”）来神奇地创造出新的线索。
结果： 这给了 AI 一个全新的视角和一次“踢击”，让它能从卡住的位置跳出来并继续搜索。它有效地扩展了房间，让 AI 能看到更多的连接。

他们发现了什么？

作者在三种类型的谜题上测试了这个新的 AI 侦探：

随机谜题： 他们制作了一些随机且混乱的哈密顿量。在这里，AI 运行很快，但它需要大量的计算资源（许多次“开始”或尝试）才能成功，尤其是当谜题非常复杂时。这就像是在一个不断变形的草堆里找针。
现实世界的物理谜题（伊辛模型与托里克码）： 这些是描述真实磁性材料和量子纠错码的模型。
- 重大胜利： 对于这些现实世界的系统，AI 的速度惊人地快——比传统的僵化方法快了数百甚至上千倍。
- 为什么？ 真实的物理系统具有结构性。它们不是随机的混沌，而是拥有重复的模式（比如磁铁组成的网格）。AI 的“超级倾听”能力非常适合立即识别这些模式。它甚至不需要经常使用“魔法助力”（ACE），因为线索本身已经非常清晰了。

核心结论

这篇论文展示了一种利用 AI 在复杂物理系统中寻找隐藏规则的新方法。它不再是逐一检查每种可能性（这很慢），而是通过观察全局、学习关系并快速找到答案。

对于随机、混乱的问题： 它效果很好，但需要大量的计算能力。
对于现实世界的物理问题： 它是一个游戏规则改变者，能比传统方法几乎瞬间找到解决方案。

作者指出，这是首次利用机器学习直接从原始物理模型中寻找对称性，这为未来解决更难的物理问题打开了大门。

基于注意力机制的对称性发现优化器

问题陈述

寻找物理系统的对称性对于理解和解决复杂模型（特别是量子多体物理领域）至关重要。虽然现代计算方法允许直接研究复杂的模型，但许多模型对于暴力数值实现（例如精确对角化）而言仍然是难以处理的。尽管存在如张量网络之类的近似技术，但这些技术通常依赖于特定的结构假设，而当物理系统不符合这些假设时，其性能会发生退化。

现有的对称性寻找算法（如文献 [38–40] 中提出的确定性方法）可以通过寻找一个能够稳定对称性的参考框架来减少比特数。然而，尽管这些确定性方法在计算上是有效的（三次运行时间），但对于具有大量量子比特的系统，它们会面临长时间尺度的挑战。此外，虽然它们保证能找到所有的对称生成元，但对于大型系统而言，计算成本可能非常高。因此，需要一种能够直接从输入的哈密顿量中快速识别泡利对称性（Pauli symmetries）的方法，特别是在对称性并不直观显现的物理系统中。

方法论

作者提出了一种将自动化对称性发现与深度学习相结合的机器学习优化框架。该框架的核心是 Set-Transformer 架构，选择该架构是因为寻找泡利对称性的问题本质上是置换不变的（哈密顿量中泡利字符串的顺序并不重要）。

1. 输入表示：
输入的哈密顿量 $H = \sum P_i$ 被表示为一个表格 $H_t$ ，这是一个二进制矩阵，其中每一行对应一个通过辛形式化（symplectic formalism）编码为 $2n_q$ 维二进制向量的泡利字符串。这种表示保留了输入的置换不变性。

2. 架构：
该模型由三个主要部分组成：

输入嵌入与投影（Input Embedding and Projection）： 二进制表格行通过一个线性层被投影到一个连续的可学习潜空间中。为了保持置换不变性，避免了使用位置嵌入。
Set-Transformer（编码器-解码器）：
- 编码器（Encoder）： 使用堆叠的集合注意力块（SAB），包含多头注意力（MHA）和行向前馈（rFF）层。自注意力机制用于编码泡利字符串之间的成对及高阶相关性。
- 解码器（Decoder）： 将学习到的相关性投影为单个候选对称向量。它包含一个池化多头注意力（PMA）层、一个 SAB、层归一化以及一个将潜维度映射回 $2n_q$ 的线性层。
- 激活（Activation）： 一个 Sin 层紧随其后的可学习 Sigmoid 层将连续输出映射为近似二进制值（0 和 1），代表候选泡利对称 $S_p$ 。
自适应上下文扩展（Adaptive Context Expansion, ACE）： 为了解决非解数量远多于解的数量的问题（尤其是在随机哈密顿量中），框架包含了一个 ACE 模块。如果优化器似乎陷入了局部最小值（通过振荡的损失函数检测），ACE 会通过向哈密顿量中添加现有泡利字符串的乘积（ $P_i P_j$ ）来合成地扩展上下文。这提供了新的信息，帮助优化器跳出局部最小值。

3. 优化目标：
该框架最小化一个由四个项组成的自定义损失函数 $C$ ：

交换项损失（ $C_{com}$ ）： 主要目标，确保候选者 $S(\theta)$ 与 $H$ 中的所有项都对易。它使用一个可微代理函数 $\sin^2(\frac{\pi}{2} x)$ 来实现模 2 交换条件。
零惩罚项（ $C_{zp}$ ）： 防止平凡解（恒等算符）的出现，通过惩罚所有元素均为零的输出。
二进制惩罚项（ $C_{bin}$ ）： 鼓励连续输出值收敛到二进制值（0 或 1）。
线性正则项（ $C_{lin}$ ）： 通过倾向于选择反交换次数有限的候选者来辅助早期优化，从而缓解交换项损失的多模态特性。

优化过程使用 AdamW 优化器进行，并带有验证是否找到有效对称性的早停条件。

核心贡献

首个基于机器学习的对称性寻找器： 据作者所知，这是第一项利用机器学习和人工智能直接从输入哈密顿量中寻找对称性，且无需预先了解系统或对称性的工作。
Set-Transformer 架构： 应用 Set-Transformers 来编码泡利字符串之间的相关性，将其类比为自然语言处理中的 token，以提取全局关系。
自适应上下文扩展： 一个动态增加输入上下文的创新模块，旨在帮助优化器在解非常稀疏的复杂损失景观中进行导航。
概率加速： 该框架提供了一种概率性的方法，对于特定的物理系统，其寻找对称性的速度显著快于确定性替代方案，这是以确定性保证换取了速度。

结果

该框架在三类哈密顿量上进行了基准测试：

1. 随机泡利哈密顿量：

在不同秩（Rank, $R$ ）的 10 量子比特系统上进行测试。
对于秩 $R=4$ 到 $16$ 的情况，基于注意力的优化器比确定性算法更快地找到了对称性。
对于更高的秩，最小时间复杂度随 $R$ 呈 $O(2^{0.705R})$ 缩放，而确定性算法在 $R \le 8$ 时为 $O(2^R)$ 。
成功概率随秩的增加而下降，需要更多的并行启动（即更多的 GPU）才能达到 90% 的成功率。对于 $R=18$ ，估计需要 32 个并行启动。

2. 周期性 1-D 横场伊辛模型（Transverse-Field Ising Model）：

测试了量子比特数 $n_q$ 在 10 到 1400 之间的系统。
框架的 GPU 实现比确定性方法快约 225 倍，而 CPU 实现则快 1500 倍。
随着系统规模的增大，优化器所需的迭代次数保持基本不变（饱和在 35–40 次左右），而确定性算法所需的 Clifford 门数量呈多项式增长。
失败概率极低（平均 $p_f \approx 0.033$ ）。

3. 2-D 伊辛梯形（Ising Ladder）与 Toric Code：

应用于高达 $n_q = 1000$ 的 2-D 伊辛梯形和 Toric code（含或不含磁场）。
框架相对于确定性算法表现出显著优势，对于伊辛梯形，GPU 实现的速度快了约 $10^5$ 倍。
对于 Toric code，这种优势随系统规模增大而增加。观察到确定性算法的缩放效果差于预期的 $O(n_q^3)$ ，这可能是由于泡利字符串数量适中的原因。
在所有测试的几何结构中，优化器均实现了高成功率和低失败概率。

关于物理系统与随机系统的观察：
论文指出，该框架在物理哈密顿量（伊辛、Toric）上表现异常出色，因为它们的表格表示编码了有序、局部且重复的物理相互作用。这种结构使得上下文具有即时信息量，从而使优化器能够轻松地在损失景观中导航。相比之下，随机哈密顿量缺乏这种规律性，需要更多的计算资源（上下文扩展和并行启动）来寻找对称性。

意义与主张

作者声称，这项工作是向利用机器学习寻找其他类别对称性（目前尚无最优或确定性策略）迈出的重要一步。通过将机器学习与自动化对称性寻找相结合，该框架为物理哈密顿量提供了相比于最先进的确定性策略“实质性的速度优势”。

论文谦逊地将贡献定位为使用注意力机制解决量子物理中代数问题的概念验证。它强调，虽然该方法是概率性的，并且对于随机系统需要并行化处理，但对于物理模型（其系统性相互作用已嵌入在哈密顿量中）是非常有效的。作者计划在未来的工作中扩展此方法，以寻找其他对称性类别，例如 Clifford 对称性。