原作者： Shuvro Chowdhury, Jasper Pieterse, Navid Anjum Aadit, Shaila Niazi, Johan H. Mentink, Kerem Y. Camsari

发布于 2026-05-13

📖 1 分钟阅读🧠 深度阅读

原作者： Shuvro Chowdhury, Jasper Pieterse, Navid Anjum Aadit, Shaila Niazi, Johan H. Mentink, Kerem Y. Camsari

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，试图预测一大群人的行为，其中每个人都在以复杂且不可见的方式不断对邻居做出反应。在物理学界，科学家将此类系统称为“量子多体系统”。试图在普通计算机上模拟这一过程，就像在狂风中试图数清沙滩上的每一粒沙子；对于大规模群体而言，这不仅极其缓慢，而且往往不可能实现。

本文提出了一种结合智能软件与专用硬件的新方法来解决这一问题。以下是他们方法的分解，辅以简单的类比：

1. 问题：模拟的“交通拥堵”

科学家使用一种名为“神经量子态”（NQS）的方法来模拟这些量子群体。可以将神经网络想象成一张非常智能的地图，用于预测群体的行为。然而，为了更新这张地图，计算机必须运行数百万次随机模拟（就像询问群体：“如果每个人都向左移动一步会怎样？”），以观察会发生什么。

在标准计算机（CPU）上，这种采样过程会造成巨大的“交通拥堵”。计算机花费大量时间生成这些随机场景，以至于无法真正学到答案。这就是作者希望解决的“瓶颈”。

2. 解决方案：专用的“概率”引擎

作者没有让通用计算机去模拟随机性，而是利用FPGA（可重新编程以充当专用硬件的芯片）构建了一台定制机器。

类比：想象标准计算机是一位非常聪明的图书管理员，试图亲手整理图书馆。虽然准确，但速度缓慢。而作者的概率计算机则像是雇佣了 2,200 名微小且快速的工作者（称为p-bits），他们可以同时整理书籍。
工作原理：这些 p-bits 是简单的单元，根据邻居的状态在两种状态之间翻转（就像硬币落地是正面还是反面）。由于它们直接构建在硬件中，因此无需“思考”如何变得随机；它们本质上就是随机的。这使得它们能够几乎瞬间生成模拟所需的数百万种场景。

3. 第一个突破：模拟巨型群体

该团队利用这种新硬件模拟了一个量子自旋的二维网格（就像一排排微小的磁铁）。

结果：他们成功模拟了一个80 乘 80（共 6,400 个自旋）的网格。
意义：以前的方法很难达到这一规模，要么导致系统崩溃，要么耗时过长。他们的定制硬件使他们能够以高精度达到这一规模，证明了专用的“概率”芯片可以处理那些对普通计算机来说过于庞大的量子模拟。

4. 第二个突破：“深度”学习技巧

作者还希望使用“更深”的神经网络（堆叠更多逻辑层），因为它们更擅长理解复杂模式。然而，深度网络通常需要一个名为“边缘化”的数学步骤，这就像试图通过测量每个人的身高来计算人群的平均身高——对于深度网络而言，这在计算上是不可能的。

创新：他们发明了一种**“双重采样算法”**。
类比：与其试图一次性测量整个人群，他们固定了外部的人（可见层），只让中间的人（隐藏层）进行随机排列。通过这种“条件采样”，他们无需进行不可能的数学计算就能得出答案。
结果：他们成功在单个 FPGA 芯片上训练了这些深度网络，用于一个30 乘 30（900 个自旋）的系统。他们发现，这些深度网络实际上更高效，只需更少的“设置”（参数）即可获得与更简单、更浅层网络相同的准确结果。

总结

简而言之，本文主要提出了两点主张：

硬件速度：通过构建一个充当海量随机硬币翻转者的定制芯片（FPGA），他们消除了阻碍量子模拟规模扩大的速度限制。他们模拟了一个包含 6,400 个粒子的系统，这一规模此前对于此类方法是无法企及的。
更智能的算法：他们创造了一种训练用于量子物理的“深度”神经网络的新方法，避免了不可能的数学计算。这使得更强大且更高效的模型成为可能。

作者总结道，通过将这种专用硬件与他们的新算法相结合，我们现在可以模拟比以往任何时候都更大、更复杂的量子系统，从而为理解以前难以研究的材料和物理现象打开了大门。

技术摘要：用于神经量子态的概率计算机

1. 问题陈述

精确模拟量子多体系统是凝聚态物理和量子化学中的根本性挑战。尽管量子蒙特卡洛（QMC）和张量网络等成熟方法已实现高精度，但它们面临固有的局限性：QMC 在通用系统中受限于符号问题，而张量网络则在二维系统及临界点附近因纠缠标度不利而难以应对。

神经量子态（NQS）利用神经网络参数化多体波函数，提供了一种可扩展的替代方案。然而，NQS 的变分蒙特卡洛（VMC）训练受限于马尔可夫链蒙特卡洛（MCMC）采样的计算成本。随着系统规模增大，通过采样估算可观测量和随机参数梯度所需的时间变得不可接受，即使对于受限玻尔兹曼机（RBMs）等相对简单的架构也是如此。这一瓶颈阻碍了向探索复杂量子相所需的大系统规模（例如 $>10^3$ 个自旋）的扩展。

2. 方法论

作者提出了一种软硬件协同设计方法，通过将稀疏玻尔兹曼机架构直接映射到概率计算硬件上，以克服采样瓶颈。

A. 概率硬件架构

该方法的核心是利用现场可编程门阵列（FPGA）实现概率计算机（p-computer）。

P 位（p-bits）： 硬件利用概率位（p-bits），即经典随机单元，在逻辑状态 $\{-1, +1\}$ 之间波动。这些单元自然地实现了采样所需的玻尔兹曼分布。
稀疏连接（FRBM）： 为避免密集网络的布线拥塞和 $O(N^2)$ 的布线复杂度，作者采用了一种进一步受限玻尔兹曼机（FRBM）。该架构强制实施严格的局部连接（欧几里得距离 $k=2$ ，对应每个自旋 13 个邻居），将布线复杂度降低至 $O(N)$ 。
混合执行： 主机 CPU 负责参数优化（使用随机重配置），而 FPGA 作为高吞吐量采样器。FPGA 通过并行 p 位更新生成自旋构型，随后传输至 CPU 进行梯度累积和参数更新。
精度： FPGA 实现采用 10 位定点算术以最大化 p 位密度和并行度，而主机 CPU 则使用单精度浮点（FP32）以确保优化过程中的数值稳定性。

B. 深度模型的双重采样算法

为了实现对深度玻尔兹曼机（DBMs）的训练——DBMs 比浅层 RBMs 具有更强的表达能力，但受限于对隐藏单元难以处理的边缘化问题——作者引入了一种双重采样算法。

概念： 该算法用条件采样替代了对辅助变量的边缘化（这在计算上代价高昂）。
过程：
1. 外层循环： 从物理层采样可见构型（ $v$ ）。
2. 内层循环： 对于每个固定的可见构型，钳位可见单元，并对辅助（隐藏和深层）层执行吉布斯采样。
3. 估算： 计算局部能量所需的波函数比率，被估算为给定固定可见状态下的辅助变量的条件期望。
效率： 该方法将物理自旋采样与辅助层采样解耦，降低了方差，并避免了每次单自旋翻转都需要重新采样的需求。它允许在严格的局部性约束下训练稀疏深度架构。

C. 可扩展性策略

多 FPGA 集群： 对于大型系统（例如 $80 \times 80$ 晶格），FRBM 图使用 METIS 图划分工具划分到多个 FPGA 上。边界 p 位通过高速 FMC 链路异步交换，而局部 p 位则同步更新。这使得系统能够扩展到超出单芯片资源的规模。

3. 主要贡献

硬件加速采样： 作者展示了将稀疏玻尔兹曼机映射到多 FPGA 集群，与 CPU 和 GPU 基线相比实现了巨大的采样加速。
双重采样算法： 他们提出了一种新颖算法，通过用条件采样替代难以处理的边缘化，使得稀疏深度玻尔兹曼机的变分蒙特卡洛训练成为可能。
参数效率： 他们证明，与达到相似精度所需的浅层网络（RBMs）相比，稀疏深度架构（DBMs）以更少的参数实现了更低的变分能量，从而提高了参数效率。

4. 结果

该方法在临界点的二维横场伊辛模型（TFIM）上进行了验证。

单 FPGA 性能：
- 对于 $35 \times 35$ 晶格（1,225 个自旋），系统在约 100 次优化迭代内达到了化学精度（相对误差 $|\Delta E/E_{ref}| \le 1.6 \times 10^{-3}$ ）。
- 在 FPGA 上，采样消耗的时间不到总挂钟时间的 5%，而 CPU 基线即使使用显著更少的样本，也将 20–30% 的时间耗费在采样上。
- 基态能量在铁磁极限和场极化极限之间平滑插值，与连续时间路径积分蒙特卡洛基准相符。
多 FPGA 扩展：
- 使用六个互连 FPGA 组成的集群，作者模拟了高达 $80 \times 80$ （6,400 个自旋） 的晶格。
- 随着系统规模增大，系统仍保持在化学精度内的收敛，边界通信开销最小化（ $L=80$ 时的切割比例为 5.6%）。
- 异步通信允许局部 p 位超频至 15 MHz，显著优于严格全局同步所需的时钟频率。
深度模型训练：
- 在 $10 \times 10$ 晶格上，双重采样算法成功训练了稀疏 DBM，并达到了化学精度。
- 参数效率： 稀疏 DBM 以约一半的参数数量（ $N_p \approx 1300$ ）实现了比稀疏 RBM（ $N_p \approx 3100$ ）更低的变分能量，后者需要更多参数才能达到相似的精度。
- 可扩展性： 该算法成功应用于单个 FPGA 上的 $30 \times 30$ 晶格（900 个自旋），证明了训练深度模型处理此前难以用深度 NQS 处理的系统的可行性。
- 在 GPU 上的算法扩展性分析表明，在固定稀疏度下，迭代时间与线性维度呈二次方关系（ $t_{iter} \propto L^2$ ），这与总自旋数 $N=L^2$ 一致。

5. 意义与主张

本文主张，概率硬件有效地缓解了量子多体系统变分模拟中的采样瓶颈。通过将稀疏玻尔兹曼机架构与 p 位硬件相结合，作者展示了：

可扩展性： 能够模拟多达 6,400 个自旋的量子系统，超越了当前基于 CPU 和 GPU 的 NQS 实现的限制。
架构深度： 双重采样的引入使得深度稀疏模型的训练成为可能，这些模型提供了更好的参数效率，并具备表示复杂关联（如体积律纠缠）的能力，这是浅层网络无法做到的。
未来路径： 该工作将概率计算定位为经典模拟量子物质的可扩展途径。作者指出，随着 p 位架构从 FPGA 原型成熟为专用 CMOS 电路，在单个芯片上进一步集成采样、局部能量评估和梯度累积，可将延迟和能耗降低数个数量级，使 VMC 适用于远超当前可及范围的量子系统。

作者对于非 stoquastic 系统保持谦逊，指出将这种方法扩展到具有非平凡符号结构的系统需要复数参数或相位网络，这超出了当前的范围。同样，虽然采样瓶颈已得到解决，但由于基于主机的随机重配置更新，整体训练成本仍随系统规模线性增长，他们将其确定为未来硬件加速的目标。

Probabilistic Computers for Neural Quantum States