Bayesian Parameter Shift Rule in Variational Quantum Eigensolvers

原作者： Samuele Pedrielli, Christopher J. Anders, Lena Funcke, Karl Jansen, Kim A. Nicoli, Shinichi Nakajima

发布于 2026-05-07

📖 1 分钟阅读🧠 深度阅读

原作者： Samuele Pedrielli, Christopher J. Anders, Lena Funcke, Karl Jansen, Kim A. Nicoli, Shinichi Nakajima

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正试图在一片广阔而迷雾笼罩的山谷中寻找最低点。这片山谷代表了一个复杂量子系统的“能量”，而你的目标是找到绝对的底部（基态），因为这能告诉你系统最稳定的状态。这正是**变分量子本征求解器（VQE）**的工作。

然而，存在两个大问题：

地图充满噪声：每次你向量子计算机询问山谷在特定位置的高度时，得到的答案都伴随着静电干扰和模糊（噪声），就像在飓风中试图听清耳语。
地图极其昂贵：向量子计算机请求一次测量在时间和资源上的成本极高。你希望尽可能少地提问，就能找到底部。

为了找到底部，你通常需要知道哪个方向是“向下”的（即梯度）。在量子世界中，我们使用一种称为**参数移动规则（PSR）**的技术来确定斜率。可以将 PSR 想象成一份标准食谱：“要想知道这里的斜率，你必须精确地在左侧 1 米处和右侧 1 米处测量高度，然后进行一些数学运算。”

标准食谱的问题

这份标准食谱存在几个缺陷：

僵化：它要求你在非常具体、预设的位置进行测量。如果你在之前的旅程中恰好测量过这些点，标准食谱会忽略这些数据，并强迫你再次测量。
盲目：它给你一个斜率数值，但并未告诉你这个数值有多可靠。这个斜率是准确的，还是仅仅基于噪声数据做出的猜测？
浪费：它通常要求极高的精度（大量测量），即使当你远离底部、只需要大致方向时，或者当你非常接近底部、需要极高精度时，它也不加区分地要求同样多的测量。

新方案：贝叶斯参数移动规则

本文的作者提出了一种更聪明的方法来导航这片山谷，即使用贝叶斯参数移动规则。他们将这个问题比作侦探利用“高斯过程”（一种高级统计工具，充当灵活而智能的地图）来破解谜案。

以下是他们新方法的运作方式，使用简单的类比：

1. 灵活的侦探（灵活观测）

贝叶斯方法不像遵循“必须在此处和彼处精确测量”的僵化食谱，它更像一位灵活的侦探。

重用线索：如果你在旅程早期测量过某个点，这位侦探会记住它。他们不会强迫你再次测量，而是将旧线索与新线索结合，以获得更清晰的斜率图景。
任意位置：你可以选择在任何位置测量高度，而不仅仅局限于预先批准的地点。这使得算法能够高效得多。

2. 置信度计（不确定性）

标准食谱只给你一个数值。贝叶斯方法则给你一个数值加上一个置信度计。

想象侦探说：“斜率是 5 度，我有 95% 的把握。”
因为他们确切知道自己有多少不确定性，所以能做出更明智的决策。如果置信度计显示较低（高不确定性），他们就知道需要收集更多数据；如果置信度很高，他们就可以继续前进。

3. "GradCoRe"策略（明智的投入）

这是本文最大的创新。他们引入了一个名为GradCoRe（梯度置信区域）的概念。

目标：你只需要足够了解斜率，以便确信自己正在朝正确的方向移动。如果你离底部还很远，就不需要一张完美的地图。
策略：算法会问：“我现在需要多少测量次数（shots）才能有足够的信心迈出下一步？”
- 如果斜率陡峭且噪声低，它可能会说：“我只需要 10 次测量。”
- 如果斜率平缓且噪声高，它可能会说：“我需要 1000 次测量才能确定。”
结果：这节省了巨量的“资金”（测量次数），因为它在你不需要过度测量时阻止了你这样做。

结果：奔跑比赛

作者在模拟的量子计算机上，将这种新方法与旧的标准方法（如僵化的 PSR 和其他高级技术）进行了测试。

更快的收敛：他们的方法更快地找到了山谷底部。
更便宜：它使用显著更少的总测量次数，实现了相同（或更好）的结果。
优于最佳：在直接对比测试中，他们的"GradCoRe"方法击败了当前的最先进方法，包括其他贝叶斯方法和专用优化算法。

总结

可以将旧方法想象成一名盲目遵循严格地图的徒步者，即使只需要 10 步，也要走 100 步去测量地面。而新方法则像是一名拥有智能、自适应 GPS 的徒步者。它会记住你去过的地方，确切知道对地形的把握程度，并且只在绝对必要时才请求新的测量。这使得他们能够以更少的努力更快地到达目的地。

本文证明，通过使用这种“智能 GPS"（贝叶斯 PSR）和“预算感知策略”（GradCoRe），我们可以更高效地优化量子计算机，从而节省宝贵的量子资源。

技术摘要：变分量子本征求解器中的贝叶斯参数移动规则

问题陈述
变分量子本征求解器（VQE）是一种混合量子 - 经典算法，旨在近似物理系统的基态能量。VQE 优化中的一个关键瓶颈是梯度估计的高昂成本，这依赖于重复的量子测量（shots）。观测噪声主要源于测量 shot 噪声，因此需要大量的 shots 才能获得准确的梯度。现有方法，如使用标准参数移动规则（PSR）的随机梯度下降（SGD）或序列最小优化（SMO）变体（如 NFT），通常需要在每次迭代中固定使用高数量的 shots，或者缺乏根据优化当前状态自适应降低观测成本的机制。虽然高斯过程（GPs）已被用于 VQE 中的贝叶斯优化（BO）以及改进 SMO 方法（例如 EMICoRe、SubsCoRe），但其在 SGD 梯度估计中的应用却十分有限。具体而言，亟需一种梯度估计技术，该技术能在观测位置上提供灵活性，提供不确定性量化，并能重用历史数据以最小化总量子计算成本。

方法论
本文提出了一种贝叶斯参数移动规则（Bayesian PSR）以及一种名为GradCoRe（梯度置信区域）的自适应优化策略。

贝叶斯参数移动规则（Bayesian PSR）：
- 作者使用带有物理信息VQE 核函数的高斯过程（GP）对 VQE 目标函数进行建模。该核函数源自 VQE 目标函数的三角多项式结构，确保先验分布反映量子电路的物理特性。
- 与需要在特定等距点（例如 $x \pm \frac{\pi}{2}e_d$ ）进行观测的标准 PSR 不同，贝叶斯 PSR 利用 GP 导数的后验均值来估计梯度。
- 这种方法允许在任意位置进行观测。关键在于，它使得重用先前 SGD 迭代中的观测成为可能，从而累积梯度信息以提高估计精度，而无需额外的量子测量。
- 该方法提供了梯度估计量的解析形式，并且显著地，在测量之前即可提供梯度估计的后验不确定性。
- 理论分析（定理 3.1 和 3.2）表明，在无噪声极限下且采用等距观测时，贝叶斯 PSR 退化为广义 PSR。此外，它揭示了标准移动参数 $\alpha = \pi/2$ 在噪声一阶情况（ $V_d=1$ ）下对于最小化梯度不确定性是最优的。
GradCoRe（梯度置信区域）策略：
- 利用贝叶斯 PSR 提供的不确定性信息，作者引入了 GradCoRe，定义为梯度估计后验方差低于指定阈值的区域。
- SGD-GradCoRe算法自适应地确定每次迭代所需的测量 shot 数量。它通过求解一个优化问题，找到使当前最优点位于 GradCoRe 内的最小总 shot 数。
- 所需的精度阈值根据估计梯度的范数动态调整：当梯度较小（接近收敛）或函数平坦时，允许使用较少的 shots；而当需要更高精度时，则使用更多的 shots。

主要贡献

贝叶斯 PSR 的提出： 现有 PSR 的一种灵活变体，利用带有 VQE 核函数的 GP 从任意位置的观测中估计梯度，并提供直接的不确定性信息访问。
理论统一： 本文建立了贝叶斯 PSR 与现有 PSR 之间的数学关系，证明了标准移动参数（ $\pi/2$ ）在最小化噪声一阶情况下的不确定性方面是最优的。
GradCoRe 框架： 引入了梯度置信区域概念，并配套了一种用于 SGD 的自适应观测成本策略，在保持所需估计精度的同时最小化总测量 shot 数。
实证验证： 数值实验表明，与最先进基线相比，所提出的方法显著加速了 VQE 优化。

结果
作者在 Ising 和 Heisenberg 哈密顿量上进行了实验，使用了具有不同量子比特数量（ $Q=5, 7$ ）和层数（ $L=3, 5$ ）的高效 SU(2) 量子电路。

性能与标准 SGD 对比： 仅使用贝叶斯 PSR（Bayes-SGD）提供了比标准 PSR 更准确的梯度估计量，但在使用固定 shot 数量时，其优化性能相当。然而，当配备 GradCoRe 策略时，该方法显著优于使用固定 shot 数量（例如 128、256、512、1024 shots）的标准 SGD。
与最先进方法的比较： GradCoRe 与 SGLBO、Bayes-NFT、EMICoRe 和 SubsCoRe 进行了比较。结果表明，GradCoRe 以更少的累积测量 shot 实现了更快的收敛速度和更低的最终能量/保真度误差。
统计显著性： Wilcoxon 符号秩检验证实，在各种实验设置下，GradCoRe 相对于所有基线的性能提升具有统计显著性（ $p < 0.05$ ）。
成本效率： 该方法通过根据梯度不确定性自适应分配资源，成功最小化了总测量 shot 数（VQE 中的主要成本指标）。

意义
本文声称，VQE 的物理特性，特别是其目标函数的三角结构，可以通过高斯过程中的物理信息核函数得到有效捕捉。通过将这一知识整合到贝叶斯框架中，作者证明了：

通过重用历史数据，梯度估计可以变得更加灵活和高效。
不确定性量化可以直接用于自适应控制观测成本，这是基于标准 PSR 的 SGD 所不具备的能力。
所提出的方法弥合了机器学习技术（GP、BO）与量子优化之间的鸿沟，提供了一种减少量子资源消耗的全新最先进 VQE 优化方法。

作者得出结论，这种贝叶斯方法促进了更高效的 VQE 算法的发展，并在更广泛的量子计算优化任务中发挥作用。