想象一下,你正试图在一片广阔而迷雾笼罩的山谷中寻找最低点。这片山谷代表了一个复杂量子系统的“能量”,而你的目标是找到绝对的底部(基态),因为这能告诉你系统最稳定的状态。这正是**变分量子本征求解器(VQE)**的工作。
然而,存在两个大问题:
- 地图充满噪声:每次你向量子计算机询问山谷在特定位置的高度时,得到的答案都伴随着静电干扰和模糊(噪声),就像在飓风中试图听清耳语。
- 地图极其昂贵:向量子计算机请求一次测量在时间和资源上的成本极高。你希望尽可能少地提问,就能找到底部。
为了找到底部,你通常需要知道哪个方向是“向下”的(即梯度)。在量子世界中,我们使用一种称为**参数移动规则(PSR)**的技术来确定斜率。可以将 PSR 想象成一份标准食谱:“要想知道这里的斜率,你必须精确地在左侧 1 米处和右侧 1 米处测量高度,然后进行一些数学运算。”
标准食谱的问题
这份标准食谱存在几个缺陷:
- 僵化:它要求你在非常具体、预设的位置进行测量。如果你在之前的旅程中恰好测量过这些点,标准食谱会忽略这些数据,并强迫你再次测量。
- 盲目:它给你一个斜率数值,但并未告诉你这个数值有多可靠。这个斜率是准确的,还是仅仅基于噪声数据做出的猜测?
- 浪费:它通常要求极高的精度(大量测量),即使当你远离底部、只需要大致方向时,或者当你非常接近底部、需要极高精度时,它也不加区分地要求同样多的测量。
新方案:贝叶斯参数移动规则
本文的作者提出了一种更聪明的方法来导航这片山谷,即使用贝叶斯参数移动规则。他们将这个问题比作侦探利用“高斯过程”(一种高级统计工具,充当灵活而智能的地图)来破解谜案。
以下是他们新方法的运作方式,使用简单的类比:
1. 灵活的侦探(灵活观测)
贝叶斯方法不像遵循“必须在此处和彼处精确测量”的僵化食谱,它更像一位灵活的侦探。
- 重用线索:如果你在旅程早期测量过某个点,这位侦探会记住它。他们不会强迫你再次测量,而是将旧线索与新线索结合,以获得更清晰的斜率图景。
- 任意位置:你可以选择在任何位置测量高度,而不仅仅局限于预先批准的地点。这使得算法能够高效得多。
2. 置信度计(不确定性)
标准食谱只给你一个数值。贝叶斯方法则给你一个数值加上一个置信度计。
- 想象侦探说:“斜率是 5 度,我有 95% 的把握。”
- 因为他们确切知道自己有多少不确定性,所以能做出更明智的决策。如果置信度计显示较低(高不确定性),他们就知道需要收集更多数据;如果置信度很高,他们就可以继续前进。
3. "GradCoRe"策略(明智的投入)
这是本文最大的创新。他们引入了一个名为GradCoRe(梯度置信区域)的概念。
- 目标:你只需要足够了解斜率,以便确信自己正在朝正确的方向移动。如果你离底部还很远,就不需要一张完美的地图。
- 策略:算法会问:“我现在需要多少测量次数(shots)才能有足够的信心迈出下一步?”
- 如果斜率陡峭且噪声低,它可能会说:“我只需要 10 次测量。”
- 如果斜率平缓且噪声高,它可能会说:“我需要 1000 次测量才能确定。”
- 结果:这节省了巨量的“资金”(测量次数),因为它在你不需要过度测量时阻止了你这样做。
结果:奔跑比赛
作者在模拟的量子计算机上,将这种新方法与旧的标准方法(如僵化的 PSR 和其他高级技术)进行了测试。
- 更快的收敛:他们的方法更快地找到了山谷底部。
- 更便宜:它使用显著更少的总测量次数,实现了相同(或更好)的结果。
- 优于最佳:在直接对比测试中,他们的"GradCoRe"方法击败了当前的最先进方法,包括其他贝叶斯方法和专用优化算法。
总结
可以将旧方法想象成一名盲目遵循严格地图的徒步者,即使只需要 10 步,也要走 100 步去测量地面。而新方法则像是一名拥有智能、自适应 GPS 的徒步者。它会记住你去过的地方,确切知道对地形的把握程度,并且只在绝对必要时才请求新的测量。这使得他们能够以更少的努力更快地到达目的地。
本文证明,通过使用这种“智能 GPS"(贝叶斯 PSR)和“预算感知策略”(GradCoRe),我们可以更高效地优化量子计算机,从而节省宝贵的量子资源。
技术摘要:变分量子本征求解器中的贝叶斯参数移动规则
问题陈述
变分量子本征求解器(VQE)是一种混合量子 - 经典算法,旨在近似物理系统的基态能量。VQE 优化中的一个关键瓶颈是梯度估计的高昂成本,这依赖于重复的量子测量(shots)。观测噪声主要源于测量 shot 噪声,因此需要大量的 shots 才能获得准确的梯度。现有方法,如使用标准参数移动规则(PSR)的随机梯度下降(SGD)或序列最小优化(SMO)变体(如 NFT),通常需要在每次迭代中固定使用高数量的 shots,或者缺乏根据优化当前状态自适应降低观测成本的机制。虽然高斯过程(GPs)已被用于 VQE 中的贝叶斯优化(BO)以及改进 SMO 方法(例如 EMICoRe、SubsCoRe),但其在 SGD 梯度估计中的应用却十分有限。具体而言,亟需一种梯度估计技术,该技术能在观测位置上提供灵活性,提供不确定性量化,并能重用历史数据以最小化总量子计算成本。
方法论
本文提出了一种贝叶斯参数移动规则(Bayesian PSR)以及一种名为GradCoRe(梯度置信区域)的自适应优化策略。
贝叶斯参数移动规则(Bayesian PSR):
- 作者使用带有物理信息VQE 核函数的高斯过程(GP)对 VQE 目标函数进行建模。该核函数源自 VQE 目标函数的三角多项式结构,确保先验分布反映量子电路的物理特性。
- 与需要在特定等距点(例如 x±2πed)进行观测的标准 PSR 不同,贝叶斯 PSR 利用 GP 导数的后验均值来估计梯度。
- 这种方法允许在任意位置进行观测。关键在于,它使得重用先前 SGD 迭代中的观测成为可能,从而累积梯度信息以提高估计精度,而无需额外的量子测量。
- 该方法提供了梯度估计量的解析形式,并且显著地,在测量之前即可提供梯度估计的后验不确定性。
- 理论分析(定理 3.1 和 3.2)表明,在无噪声极限下且采用等距观测时,贝叶斯 PSR 退化为广义 PSR。此外,它揭示了标准移动参数 α=π/2 在噪声一阶情况(Vd=1)下对于最小化梯度不确定性是最优的。
GradCoRe(梯度置信区域)策略:
- 利用贝叶斯 PSR 提供的不确定性信息,作者引入了 GradCoRe,定义为梯度估计后验方差低于指定阈值的区域。
- SGD-GradCoRe算法自适应地确定每次迭代所需的测量 shot 数量。它通过求解一个优化问题,找到使当前最优点位于 GradCoRe 内的最小总 shot 数。
- 所需的精度阈值根据估计梯度的范数动态调整:当梯度较小(接近收敛)或函数平坦时,允许使用较少的 shots;而当需要更高精度时,则使用更多的 shots。
主要贡献
- 贝叶斯 PSR 的提出: 现有 PSR 的一种灵活变体,利用带有 VQE 核函数的 GP 从任意位置的观测中估计梯度,并提供直接的不确定性信息访问。
- 理论统一: 本文建立了贝叶斯 PSR 与现有 PSR 之间的数学关系,证明了标准移动参数(π/2)在最小化噪声一阶情况下的不确定性方面是最优的。
- GradCoRe 框架: 引入了梯度置信区域概念,并配套了一种用于 SGD 的自适应观测成本策略,在保持所需估计精度的同时最小化总测量 shot 数。
- 实证验证: 数值实验表明,与最先进基线相比,所提出的方法显著加速了 VQE 优化。
结果
作者在 Ising 和 Heisenberg 哈密顿量上进行了实验,使用了具有不同量子比特数量(Q=5,7)和层数(L=3,5)的高效 SU(2) 量子电路。
- 性能与标准 SGD 对比: 仅使用贝叶斯 PSR(Bayes-SGD)提供了比标准 PSR 更准确的梯度估计量,但在使用固定 shot 数量时,其优化性能相当。然而,当配备 GradCoRe 策略时,该方法显著优于使用固定 shot 数量(例如 128、256、512、1024 shots)的标准 SGD。
- 与最先进方法的比较: GradCoRe 与 SGLBO、Bayes-NFT、EMICoRe 和 SubsCoRe 进行了比较。结果表明,GradCoRe 以更少的累积测量 shot 实现了更快的收敛速度和更低的最终能量/保真度误差。
- 统计显著性: Wilcoxon 符号秩检验证实,在各种实验设置下,GradCoRe 相对于所有基线的性能提升具有统计显著性(p<0.05)。
- 成本效率: 该方法通过根据梯度不确定性自适应分配资源,成功最小化了总测量 shot 数(VQE 中的主要成本指标)。
意义
本文声称,VQE 的物理特性,特别是其目标函数的三角结构,可以通过高斯过程中的物理信息核函数得到有效捕捉。通过将这一知识整合到贝叶斯框架中,作者证明了:
- 通过重用历史数据,梯度估计可以变得更加灵活和高效。
- 不确定性量化可以直接用于自适应控制观测成本,这是基于标准 PSR 的 SGD 所不具备的能力。
- 所提出的方法弥合了机器学习技术(GP、BO)与量子优化之间的鸿沟,提供了一种减少量子资源消耗的全新最先进 VQE 优化方法。
作者得出结论,这种贝叶斯方法促进了更高效的 VQE 算法的发展,并在更广泛的量子计算优化任务中发挥作用。
每周获取最佳 quantum physics 论文。
受到斯坦福、剑桥和法国科学院研究人员的信赖。
请查收邮箱确认订阅。
出了点问题,再试一次?
无垃圾邮件,随时退订。