原作者： Reyhaneh Aghaei Saem, Behrang Tafreshi, Zoë Holmes, Supanut Thanasilp

发布于 2026-06-05

📖 1 分钟阅读🧠 深度阅读

原作者： Reyhaneh Aghaei Saem, Behrang Tafreshi, Zoë Holmes, Supanut Thanasilp

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正试图教一个机器人如何在广阔且充满浓雾的山谷中寻找最低点。这个山谷代表了量子计算机问题的“损失景观”（loss landscape）。目标是引导机器人（算法）走向谷底。

长期以来，科学家们一直担心一种被称为“贫瘠高原”（Barren Plateaus）的现象。这就像是山谷中间的一片巨大且完全平坦的平原。如果机器人落入此处，它将无法判断哪边是下坡，因为地面如此平坦，以至于每个方向看起来都完全一样。在量子世界中，这种情况之所以发生，是因为量子计算机传回的信号变得如此微弱且统一，以至于有效地消失在了噪声之中。

这篇由来自 EPFL 和朱拉隆功大学的研究人员撰写的论文指出，许多人们尝试用来逃离这些平坦平原的流行“补救措施”实际上都是幻觉。它们看起来似乎奏效，但并没有解决问题的根源。

以下是他们研究结果的简单分解：

1. 真正的核心问题：“无线电中的静电”

作者认为我们需要改变看待问题的方式。我们不应仅仅关注最终答案（“损失”），而应该观察量子计算机在进行任何数学处理之前给出的原始数据。

把量子计算机想象成一个试图广播地形信息的广播电台。

旧观点： 科学家们观察音乐的音量（平均结果）来观察它是否在变化。
新观点： 作者认为我们需要倾听“静电”（无线电信号中的单个咔哒声和砰砰声）。

他们认为，在这些“贫瘠高原”的情况下，无线电信号过于集中在特定的频率（或静电模式）上，以至于无论地形如何，信号都不会改变。无论机器人在山顶还是谷底，信号都是一样的。因为信号是完全相同的，它对于机器人实际处于什么位置而言，包含了零信息。

2. 不起作用的“魔术戏法”

论文指出，许多研究人员尝试过使用一些花哨的技巧来修复这个问题，例如：

量子自然梯度（Quantum Natural Gradient）： 一种试图利用地形的“形状”来更快引导机器人的方法。
基于样本的优化（Sample-Based Optimization）： 一种观察特定数据样本而非平均值的方法。
神经网络初始化（Neural Network Initialization）： 使用经典计算机来猜测一个好的起点。

作者将这些技巧比作站在那片平坦平原上的人，一边大喊“我在移动！”，一边用一个巨大的扩音器来放大自己的声音。仅仅因为声音变大了（或者数学变得更复杂了），并不意味着他们真的在移动。如果底层的无线电信号（原始测量值）无论你在哪里都是同样的静电噪声，那么无论你进行多少后期处理或多么复杂的数学运算，都无法神奇地从中提取出方向。

类比： 想象一下，你想通过询问人群中的每个人“你是那个人吗？”来寻找一个特定的人。如果人群如此庞大且统一，以至于 99.9% 的人看起来都一模一样，且你只能提出有限数量的问题（测量次数），那么你永远也找不到那个人。无论你提问的方式多么高级（自然梯度），或者先询问一小部分人（基于样本），如果人群看起来都一样，你都只是在瞎猜。

3. “随机游走”

论文从数学上证明，如果你试图在这些平坦高原上，使用现实情况下的测量次数（这是我们目前所能做到的）来训练量子模型，那么计算机实际上并没有在学习。

相反，它正在进行随机游走（Random Walk）。

想象机器人被蒙着眼睛站在那片平坦的平原上。每当它试图迈出一步时，它只是随机选择了一个方向。
因为信号仅仅是噪声，所以计算机对设置的“更新”与随机猜测是无法区分的。
论文显示，计算机所走的路径看起来完全像是一个醉汉在田野里踉跄蹒跚，而不是一个徒步旅行者沿着小径行走。

4. 那些“神奇”的解决方案怎么样了？

作者在模拟实验中测试了几种流行的“解决方案”（例如前文提到的那些）。

结果： 当他们给予无限的时间和测量次数时，这些方法确实有效。但在现实世界中，由于我们的测量“预算”是有限的（比如只有 150 次无线电点击，而不是数百万次），它们全部失败了。它们和基础方法一样，陷入了随机游走。

5. 一个例外：“指数级”的可能性

作者确实提到了一个理论上的出路，但目前还不具备实际操作性。

如果你能使用一种拥有指数级大量按钮（输出结果）的工具来测量量子态，你或许能够区分这些信号。
然而，他们指出，目前还没有人制造出能够真正实现这一点的量子计算机。大多数现有方法，即使是那些高级的方法，本质上都在使用“小型”工具（多项式规模），会被噪声淹没。

总结

这篇论文的主要信息是对量子机器学习领域的一次“清醒剂”：

不要被花哨的数学所迷惑。 仅仅因为一个算法看起来很复杂或者被称为“自然梯度”，并不意味着它解决了平坦景观的问题。
信号才是问题所在。 如果来自量子计算机的原始数据过于集中（过于嘈杂/统一），任何经典的后处理都无法解决它。
我们目前正在盲目摸索。 如果不对测量方式或设计这些电路进行根本性的改变，我们目前的许多训练方法都只是在黑暗中进行随机漫步。

作者并不是说量子计算是无用的；他们是说我们需要诚实地面对这些模型为何失败，并停止依赖那些无法解决核心问题——即信息丢失问题的“创可贴”式解决方案。

技术摘要：应对参数化量子模型指数级浓缩时的陷阱

问题陈述

变分量子算法（VQAs）和量子机器学习（QML）面临着一个关键的可扩展性挑战，即贫瘠高原（Barren Plateaus, BPs），或者更广泛地说是指数级浓缩（exponential concentration）。在存在贫瘠高原的情况下，损失函数的景观（loss landscape）相对于量子比特数 ( $n$ ) 呈现指数级的平坦化，导致损失梯度的方差呈指数级消失。因此，若要获得关于损失值或梯度的可靠信息，需要指数级的测量次数（shots），这使得该景观在多项式资源限制下实际上是无法训练的。

尽管已有许多提议旨在缓解或避免贫瘠高原——包括专门的电路架构、替代初始化方案以及改进的训练策略（如量子自然梯度 QNG 或基于样本的优化）——但目前缺乏严谨的框架来判定这些方法在实践中是否真正规避了浓缩问题。作者认为，现有的诊断方法主要分析损失方差的缩放，这具有误导性。例如，通过给损失函数乘以一个指数级大的预因子来表面上抑制方差，并不能解决底层的本质问题。此外，当前分析中往往忽略了量子测量与经典后处理之间复杂的相互作用。

方法论

作者开发了一个实用的框架，通过将分析重点从期望值转向测量结果概率，来诊断指数级浓缩问题。

通用过程形式化： 论文定义了一个构成大多数参数化量子模型基础的通用过程 $\mathcal{P}$ 。该过程由以下部分组成：
- 提取（Extraction）： 使用正算符值测度（POVM） $\mathcal{M}^{(i)} = \{M^{(i)}_k\}_k$ 测量参数化量子态 $\rho_i(\alpha_i)$ 。
- 后处理（Post-processing）： 对测量结果 $S^{(i)}_N$ 应用经典映射 $\Phi_i$ 以估计物理量 $\ell_i(\alpha_i)$ ，随后进行最终的处理映射 $\Phi_P$ 。
- 约束（Constraint）： 该框架假设 POVM 元素数量 $|\mathcal{M}^{(i)}|$ 的规模至多随系统规模 $n$ 呈多项式增长（即 $|\mathcal{M}^{(i)}| \in O(\text{poly}(n))$ ）。作者认为，即使是那些看似使用指数级结果的标准程序（例如全局 Pauli 测量），实际上也是“伪装的多项式 POVM”。
浓缩的定义： 作者定义了结果概率浓缩（Outcome Probability Concentration）（定义 1）。如果一个 POVM 结果概率 $p_k(\alpha)$ 在高概率下与一个固定的、与变量无关的值 $\mu_k$ 无法区分，且其偏差随规模呈 $O(\exp(-n))$ 缩放，则称其为指数级浓缩。
假设检验工具： 利用假设检验工具，作者建立如下结论：如果结果概率是指数级浓缩的，且 POVM 元素的数量是多项式的，那么在多项式次数的测量采样后，所得样本在统计上与从一个固定的、与变量无关的分布中抽取的样本是不可区分的。

核心贡献与理论结果

1. 不可区分性定理（定理 1）

核心理论结果指出，如果在一个具有多项式数量元素的 POVM 集上，结果概率是指数级浓缩的，那么在经过多项式次数的测量采样后，生成的样本在统计上与从一个独立于训练参数或数据输入的固定分布中抽取的样本是不可区分的。

含义： 测量结果不包含关于底层变量的有意义信息。

2. 后处理无法挽救（推论 1）

作者证明，任何经典后处理映射 $\Phi'$ 都无法克服这种统计上的不可区分性。即使原始测量结果经过任意函数（例如神经网络、梯度计算）的处理，其最终估计值在统计上仍然与独立于参数的随机变量不可区分。

意义： 这驳斥了认为复杂的代价函数或优化策略可以“修复”一个在概率层面遭受指数级浓缩的模型之观点。

3. 随机游走行为（推论 2）

将上述理论应用于贫瘠高原景观下的标准梯度下降训练，作者证明了训练轨迹类似于随机游走。每一步估计的损失梯度在统计上都与不携带任何景观信息的随机变量不可区分。因此，参数更新并不会遵循有意义的下降方向。

4. 实际诊断指南

论文提供了一套逐步指南，用于诊断所提方法是否遭受指数级浓缩：

确定需要进行量子提取的量 $\ell_i(\alpha_i)$ 。
验证相关的 POVM 是否具有多项式数量的元素。
确定其结果概率 $p_k(\alpha_i)$ 是否相对于 $\alpha_i$ 呈指数级浓缩。
如果这些条件成立，则无论使用何种优化策略，该方法都会受到浓缩问题的限制。

结果与数值模拟

作者将该框架应用于几种声称能缓解贫瘠高原的常用方法：

量子自然梯度 (QNG)： 虽然 QNG 考虑了局部几何结构，但作者认为，如果由于浓缩导致底层梯度在统计上与噪声不可区分，那么 QNG 就无法提供有意义的方向。
基于样本的 CVaR 优化： 如果底层概率分布是平坦的，依赖于样本子集（如条件风险价值 CVaR）的策略无法逃脱浓缩。
神经网络辅助初始化： 通过经典神经网络初始化参数并不会改变量子电路本身的浓缩特性。
重缩放梯度方法： 仅仅重缩放梯度并不能解决测量结果中存在的根本性信息缺失问题。

数值证据：
在 15 量子比特系统上使用全局 Pauli-Z 可观测量（一种已知的诱发贫席高原的设置）进行的模拟表明：

使用无限次采样或指数级采样（ $2^n$ ）时，优化可以收敛。
使用多项式次数采样（ $10 \times n$ 或 $150$ 次）时，训练轨迹表现出随机游走行为。
在多项式采样预算下，参数更新的均值和方差与随机游走高度吻合，证实了推论 2。
当使用多项式采样预算时，QNG、CVaR 和神经网络初始化也观察到了类似的失效模式。

重要性与主张

该论文声称提供了一个严谨且实用的框架，用于诊断量子模型的可扩展性，从而超越了标准的损失方差分析。其主要意义在于：

明确根源： 它指出根本障碍在于结果概率的指数级浓缩，而不仅仅是期望值的方差。
揭示表象修复的局限性： 它证明了许多流行的“修复方案”（如 QNG、基于样本的优化、特定的初始化）如果底层测量概率是浓缩的，且采样预算是多项式的，则无法从本质上规避指数级浓缩。这些方法可能在非浓缩区域提供其他益处（例如更快的收敛速度或更好的局部曲率处理），但无法挽救一个遭受全局浓缩的模型。
适用范围： 这些指南广泛适用于变分算法和非变分量子机器学习模型（如量子核方法、储层计算）。
局限性与未来方向： 作者谦逊地指出，其结果适用于使用多项式规模 POVM 的程序。他们承认，如果需要使用具有指数级数量元素的 POVM 或具有显式指数级损失项的生成模型，则可能超出此研究范围，尽管此类方法目前也面临着自身的采样挑战。

总之，作者认为，在声称具有可扩展性之前，学术界必须仔细评估所提出的架构和训练策略是否真正解决了测量概率的浓缩问题，因为后处理无法回收因指数级浓缩而丢失的信息。

Pitfalls when tackling the exponential concentration of parameterized quantum models