原作者： Michael Poppel, David Bucher, Maximilian Zorn, Markus Baumann, Sebastian Wölckert, Claudia Linnhoff-Popien, Philipp Altmann, Jonas Stein

发布于 2026-05-08

📖 1 分钟阅读🧠 深度阅读

CC BY 4.0

原作者： Michael Poppel, David Bucher, Maximilian Zorn, Markus Baumann, Sebastian Wölckert, Claudia Linnhoff-Popien, Philipp Altmann, Jonas Stein

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正试图通过向机器人展示一系列模式来教它预测天气。你拥有固定的资源“预算”来构建这个机器人。在量子计算领域，这个预算被称为编码预算（ $E$ ）。它代表了你将数据输入机器时所能利用的总“信息容量”。

本文提出了一个简单却令人惊讶的问题：你如何安排这些资源，真的重要吗？

具体来说，如果你拥有 12 个单位的预算，是构建一个拥有1 个大脑且思考极深（12 层处理）的机器人更好，还是构建12 个大脑且每个只思考一点点（各 1 层）的机器人更好？

研究发现，机器人“大脑”的形状至关重要，原因如下，我们将借助一些日常类比来说明。

1. “单一大脑”问题：结构性梯度饥饿

想象一个人（串行架构）试图学习一首复杂的歌曲。他必须同时记忆歌词、旋律和节奏。

本文发现这种设置存在一个隐藏缺陷。当你给这个人越来越多的工具（参数）以帮助他学习时，他会撞上一堵墙。无论你添加多少新工具，他都无法全部利用。

类比：将人的大脑想象成一条单一的走廊。你只能一次朝一个方向走在这条走廊上。如果你在走廊里增加 100 个新人（参数），他们最终都会站在同一个位置，等待同一个信号。他们与任务在结构上是解耦的。
结果：本文将此称为**“结构性梯度饥饿”**。这就像拥有一支 100 人的团队，但老板只能向其中 3 人下达指令。其余 97 人站在那里，无事可做，接收不到“零梯度信号”（即没有关于如何改进的指令）。随着你增加更多工人，闲置工人的比例会增长，直到几乎所有人都变得无用。

2. “多大脑”解决方案：独立相位轨迹

现在，想象你有12 个人（并行架构），每人拥有自己的小房间。他们都在处理同一首歌曲，但可以自由独立地移动。

类比：因为他们身处不同的房间，所以不会被困在单一的走廊里。每个人都能找到通往解决方案的独特路径。他们不必被迫步调一致地行进。
结果：在这种设置下，几乎每个工人都能获得有用的指令。“走廊”足够宽阔，容得下所有人。本文证明，只要不超过一定数量的工人，每个人都能为学习过程做出贡献。不存在“饥饿”现象。

3. 增加能力的两种途径

一旦你拥有了一个可工作的机器人，你可能希望让它变得更聪明。本文测试了两种方法，结果截然不同：

选项 A：增加更多“特征图”层（量子方式）
这就像给机器人配备更好的眼睛或耳朵。它使机器人能够听到音乐中更高的音符，或看清模式中更细微的细节。

效果：这扩展了机器人实际的能力。它解锁了机器人可以学习的数学中的新“方向”。
结果：这非常高效。本文表明，使用这种方法，你可以用少 1.6 到 2.2 倍的参数（工人）实现同样的高性能。这就像雇佣更少的人，但给他们提供更好的工具。

选项 B：增加更多“可训练块”（经典方式）
这就像给现有的机器人增加更多内存或进行更多重复练习，但不改变其看见或听见新事物的能力。

效果：这不会解锁新能力。它仅仅依赖一种称为“插值”的经典技巧。基本上，如果你有足够多的工人，他们最终可以通过填补已见示例之间的空白来猜出答案，即使他们并不真正理解底层模式。
结果：这效率低下。你需要多得多的工人才能获得相同的结果，而且你没有获得任何“量子”优势。你只是在蛮力地解决问题。

4. 现实世界测试

作者并没有仅仅在虚构的数学问题上进行实验。他们在英国诺丁汉的真实历史温度数据上进行了测试。

当数据非常复杂时：拥有更好“眼睛”（特征图）的“多大脑”方法取得了成功。而“更多工人”的方法完全失败，因为工人们根本无法看到模式。
当数据较简单时：“多大脑”方法依然胜出，完成任务所需的工人数量要少得多。

核心结论

如果你正在构建一个量子机器学习模型：

不要将所有内容堆叠在单一线性结构中。 使用并行结构（多个量子比特），以避免让你的参数“挨饿”。
不要仅仅添加更多相同类型的层。 如果你需要更多能力，请增加更多“传感器”（特征图）来扩展机器所能看见的范围，而不是仅仅添加更多只重复旧技巧的“处理器”（可训练块）。

你的架构形状不仅仅是一个设计选择；它决定了你的机器是真正能够学习，还是仅仅像一群站在走廊里等待永远不会到来的指令的人。

技术摘要：架构形状决定量子神经网络的可训练性

1. 问题陈述

采用角度编码的变分量子电路（VQCs）充当截断傅里叶级数近似器。理论工作（Schuld 等人，2021；Holzer & Turkalj，2024）表明，对于固定的总编码预算 $E = NL $（其中$ N $为量子比特数，$ L $为每个量子比特的编码层数），无论架构形状$ (N, L)$ 如何，可访问的频谱和频谱偏差均相同。

尽管在表达能力和频谱冗余方面存在这种理论等价性，但实证观察揭示了可训练性方面的显著差异。如论文图 1 所示，低量子比特数的架构（例如 $N=1, 2$ ）在广泛的参数数量范围内无法收敛到高精度解（ $R^2 \ge 0.95$ ），而中间架构（例如 $N=3, 4$ ）则能用少得多的参数取得成功。由于单量子比特电路在极限情况下是通用函数近似器，仅凭表达能力无法解释这种失败。本文研究了导致这种可训练性差距的结构机制，以及通过不同架构途径增加参数数量的效率差异。

2. 方法论与理论框架

2.1 雅可比矩阵的结构分析

作者分析了系数匹配雅可比矩阵 $J \in \mathbb{R}^{|\Omega| \times P}$ ，其中 $|\Omega| = 2E + 1$ 是实傅里叶系数的数量， $P$ 是参数数量。 $J$ 的秩决定了优化器可访问的独立傅里叶方向的数量。位于 $J$ 零空间（ $\ker J$ ）中的参数在结构上与损失函数解耦，并接收完全相同的零梯度信号。

该研究对比了固定 $E$ 下的两种极端架构：

串行架构（ $N=1, L=E$ ）： 单个量子比特，具有 $E$ 个编码层。
并行架构（ $N=E, L=1$ ）： $E$ 个量子比特，每个具有一个编码层，可能通过 ansatz 层纠缠。

2.2 关键理论机制

串行电路中的相位锁定： 作者证明，对于单量子比特电路，所有参数的梯度方向共享一个共同的全局相位因子。这迫使所有梯度向量位于维度至多为 $2L + 1$ 的子空间内（命题 3.1，引理 3.2）。
结构性梯度枯竭： 在串行电路中，当参数数量 $P$ 超过秩上限（ $2L+1$ ）时，零空间的维度线性增长（ $\dim(\ker J) \ge P - (2L+1)$ ）。因此，接收零梯度信号的参数比例随着 $P \to \infty$ 而趋近于 1。这与 barren plateaus（McClean 等人，2018）不同，因为这是结构性秩亏缺，而非梯度方差的指数衰减。
并行电路中的双线性分解： 在并行架构中，傅里叶系数分解为依赖于不相交参数集的双线性项（命题 A.1）。这打破了全局相位相干性，允许不同量子比特具有独立的相位轨迹。因此，并行架构在 $P \le 2E + 1$ 时通常保持满列秩（ $\sigma_{\min}(J) > 0$ ），在参数数量超过频谱维度之前避免了结构性梯度枯竭。

2.3 实验设计

作者使用以下方法验证这些理论主张：

合成目标： 针对每种架构的最小配置定制的特定度数（ $d$ ）的随机傅里叶级数。
真实世界数据： 诺丁汉温度数据集（Hipel & McLeod, 1994）。
两种参数化途径：
1. FM 途径： 增加特征图（编码）层数 $L$ ，同时保持可训练块深度固定。这扩展了频谱 $|\Omega|$ 并提高了秩上限。
2. 可训练块（tbl）途径： 增加可训练 ansatz 层的数量，同时保持 $L$ 固定。这增加了 $P$ ，但不改变频谱或秩上限。
诊断： 分析雅可比矩阵 QFIM 特征值谱，以识别“频谱拐点”（特征值急剧下降的秩索引）并测量可利用梯度方向的比例。

3. 主要贡献

识别结构性梯度枯竭： 论文证明，无论参数数量如何，串行单量子比特架构都受到 $2L+1$ 的结构性秩上限限制。这导致了“结构性梯度枯竭”，即随着 $P$ 的增长，越来越多的参数与损失解耦。
证明并行优势： 作者证明，并行架构通过独立的相位轨迹避免了这一限制，在达到理论极限 $P \le 2E + 1$ 之前保持满列秩。这种优势是结构性的，而不仅仅是基于阈值的。
区分参数化策略： 论文确立了增加特征图（FM）层和增加可训练块具有根本不同的效果：
- FM 层： 扩展可访问的频谱，并将频谱拐点向右移动，利用量子特异性机制。
- 可训练块： 不扩展频谱；训练改进仅通过经典插值机制（ $P \ge n_{train}$ 的超定系统）实现。
效率的实证验证： 实验表明，在各种架构（ $N=1$ 到 $N=6$ ）和目标度数下，FM 途径达到目标精度（ $R^2 \ge 0.95$ ）所需的参数比可训练块途径少 1.6–2.2 倍。

4. 结果

可训练性差距： 在固定编码预算 $E=12$ 下，串行（ $N=1$ ）和低量子比特（ $N=2$ ）架构即使拥有数百个参数也无法达到 $R^2 \ge 0.95$ ，而 $N=3$ 和 $N=4$ 则能用少得多的参数成功（图 1）。
秩上限验证： 雅可比矩阵秩的实证测量证实，串行电路立即达到 $2L+1$ 的上限，而并行电路在 $P > 2E+1$ 之前保持满秩（图 5）。
梯度枯竭： 在串行电路中， $\ker J$ 中的参数比例随 $P$ 单调增长，趋近于 1。在并行电路中，直到 $P$ 超过频谱维度之前，没有任何参数位于 $\ker J$ 中。
FM 与可训练块：
- 频谱拐点： 沿 FM 途径，每增加一层，频谱拐点向右移动，表明访问了新的傅里叶方向。沿可训练块途径，拐点冻结在理论上限 $2NL_{min} + 1$ 处（图 3，图 9）。
- 参数效率： FM 途径始终需要更少的参数达到饱和。对于 $N=1$ ，比率为 1.9 倍；对于 $N=2$ ，为 2.2 倍；对于 $N=4$ ，为 2.1 倍；对于 $N=6$ ，为 1.6 倍（表 2）。
真实世界验证： 在诺丁汉数据集上，当编码预算不足（ $E=12$ ）时，可训练块途径由于表达能力限制而完全失败（ $R^2 < 0$ ），而 FM 途径通过扩展频谱取得了成功。当表达能力足够（ $E=24$ ）时，对于 $N \in \{1, 2, 4\}$ ，FM 途径仍然具有更高的参数效率。
Larocca 机制例外： 对于 $N=6$ 且高表达能力（ $E=24$ ）的情况，优势发生逆转：可训练块途径取得成功，而 FM 途径趋于平稳。作者将此归因于电路在 FM 扫描早期进入了 Larocca 欠参数化机制（ $P \approx R_{max} = 126$ ），在此机制下，增加编码层对参数需求的增长速度快于新增参数所能满足的速度。

5. 意义与主张

论文声称提供了串行和并行量子神经网络（QNN）之间可训练性差距的精确机制解释。它认为，单量子比特状态空间（ $CP^1$ ）的几何形状施加了基本的结构约束（相位锁定），限制了串行电路中雅可比矩阵的有效秩，从而导致结构性梯度枯竭。

主要的实际意义在于设计建议：增加特征图层，而不是增加可训练块。 作者断言，增加编码深度（ $L$ ）是唯一能利用量子特异性机制（扩展可访问频谱并移动频谱拐点）的途径，而增加可训练块则依赖于经典插值。这一结构洞察解释了为什么并行架构更具可训练性，以及为什么 FM 层具有更高的参数效率。

作者在理论证明的范围上保持谦逊，指出这些证明是针对架构极端情况（串行 $N=1$ 和乘积 ansatz 并行）建立的。他们承认，扩展到混合架构和一般纠缠 ansatz 仍然是一个未解决的问题。此外，他们确定了 Larocca 欠参数化机制作为一个边界条件，在此条件下 FM 效率优势可能会发生逆转，这表明需要进一步表征该特定机制中的权衡。

Architecture Shape Governs QNN Trainability: Jacobian Null Space Growth and Parameter Efficiency