原作者： Natansh Mathur, Panagiotis Kl. Barkoutsos, Masako Yamada, Martin Roetteler, Iordanis Kerenidis

发布于 2026-06-03

📖 1 分钟阅读🧠 深度阅读

原作者： Natansh Mathur, Panagiotis Kl. Barkoutsos, Masako Yamada, Martin Roetteler, Iordanis Kerenidis

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正在试图教一个非常特别、速度极快的机器人如何填补拼图中的缺失部分。这个机器人是一个量子神经网络（QNN）。它的设计目标是观察患者的健康记录（如生命体征），并在某些数字缺失时，猜出这些数字应该是多少。如果它猜得准，医生就能更好地预测患者是否能存活。

然而，有一个巨大的问题：教导这个机器人极其昂贵且缓慢。

问题所在：“出租车”瓶颈

通常情况下，要教导一个量子机器人，你必须让它反复运行特定的测试，才能找出改进的方法。对于一个拥有许多参数（设置）的机器人，所需的测试次数会呈二次方增长。

你可以这样理解：如果你有 10 个设置，你需要 100 次出租车行程来学习。如果你有 100 个设置，你需要 10,000 次出租车行程！在真实的量子计算机上（它们运行缓慢且租金昂贵），要求进行 10,000 次行程是不可能的。这太耗时了，也太贵了。这就是阻碍量子计算机学习大型任务的“瓶颈”。

解决方案：“蝴蝶”与“团队”

作者创建了一种全新的训练框架，将成本从“二次方”降低到了“对数级”。简单来说，他们让学习过程变得极其高效，即使是一个拥有许多设置的机器人，也只需要极少量的出租车行程。

他们通过三个聪明的技巧实现了这一点：

蝴蝶架构（高效工厂）：
与其构建一个混乱、纠缠的网络，他们将机器人的大脑构建成一种特定的模式，称为“蝴蝶”。想象一个工厂的流水线，工人们按照特定的、对称的模式排列（就像蝴蝶的翅膀）。
- 为什么有效： 这种结构很浅（不是太深）且很有组织。这意味着机器人可以快速混合信息，而不需要数百万个步骤。它将机器人需要学习的设置数量从庞大的数字减少到了一个更小、更易处理的数量。
逐层训练（团队方法）：
与其试图一次性教导整个机器人（这会让它应接不暇），不如一层一层地教导它。
- 类比： 想象在教一个合唱团。与其试图让 100 名歌手同时完美地学会一首歌，不如先教低音部。一旦他们掌握了自己的部分，你就让他们“冻结”（告诉他们保持不动），然后再教次中音部。接着，你冻结所有人，再去教女高音。
- 为什么有效： 通过一次只专注于机器人的一小个“层”，计算机不会感到不知所措。这能让学习过程保持稳定且快速。
并行参数移位（小组测试）：
这是最节省时间的魔术技巧。通常，为了检查一个设置是否良好，你必须一个接一个地测试它。但由于“蝴蝶”结构的特性，一层中的设置不会互相干扰。
- 类比： 想象一个教室，老师想要检查每个学生是否都知道答案。在普通的课堂上，老师必须逐一叫到每个学生（一个接一个）。但在这个特殊的班级里，因为学生们的座位安排不会互相干扰，老师可以同时询问整排学生一个问题，并立即得到所有答案。
- 为什么有效： 他们不再需要为 100 个设置运行 100 次测试，而是只需运行几次测试就能获得所有答案。

现实世界测试：填补缺失的健康数据

作者将这种新方法应用于一个现实世界的问题：医疗数据填补（Medical Data Imputation）。

任务： 他们使用了一个患者记录数据集（MIMIC-III），其中 30% 的数据被随机删除了。目标是填补空白，以便计算机可以预测患者是否能存活。
硬件： 他们直接在名为 IonQ Forte 的真实量子计算机（一种俘获离子机）上训练了 16 量子比特版本的机器人。
结果：
- 没有减速： 该机器人在真实的、带有噪声的量子硬件上训练的表现，与在完美的模拟器上训练的表现一样出色。
- 更好的稳定性： 量子模型的表现实际上比标准的经典计算机模型更具一致性。当训练重新开始时，它不会出现剧烈波动。
- 规模扩展： 他们还模拟了一个更大的版本（32 量子比特），并在真实硬件上运行以观察效果。结果显示，它确实可行，且性能没有损失。

核心结论

本文证明，通过将量子机器人的大脑组织成“蝴蝶”结构，并使用“小组测试”法进行逐层训练，我们终于可以实现在真实硬件上训练这些机器。

他们发现，对于这项特定的医疗任务，拥有大约 128 个量子比特 的机器人将是匹配最强经典计算机的“黄金分割点”。虽然我们目前还没达到那个阶段，但这种新的训练方法展示了一条清晰、务实的路径，证明了量子计算机最终可以成为分析患者健康记录等现实世界数据的可靠工具。

技术摘要：量子神经网络的可扩展硬件训练及其在临床数据填补中的应用

1. 问题陈述

目前，在近期的量子硬件上训练量子神经网络（QNN）受限于梯度估计极高的成本。标准的参数移位规则（parameter-shift rules）所需的电路评估次数随可训练参数数量 $n$ 的平方（ $O(n^2)$ ）而增加。对于具有 $O(n^2)$ 个参数的通用架构，由于有限的采样预算（shot budgets）、相干时间以及墙钟时间（wall-clock constraints）的限制，这使得基于硬件的优化在超过小规模系统时变得不切实际。

此外，QNN 面临“贫瘠高原”（barren plateaus）的挑战，即梯度随系统规模或电路深度呈指数级消失。虽然结构化架构（例如保持汉明重量不变的电路）可以缓解贫瘠高原问题，但它们并不能从根本上解决梯度估计的扩展性问题。其特定的应用领域——临床数据填补（clinical data imputation）——为这些挑战提供了一个严苛的测试场：它要求在维度适中且保持噪声稳定性与有限数据的情况下，学习复杂的非线性条件关系。

2. 方法论

作者引入了一种协同设计的训练框架，将每一步优化步骤的梯度估计成本从 $O(n^2)$ 降低到 $O(\log n)$ 。该框架集成了三个关键组件：

A. 结构化架构：蝴蝶电路（Butterfly Circuit）

该 QNN 采用了一种由保持汉明重量不变的双比特门（可重构分束器或 RBS 门）组成的蝴蝶架构。

状态初始化： 电路从一种非高斯态制备开始，使用“魔态加载器”（magic-state loader）协议，创建纠缠的四比特块（ $|0011\rangle + |1100\rangle$ ）。这确保了电路运行在经典可模拟的高斯机制之外。
数据加载： 经典特征通过单比特 $R_Y$ 旋转进行角度编码，从而保持了非高斯特性。
结构： 可训练的核心由 $O(\log n)$ 层的 RBS 门组成。在每一层内，门作用于不相交的比特对。这种结构将总参数量从 $O(n^2)$ 减少到 $O(n \log n)$ ，并能在浅层深度下实现全局信息混合。

B. 层级训练策略

该框架并非同时优化所有参数，而是采用了层级（贪婪）训练协议：

首先训练两个大小为 $n/2$ 的独立子电路（通过经典方式或模拟），并冻结其参数。
添加一个新的包含 $n/2$ 个 RBS 门的耦合层以连接这两个子电路。
仅优化这个新引入层的参数，且该过程在量子硬件上进行。
通过重复此过程，将硬件上的优化限制在每阶段一个规模较小且结构良好的参数子集内。

C. 并行化参数移位规则

该框架利用了每个蝴蝶层内的交换结构（commuting structure）。由于同一层内的门作用于不相交的比特对，它们的生成元是相互交换的。

这允许在每一层内同时对所有参数进行移位。
通过特定的并行化参数移位规则，可以在常数次电路执行（与层的大小无关）中提取出该层所有参数的梯度。
结合 $O(\log n)$ 的深度，每步优化步骤的总不同电路评估次数扩展为 $O(\log n)$ 。

3. 应用：临床数据填补

该框架在 MIMIC-III 电子健康记录数据集上进行了验证，这是填补缺失临床值的基准测试。

任务： 二进制患者生存预测（AUC 指标）作为下游代理指标，用于衡量填补质量。
协议： 使用了一种混合经典-量子流水线。QNN 作为迭代填补方案中的可学习条件估计器。具体而言，采用“单特征填补”协议，即 QNN 预测单个目标特征（由基尼重要性选择），而其他特征通过经典方法（通过 MissForest）进行填补。
基准模型： 该混合模型与统计基准（均值/零值填补）以及强大的迭代/模型驱动经典方法（KNN、MICE、MissForest、Deep MICE）进行了对比。

4. 关键结果

实验在 IonQ Forte Enterprise 俘获离子硬件以及通过张量网络（MPS）模拟器上进行。

硬件训练可行性（16 个量子比特）：
- 一个 16 量子比特的 QNN 直接在 IonQ 硬件上使用并行参数移位规则进行了训练。
- 硬件训练的模型实现了 0.7147 的平均 AUC，达到了最强经典基准（Deep MICE，AUC 0.7176）的性能水平。
- 至关重要的是，与经典 Deep MICE 相比，该混合模型表现出更低的方差，这表明其优化稳定性更高。
- 在比较理想模拟器、噪声模拟器和实际硬件训练时的性能时，未观察到性能下降。
扩展性与推理（32 个量子比特）：
- 32 量子比特模型的训练是通过 MPS 模拟完成的，而推理则直接在 IonQ 硬件上执行。
- 32 量子比特混合模型的性能与全经典 32 节点神经网络相匹配，证实了 32 量子比特电路在硬件上是兼容的，且在推理过程中不会产生性能损失。
容量分析：
- 对经典网络宽度的消融研究表明，性能在 128 个隐藏单元处达到饱和。
- 作者确定 128 个量子比特是 QNN 要完全匹配该特定任务下最优经典基准的表达能力所需的规模目标。

5. 重要性与主张

本文声称通过从根本上改变梯度估计成本的扩展方式，展示了一条在近期硬件上训练 QNN 的实用且可扩展的路径。

主要贡献： 将电路评估复杂度从 $O(n^2)$ 降低到 $O(\log n)$ ，使得直接在当前硬件上进行基于梯度的优化成为可能（已在 16 量子比特规模下得到验证），而无需借助梯度剪枝、零阶近似或模拟回退。
鲁棒性： 该框架产生的模型对现实硬件噪声具有鲁棒性，并且与经典神经网络基准相比，表现出更低的方差。
硬件兼容性： 该工作验证了结构化、浅深度的电路（蝴蝶电路）结合并行梯度提取，非常适合长程连接平台（如俘获离子处理器）。
研究范围说明： 作者明确指出，目前的实验设置是一个“受控诊断基准”（单特征填补），而非完全优化的生产系统。其核心主张是，所提出的框架能够实现实际训练，而随着硬件的成熟，在目标规模（128 量子比特）下实现全数据集填补仍是一个未来的里程碑。

Scalable On-Hardware Training of Quantum Neural Networks and Application to Clinical Data Imputation