Towards Real-time Control of a CartPole System on a Quantum Computer

原作者： Nguyen Truong Thu Ngo, Väinö Mehtola, Jérome Lenssen, Peiyong Wang, Francesco Cosco, Tien-Fu Lu, James Q. Quach

发布于 2026-05-05

📖 1 分钟阅读🧠 深度阅读

原作者： Nguyen Truong Thu Ngo, Väinö Mehtola, Jérome Lenssen, Peiyong Wang, Francesco Cosco, Tien-Fu Lu, James Q. Quach

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正在尝试教一个机器人用手平衡一根扫帚柄。这是机器人学中的一个经典挑战，被称为“倒立摆”（CartPole）。通常，我们使用经典计算机（就像你笔记本电脑里的那种）来训练机器人。但如果我们尝试用量子计算机来训练它呢？

这篇论文就是对该实验的“成绩单”。研究人员提出了三个重大问题：

一台微小的量子计算机能否比普通计算机更快地学会平衡扫帚柄？
如果我们在一种速度下训练机器人，却要求它以另一种速度工作，机器人会感到困惑吗？
我们能否让量子计算机快到足以实时控制机器人，还是说它太慢了？

以下是他们研究发现的详细解析，使用了简单的类比。

1. “小脑”与“大脑”

设置：
研究人员构建了一个“混合”机器人“大脑”。它主要由普通计算机组成，但包含一个微小的量子部分（一个单一的“量子比特”，就像一枚量子硬币，可以同时是正面、反面或两者兼具）。他们将其与完全由标准计算机部件组成的“大脑”（深度神经网络）进行了比较。

结果：
微小的量子“大脑”是一个速度恶魔。

类比： 想象两个学生在参加考试。“大脑”学生需要阅读教科书 430 次才能获得 A 成绩。而“小量子大脑”学生只需要阅读 160 次就能获得同样的 A 成绩。
关键点： 即使量子“大脑”必须通过多次翻转硬币来猜测答案（这种方法称为“参数移位”），而不是完美地知道答案，这种速度提升依然发生了。这证明，即使是非常小的量子模型，在学习方面也可能出奇地高效。

2. “减速带”问题（训练与驾驶）

设置：
在现实世界中，机器人需要非常快地做出决策（例如每秒 50 次）。然而，量子计算机既嘈杂又缓慢。为了从量子硬币中获得清晰的答案，你通常必须多次翻转它（称为“采样次数”或"shots"）。

权衡： 如果你翻转硬币的次数太少，答案就会充满噪声（就像试图在风暴中听清耳语）。如果你翻转的次数太多，耗时就会太长，机器人会在做出反应之前就已经倒下。

实验：
研究人员以不同的速度训练机器人，然后在不同的速度下测试它，看看它是否会感到困惑。他们创建了一个巨大的“热力图”（就像天气图），显示了机器人在不同条件下平衡的效果。

结果：

“推理”速度最重要： 机器人训练得有多快并不重要。重要的是它驾驶（推理）得有多快。如果允许机器人快速做出决策（高频率），它就能很好地保持平衡。如果被迫低速驾驶，它就会倒下。
更多翻转 = 更稳定： 如果机器人必须低速驾驶，可以通过给它更多的“采样次数”（多次翻转硬币以获得清晰答案）来修复这个问题。
最佳平衡点： 你必须找到平衡点。你需要机器人快速驾驶，同时又有足够的时间获得清晰的量子答案。这篇论文提供了一张地图，帮助工程师为未来的机器人找到这种完美的平衡。

3. “交通堵塞”与“高速公路”（延迟）

设置：
这是最关键的部分。即使量子计算机学习得很好，如果它反应太慢而无法实时工作，那也是无用的。

问题： 通常，当你在云端使用量子计算机时，你必须将请求通过大量的“官僚程序”（软件层、编译器、互联网延迟）。这就像试图驾驶一辆赛车穿过一个布满停车标志、交通灯和施工区的城市。
旧方法： 使用标准软件时，机器人每秒只能做出约0.14 次决策。它基本上处于“睡眠”状态。

突破：
研究人员决定绕过这些“官僚程序”。他们直接对量子计算机的硬件进行编程，就像赛车手走私人高速公路的捷径一样。

结果： 通过剔除中间环节，他们将机器人的速度提高了40 倍。现在，机器人每秒可以做出6.2 次决策。
局限： 虽然每秒 6.2 次是一个巨大的进步，但对于需要每秒平衡 50 次的扫帚柄来说，这仍然不够快。然而，这证明了主要问题在于“交通堵塞”，而不是量子物理本身。

结论

这篇论文是一个“概念验证”，它表明：

是的，一个微小的量子“大脑”可以比巨大的经典“大脑”更快地学会平衡任务。
是的，我们可以精确地绘制出量子计算机需要多快、多精确，才能防止机器人倒下。
是的，我们可以让量子计算机快到足以用于控制，但前提是我们停止使用缓慢的标准软件，直接与硬件对话。

研究人员尚未制造出自动驾驶汽车或医疗机器人。他们只是证明了引擎（量子学习）是有效的，并且他们找到了消除交通堵塞（延迟）的方法，以便它最终能够跑得更快。

技术摘要：迈向量子计算机上的 CartPole 系统实时控制

问题陈述
量子强化学习（QRL）在实时控制系统中的应用面临着硬件延迟、噪声敏感性和学习收敛性方面的重大障碍。尽管理论上的量子机器学习（QML）研究表明其在样本效率和高维表示方面具有潜在优势，但在含噪声中等规模量子（NISQ）设备上的实际部署仍然受限。现有研究往往依赖于理想化的模拟，或者未能解决基于云的标准量子执行中的关键延迟瓶颈，这使得它们不适合对延迟敏感的闭环控制任务。本工作所解决的具体挑战在于：仅限于模拟的评估与在实时约束下于物理超导量子处理单元（QPU）上执行混合量子 - 经典智能体之间的差距。

方法论
作者对应用于 CartPole 基准测试的最小化混合量子 - 经典智能体进行了端到端的调查。

环境与状态编码：该任务涉及稳定小车上的倒立摆。受单量子比特架构的约束，智能体利用一个简化的三维特征向量（小车速度、摆杆角度、摆杆角速度），而非完整的四维状态。
智能体架构：
- 混合模型：智能体采用单量子比特变分量子电路（VQC），连接至经典全连接层。VQC 使用哈达玛门（Hadamard gate）后接三旋转序列（ $R_z-R_y-R_z$ ）将状态编码到布洛赫球上，并包含一个可训练的 $R_x$ 旋转。泡利 Z 测量的期望值被输入到经典演员（actor）和评论家（critic）网络中（每个网络包含 32 个隐藏神经元）。
- 经典基线：一个具有相同隐藏层结构（128 和 256 个单元）的全经典演员 - 评论家网络作为基线。
- 训练：两个模型均使用带有策略梯度的演员 - 评论家方法。混合智能体使用参数移位规则（parameter-shift rule）在基于采样的后端上进行梯度估计，同时也使用解析梯度进行对比。
实验类别：
1. 无噪声基准：使用 Qiskit BasicSimulator 比较经典智能体与混合智能体的收敛速率。
2. 训练 - 推理兼容性：对控制回路速率（推理频率）与测量采样预算（shot budget）之间的权衡进行系统性研究。在噪声模拟后端（FakeAdonis）上，评估了在不同频率（20–100 Hz）下训练的智能体，在不同推理频率和采样数（128–1024）下的表现。
3. 低延迟硬件执行：将训练好的策略部署到 VTT Q5（一个 5 量子比特超导 QPU）上。关键的是，作者绕过了标准的高级 Qiskit/IQM 软件栈。相反，他们通过命令表（CT）直接对 Zurich Instruments 的读出电子设备（HDAWG 和 UHFQA）进行编程，消除了因每次参数更改而重新编译代码和上传波形的开销。

主要贡献

最小化混合智能体的样本效率：研究表明，即使使用参数移位规则进行有限采样评估，单量子比特混合智能体也能在显著更少的回合数（约 162 回合）内解决 CartPole 环境，而可比的经典演员 - 评论家网络则需要约 429 回合。
推理时的权衡分析：作者提供了性能矩阵，量化了推理控制频率与采样数之间的关系。结果表明，较高的推理频率始终能改善平衡稳定性。此外，增加采样预算降低了实现近乎最大平衡所需的最低推理频率，凸显了在这两个约束之间寻找最佳平衡点的必要性。
通过底层控制降低延迟：通过绕过标准软件栈并利用控制电子设备上的直接命令表编程，作者实现了执行速度数量级的提升。在 VTT Q5 处理器上，对于 128 次采样，迭代率从约 0.14 Hz（标准栈）提升至超过 6.2 Hz（底层路径），速度提升了 40 倍以上。

结果

学习动态：在无噪声模拟中，混合智能体的收敛速度显著快于经典基线。使用参数移位梯度导致的收敛速度略慢于解析梯度，但仍保持对经典模型的明显优势。
部署约束：兼容性研究表明，推理时的约束（频率和采样数）是稳定性的主要决定因素，而非训练频率。与采样数和推理频率相比，训练频率与推理频率之间的不匹配仅产生次要影响。
硬件性能：在 VTT Q5 上，底层执行路径实现了 6.23 Hz（128 次采样）至 2.71 Hz（1024 次采样）的迭代率。尽管由于缺乏读出误差缓解和非理想的推理条件，硬件上的绝对回合得分较为保守，但该系统成功演示了闭环控制。结果表明，在充足的采样预算下（例如 1024 次采样），即使存在硬件噪声，系统也能实现近乎完美的平衡得分（500）。

意义与主张
本文声称为实现量子硬件上的实时闭环控制反馈迈出了基础性的一步。鉴于 CartPole 的低维特性，本文并未声称在计算复杂性理论意义上实现了量子加速。相反，其意义在于：

量化边界：该工作量化了量子辅助控制的当前边界，特别是采样数、控制频率和延迟之间的权衡。
实用路线图：通过证明绕过标准软件栈对于达到实时反馈所需的数十赫兹吞吐量是必要的，它勾勒出了一条实时演示的实用路径。
最小化模型的可行性：它验证了最小化单量子比特模型在与适当的编码和轻量级经典后处理配对时，即使在现实噪声和有限采样约束下，也能作为强化学习循环中的有效学习智能体。

作者总结道，尽管当前的 NISQ 硬件迭代率（多赫兹）尚未完全达到实现稳健实时控制所需的数十赫兹区间，但所演示的低延迟流水线为实现此类吞吐量提供了可行的起点，为未来的迭代奠定了基础。

1. “小脑”与“大脑”

2. “减速带”问题（训练与驾驶）

3. “交通堵塞”与“高速公路”（延迟）

结论

技术摘要：迈向量子计算机上的 CartPole 系统实时控制

类似论文