技术摘要:重新思考行动方式:面向分布式量子系统的强化学习电路路由中的动作空间工程
问题陈述
由于控制复杂性、串扰和相关错误,量子处理器的单体扩展面临局限,分布式量子计算(DQC)已成为一种可行的替代方案。DQC 通过量子通道和经典通道互连多个较小的量子处理器模块。然而,为 DQC 编译量子电路引入了一个独特的挑战:编译器不仅必须满足模块内的局部连接约束,还必须管理远程纠缠态(EPR 对)的生成和路由,以促进非局域操作。
EPR 对的生成速度显著慢于局域门操作(例如 10–40 Hz 对比 MHz 至 kHz),从而形成瓶颈。传统的编译方法通常依赖静态量子比特放置或启发式算法,将网络动态抽象为标量成本,未能捕捉远程纠缠生成的随机性和延迟特性。虽然强化学习(RL)在非分布式路由中已显示出潜力,但现有的 DQC 专用 RL 框架(例如 Promponas 等人,2024)由于其动作空间表述方式,在训练效率、可扩展性和推理性能方面面临挑战。
方法论
作者提出了一种新颖的 RL 智能体,旨在优化 DQC 架构中的电路执行时间。该方法建立在 Promponas 等人(2024)确立的框架之上,但对动作空间、掩码策略和价值近似进行了重大的工程改进。
1. 系统与电路模型
- 电路表示:量子电路被建模为有向无环图(DAG),其中节点代表门,边代表优先约束。
- 硬件模型:系统由通过量子通道连接的多个模块(QPU)组成。局域操作发生在模块内部,而远程操作依赖 EPR 对。
- 远程原语:该框架支持tele-gates(非局域 CNOT)和tele-qubits(态隐形传态),它们消耗 EPR 对。纠缠生成被建模为具有固定延迟 tgen 的确定性过程,近似于“重复直到成功”协议的平均等待时间。
2. 强化学习框架
该问题被表述为使用双深度 Q 网络(DDQN)的马尔可夫决策过程(MDP)。
- 状态空间(S):与基线相同,编码当前的量子比特映射(物理到虚拟)和 DAG 结构(门依赖和分层)。
- 奖励结构:
- 完成门操作(Rscore)和完成电路(Rsuccess)给予正奖励。
- 未能在时间限制内完成电路(Rfail)以及使用
STOP 动作给予惩罚。
- 修改:作者修改了移动奖励(Rmove)。与基线惩罚距离增加不同,新智能体在距离度量未减少时获得零奖励,从而避免了对非严格禁止但未取得进展的移动给予负面反馈。
STOP 奖励按跳过的时间步数(Δtskip)进行缩放。
3. 关键创新:动作空间工程
核心贡献在于重新定义智能体的动作空间(A~)及其掩码和近似方式。
- 扩展的动作空间:新智能体不再将动作与单个边(单链路上的 SWAP)关联,而是将动作与物理量子比特对 (i,j) 关联。动作
ROUT(i, j) 在 i 和 j 之间预计算的最短路径上执行一系列 SWAP 和 tele-qubit 操作。这使得智能体能够在单一步骤中做出多步路由决策。
- 限制性动作掩码:为防止扩大的动作空间压倒智能体,采用了严格的掩码策略。仅当路由动作
ROUT(i, j) 满足以下条件时才被允许:
- 将涉及下一个门的“前沿量子比特”向其伙伴移动。
- 将未初始化的量子比特移向通信链路,以准备 EPR 生成。
- 将 EPR 量子比特和前沿量子比特相互移动。
- 结构化 Q 值近似:为解决动作空间的二次缩放(O(∣V∣2)),作者引入了结构化近似。神经网络为每个物理量子比特 i 输出一个标量值 Qi(以及
STOP 和 generate 动作的值)。从 i 到 j 的特定路由动作的值通过线性组合诱导得出:
Qij=(1−α)Qi+αQj
其中 0<α<0.5。这将可训练输出的数量从 O(∣V∣2) 减少到 O(∣V∣),在保留方向性的同时显著降低了计算成本。
关键结果
所提出的智能体在两种硬件拓扑上进行了评估:4x4 网格和一对连接的 IBM Q Guadalupe 架构(共 32 个量子比特)。实验使用了随机生成的包含 30、40 和 50 个 CNOT 门的电路。
1. 推理性能
- 执行时间减少:在具有 30 门电路的 Guadalupe 拓扑上,与基线相比,所提出的智能体实现的建模执行时间相对减少了约 35%。
- 基线平均值:约 1,227 个时间步。
- 所提出智能体平均值:约 799 个时间步。
- 可扩展性:在约束更强的 Guadalupe 拓扑上,基线智能体难以学习针对 40 和 50 门电路的有效策略(执行时间保持在接近随机选择水平)。相比之下,所提出的智能体在这些更大电路的执行时间上显示出显著改进,表明具有更好的可扩展性。
- 网格拓扑:在高度连接的 4x4 网格上,由于在众多替代方案中选择最优路径的复杂性,所提出的智能体初始训练较慢。然而,它最终达到了具有竞争力的最终性能,略优于基线。
2. 训练效率
- 挂钟时间:所提出的模型所需的训练时间显著减少。对于 30 门电路,训练时间减少了64%(从约 66 小时减少到约 23.5 小时)。
- 收敛性:所提出的智能体在训练最后阶段表现出更低的累积奖励和执行时间方差,表明策略更稳定且一致。
3. 前瞻分析
作者调查了在较小电路上训练(有限前瞻)是否能泛化到较大电路。在较大电路(C50)上训练在 50 门测试集上始终比在较小电路(C30 或 C40)上训练产生更好的推理性能,表明在此设置中,完整的电路上下文对于最优路由决策是必要的。
意义与主张
该论文主张动作空间工程是改进基于 RL 的量子电路编译的关键杠杆。通过重构动作空间以允许复合路由动作,并采用结构化 Q 值近似,作者实现了:
- 性能提升:在受限硬件拓扑上显著减少电路执行时间(高达 35-38%)。
- 计算效率:大幅减少训练时间(64%),并实现了 Q 网络更具可扩展性的参数化。
- 泛化能力:能够学习针对更大电路的有效策略,而基线基于启发式或边级 RL 方法在这些情况下失效。
作者谦逊地指出,可扩展性仍受限于状态空间随门数量的多项式增长(目前评估上限为 50 个门和 18 个量子比特)。他们指出,限制性掩码策略(有助于学习速度)与潜在的全局最优路由策略丢失之间的权衡是一个局限性。未来的工作建议专注于更紧凑的状态表示,以进一步增强泛化能力。