原作者： Mohammad Abrarul Hasanat, Jason Ludmir, Tirthak Patel, Rohan Basu Roy

发布于 2026-05-13

📖 1 分钟阅读🧠 深度阅读

原作者： Mohammad Abrarul Hasanat, Jason Ludmir, Tirthak Patel, Rohan Basu Roy

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正试图将一条微妙而复杂的信息，通过一条非常嘈杂、颠簸的道路发送出去。这条信息是一个量子程序（一组给量子计算机的指令），而这条路就是量子硬件。

问题在于，这条路上布满了坑洼（错误），而且信息在传输时间越长时，其质量就越会退化。如果你选择一条漫长而曲折的路线，你的信息可能会变得支离破碎。如果你选择一条快速路线但撞上了太多坑洼，信息同样会变得支离破碎。

目前，负责发送这些信息的“驾驶员”（编译器）使用的是固定规则手册。无论信息是简单还是复杂，也无论道路当前是干燥还是泥泞，它们都指示每一条信息走完全相同的路线。有时这行得通，但往往效率低下，导致交付缓慢或信息损坏。

TuniQ 是一种新型的智能驾驶员，它会改变规则。它不再遵循固定的地图，而是利用强化学习（一种通过试错来学习的 AI 类型）来实时决定每一条信息的最佳路线。

以下是 TuniQ 的工作原理，分解为简单的概念：

1. “固定规则手册”与“智能驾驶员”

将当前系统（IBM Qiskit）想象成一个 GPS，它强制每辆车走同一条高速公路，即使某辆特定的车有捷径可用。它对每个量子电路应用同一套“优化过程”（交通规则）。

缺陷：一条能节省小型汽车时间的捷径，可能会导致大型卡车交通堵塞。同样，有助于一个量子程序的编译器设置，实际上可能会损害另一个程序。
TuniQ 的解决方案：TuniQ 就像一位驾驶员，他会查看具体的货物（电路），检查当前的天气和路况（硬件的噪声水平），然后决定：“我需要走风景路线来避开坑洼吗？还是因为道路畅通应该加速？”它会为每一次特定的行程选择应用哪些“交通规则”，以及跳过哪些。

2. “双编码器”（驾驶员的两套视野）

为了做出这些决定，TuniQ 需要在行程的不同阶段以不同的方式观察世界。论文描述了一个双编码器系统：

上路前（逻辑视图）：在开始时，驾驶员查看行程的“计划”。它看到乘客（量子比特）之间的逻辑连接，而暂时不担心具体的坑洼。它会问：“这些人需要如何坐在一起？”
上路后（物理视图）：一旦汽车上路，驾驶员就会切换到另一套视野。现在，它观察的是“实际”的汽车和“实际”的路况。它看到哪些特定的轮胎（物理量子比特）正在磨损，以及道路的哪些部分颠簸不平。
为何重要：这使 TuniQ 能够适应。如果道路变得更泥泞（噪声增加），它可以立即切换到更安全、更慢的路线，而无需重新训练。

3. “塑形奖励”（从旅程中学习）

在旧的方式中，驾驶员只在最后得到反馈：“你送达信息了吗？”如果信息损坏了，驾驶员也不知道是哪一个转弯导致了问题。

TuniQ 的方法：TuniQ 在沿途获得小的“积分”（奖励）。
- “做得好，避开了那个坑洼！”（中间奖励）。
- “保持车辆平稳，干得漂亮！”（另一个中间奖励）。
- “你完美地送达了信息！”（最终奖励）。
  这有助于驾驶员了解到，行程早期的某个特定转弯对整个旅程的成功至关重要，即使结果直到最后才显现。

4. “动态掩码”（安全护栏）

你不能让驾驶员随意选择任何道路；有些路是死胡同或非法的。

TuniQ 使用动态动作掩码。这就像一道护栏，立即阻止驾驶员尝试那些会撞坏汽车或违反交通法规的转弯。它确保无论 AI 决定什么，最终结果总是一条有效且可行驶的路径。

结果：更快、更清晰

论文在 IBM 的真实量子计算机上测试了 TuniQ。结果如下：

质量更好：信息送达时清晰得多。平均而言，“保真度”（信息与原始计划的匹配程度）提高了20%。
交付更快：规划路线所需的时间（编译时间）缩短了34%。这非常巨大，因为许多量子算法必须连续规划数千次路线。
无需重新训练：如果你将驾驶员换到另一个城市（另一台量子计算机），TuniQ 可以立即工作，无需从头学习新城市。
扩展性：随着信息变得更大、更复杂（实用规模电路），与旧的固定规则手册相比，TuniQ 的表现甚至更好。

总结

TuniQ 就像是从僵化的、一刀切的 GPS 升级为智能、自适应的副驾驶。它查看具体的货物，检查实时的路况，并从每一次旅程中学习，以选择速度与安全的完美组合。这使得量子计算更加可靠和快速，特别是当我们试图在未来解决更大规模的问题时。

技术摘要：TuniQ

问题陈述

量子处理器正日益作为协处理器集成到高性能计算（HPC）生态系统中，其中量子电路作为从经典节点分发的内核运行。然而，当前的量子编译器（如 IBM 的 Qiskit 转换器）依赖于对所有电路统一应用的固定编译流程序列。这种“一刀切”的方法未能考虑三个关键变量：

电路结构：不同的算法（例如 QPE、VQE、Grover）具有不同的拓扑结构和门组成，需要不同的优化策略。
硬件后端：量子设备在耦合拓扑、原生门集和误差分布方面各不相同。
噪声条件：校准数据（门误差、相干时间 $T_1/T_2$ ）在单个设备上随时间漂移。

固定的流程序列经常应用不必要的优化，从而增加电路深度或门数量，进而累积更多噪声并降低输出保真度（通过总变差距离 TVD 衡量）。相反，它可能会跳过针对特定电路结构有益的流程。此外，对数百万种可能的流程组合进行穷举搜索在计算上是不可行的，而贪婪的逐阶段优化往往导致全局次优结果，因为早期的决策会限制后续阶段。

方法论：TuniQ

TuniQ 是一个基于**强化学习（RL）**的系统，旨在自适应地选择转换流水线中每个阶段的编译流程。它将流程选择建模为马尔可夫决策过程（MDP），其中智能体学习在最大化电路保真度的同时最小化编译时间。

核心组件

双编码器架构：
- 布局前编码器：在硬件映射之前对逻辑电路结构（时空门交互）进行编码。
- 布局后编码器：对绑定到物理硬件的电路进行编码，结合来自后端校准的实时噪声特征（误差率、相干时间）。
- 这种分离使智能体能够学习特定阶段的策略：基于逻辑结构进行布局/路由决策，以及基于物理噪声分布进行优化决策。
状态空间：
- 包含一个独热阶段指示器（初始化、布局、路由、转换、优化、清理）。
- 电路特征表示为张量（布局前的逻辑量子比特、布局后的物理量子比特）。
- 全局特征包括门数量、深度和拓扑兼容性比率。
动作空间与动态掩码：
- 智能体在每个阶段选择特定的转换器流程或“跳过”动作。
- 动态动作掩码强制执行有效的编译序列。它防止无效转换（例如，在布局之前跳过路由），并确保满足硬件约束，保证每个完成的回合都能产生可执行的电路。
奖励结构：
- 塑形奖励：为了解决多阶段间的信用分配问题，TuniQ 使用基于转换质量（TQ）指标的中间奖励。该指标利用门误差率和电路深度估算成功概率（ESP），并随着电路从逻辑表示向物理表示移动而进行自适应调整。
- 最终奖励：完成后，智能体根据实现的 ESP 与 Qiskit Level 3（保真度优化）基准的对数比率获得奖励，并结合门数量和深度减少的辅助项。
训练与推理：
- 训练：在随机电路和扰动后的后端噪声分布上使用可掩码 PPO（近端策略优化）进行训练，以确保鲁棒性。
- 推理：策略被冻结。系统执行单次前向传播以选择流程，增加可忽略不计的开销（小于总编译时间的 1%）。推理期间不执行参考编译或奖励计算。

主要贡献

首个噪声条件跨阶段选择器：TuniQ 是首个将转换建模为基于实时噪声分布的统一跨阶段流程选择问题的系统，联合优化保真度和编译时间。
新颖的 RL 扩展：本文引入了用于阶段感知表示的双编码器、用于跨阶段信用分配的塑形奖励，以及用于保证有效编译的动态动作掩码。
可扩展性与泛化能力：该系统在小型电路实例（5–10 个量子比特）上进行训练，但能有效扩展到实用规模电路（高达 65 个量子比特），无需重新训练。它以零样本方式泛化到不同的 IBM Quantum 后端（Torino、Fez、Kingston、Pittsburgh）。
开源：框架和实现已开源，以促进社区采用。

实验结果

在多个 IBM Quantum 云处理器上的多样化工作负载（MQTBench、QASMBench）上进行了评估：

保真度提升：与最先进的 Qiskit（保真度优化）转换器相比，TuniQ 将输出保真度（降低 TVD）平均提高了 20%。对于 QPE 等特定基准，TVD 从 0.76 降低到 0.50，显著提高了算法成功率。
编译时间：TuniQ 将编译时间平均减少了 34%。这对于需要重新编译电路数千次的变分算法（例如 VQE、QAOA）至关重要。
扩展性：随着电路规模增加（高达 65 个量子比特），TuniQ 的优势随之增长，生成的电路比基准线少 40% 的门和 50% 的深度。
鲁棒性：该系统在不同噪声水平（通过缩放误差率模拟）和不同硬件代际（Heron R1–R3）下保持有效性，表现出对校准漂移的抵抗力。

意义与主张

该论文声称，TuniQ 解决了当前量子编译中的一个根本性局限：对静态、固定流程序列的依赖。通过转向自适应、学习驱动的方法，TuniQ 证明了最优流程选择高度依赖于电路、硬件和噪声环境的上下文。

作者强调，TuniQ 不仅仅是改进单一指标，而是提供了更好的质量 - 时间权衡。与基于搜索的方法（例如进化算法）相比，后者会产生高昂的每电路开销，TuniQ 在训练期间摊销了搜索成本，使其适用于吞吐量至关重要的 HPC 工作流。这项工作表明，随着量子硬件向容错方向发展，自适应编译仍将是关键的性能杠杆，而 TuniQ 为实现这一潜力提供了可扩展的框架。

TuniQ: Autotuning Compilation Passes for Quantum Workloads at Scale for Effectiveness and Efficiency