Rethinking How to Act: Action-Space Engineering for Reinforcement Learning-Based Circuit Routing in Distributed Quantum Systems

本文介绍了一种具有新颖动作空间表述和掩码策略的强化学习智能体,该智能体显著提升了分布式量子系统中的电路编译效率,与以往方法相比,建模执行时间最多降低了 35%。

原作者: Joost Van Veen, Luise Prielinger, Sebastian Feld

发布于 2026-05-05
📖 1 分钟阅读🧠 深度阅读

原作者: Joost Van Veen, Luise Prielinger, Sebastian Feld

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你正在筹备一场规模宏大、 stakes 极高的舞会,但场地被分割成两个独立的房间,中间由一条狭窄且缓慢的走廊相连。

问题:量子舞池
在量子计算领域,我们需要执行复杂的计算(即舞蹈)。然而,建造一个容纳数千名舞者(量子比特)的巨型房间正变得过于混乱且昂贵。因此,科学家们正在构建“分布式量子计算”(DQC)系统:两个较小且易于管理的房间(模块),通过一条走廊相连。

但关键在于:

  • 在房间内: 舞者可以瞬间移动并互动。
  • 在房间之间: 将舞者穿过走廊移动既缓慢又不可靠,且需要漫长的准备时间(就像等待特定公交车的到来)。

目标是以尽可能快的速度完成所有舞步(量子门)。挑战在于决定:我现在是否应该将舞者移入走廊?我应该等待吗?应该移动哪位舞者?

旧方法:犹豫不决的规划者
此前,研究人员使用一种“逐步”规划器(强化学习)。想象一位紧张的经理,每次只能做出微小的移动:“将舞者 A 向左移动一步”,或“等待一秒”。

  • 问题: 由于经理只能迈出微小步伐,他们容易不堪重负。他们花费大量时间思考每一个微小的动作,且往往因缺乏全局视野而陷入交通拥堵。训练这位经理耗时很长,即便如此,他们的效率依然不高。

新构想:战略指挥官
本文作者引入了一种新型经理(AI 智能体),具备更聪明的思维方式。该智能体不再采取微小步伐,而是进行战略移动

  1. 大动作,而非小步伐: 智能体不再说“向左移动一步”,而是说“将舞者 A 沿最短路径直接移至走廊”。它一次性规划整个动作链条。
  2. “请勿打扰”标志(动作掩码): 为防止智能体陷入困惑,研究人员设置了“动作掩码”。这就像保镖告诉智能体:“你此刻无法移动那位舞者,因为他们尚未被需要。” 这阻止了智能体浪费时间尝试不可能或无用的操作。
  3. 更聪明的“大脑”: 该智能体使用简化的“大脑”(神经网络),不试图记忆每一个可能的微小动作。相反,它学习从特定位置移动到另一特定位置的价值,从而大幅加快学习速度。

结果:更快的舞会,更少的训练
研究人员利用模拟量子电路(舞蹈编排)测试了这位新型“战略指挥官”与旧式“犹豫规划者”的表现。

  • 速度: 新智能体完成编排的速度比旧方法快35%。它找到了更优路径,更有效地避免了交通拥堵。
  • 训练时间: 新智能体学会如何完成任务所需的时间减少了64%。这就像新经理在一个下午就掌握了整个场地的运作,而旧经理则需要一周的试错。
  • 可扩展性: 当在更大、更复杂的编排上进行训练时,新智能体表现更佳,而旧方法则难以提升。

核心结论
本文表明,通过改变 AI 做出决策的方式(赋予其更大、更智能的动作,并过滤掉不良动作),我们可以显著提高分布式量子计算机的运行效率。这并非关于建造更好的硬件,而是关于构建更优秀的“交通警”,以管理计算机各部分之间的信息流。

注:本文严格聚焦于编译这些量子电路的效率。它并未声称这些成果将立即带来新的医疗疗法或药物发现,而是指出量子计算机底层的“交通控制”现已显著提升效率。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →