Deep reinforcement learning for near-deterministic preparation of cubic- and… — 通俗解释

原作者： Amanuel Anteneh, Léandre Brunel, Carlos González-Arciniegas, Olivier Pfister

发布于 2026-05-13

📖 1 分钟阅读🧠 深度阅读

原作者： Amanuel Anteneh, Léandre Brunel, Carlos González-Arciniegas, Olivier Pfister

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正在尝试烘焙一种非常特定且复杂的蛋糕（即“立方相位态”），这对于构建超先进的量子计算机至关重要。在基于光（光子）的计算领域，制作这种蛋糕以困难著称。通常，你必须依赖一种“幸运猜测”的方法：混合原料，检查结果，如果不够完美，就将其丢弃并重新开始。这种方法既缓慢又低效。

本文提出了一种利用由**深度强化学习（DRL）**驱动的“智能机器人厨师”来烘焙这种蛋糕的新方法。以下是作者做法的简明解释：

1. 目标：“魔法”原料

要制造一台能够解决任何问题的通用量子计算机，你需要一种名为立方相位态的特殊原料。将其想象为一种“魔法香料”，它能将一台简单、可预测的机器转变为强大、复杂的机器。没有它，计算机的能力将受到限制。

2. 旧方法 vs. 新方法

旧方法（经典/概率法）： 想象一下，通过随机摇晃一盒原料并希望能得到正确的混合比例来烘焙蛋糕。如果搞错了，就丢弃这一批。这就是之前使用“光子数分辨”（PNR）测量方法所做的事情。它虽然有效，但就像每次想烘焙蛋糕时都要试图中彩票一样。
新方法（AI 厨师）： 作者训练了一个深度神经网络（一种人工智能）来充当厨师。这位厨师不靠猜测，而是通过实践来学习。
- 设置： “厨房”是一个由镜子、分束器和激光器组成的回路（即量子光学电路）。
- 过程： AI 厨师观察混合物的当前状态（光）。它决定是加一点“压缩”（压缩光），加一点“位移”（移动光），还是让混合物通过分束器。
- 反馈： 每一步之后，厨师都会检查结果。如果蛋糕越来越接近完美食谱，AI 就会获得“奖励”；如果偏离轨道，它就会受到“惩罚”。
- 学习： 经过数百万次尝试，AI 学会了几乎每次都能生成立方相位态的完美动作序列。

3. 结果：接近确定性的成功

论文报告称，这位 AI 厨师实现了96% 的成功率。

这意味着什么： 与旧方法丢弃 90% 的批次不同，AI 在 100 次尝试中有 96 次成功烘焙出了蛋糕。
“重置”技巧： AI 学会了一种巧妙的策略。如果它意识到一批原料已毁且无法修复，它会立即按下“重置”按钮（转动镜子重新开始），而不是浪费时间试图修复一个坏掉的蛋糕。它还学会了在蛋糕完美时停止添加原料，而不是过度搅拌。

4. “四次方”的额外收获

作者还表明，同一个“厨房”和“厨师”可以用来制作一种更复杂的蛋糕，称为四次相位门。

挑战： 通常，制作这种复杂蛋糕需要将其构建为 29 个较小的立方蛋糕（一条非常长的装配线）。
发现： 作者发现了一种更简单的直接食谱，使用相同的原料。虽然这个特定版本仍然依赖一点运气（后选择），但它证明了你可以跳过漫长的装配线，直接制作出复杂的蛋糕。他们建议，随着更多的训练，AI 最终也能可靠地制作出这种蛋糕。

5. 为什么这很重要（根据论文）

效率： 与之前的提案相比，这种方法需要的“压缩”（能量）更少，光子计数也更不复杂。
可行性： 所需的设备（镜子、激光器和光子探测器）已经存在于当前的实验室中。唯一需要的“非标准”能力是精确计数光子，而这现在已经可以实现。
鲁棒性： AI 学会了处理“噪声”（设备的缺陷）。即使探测器的效率只有 99%（略有“噪声”），AI 仍然能够产生高质量的结果，尽管它必须调整其策略（振荡其动作）以进行补偿。

总之： 本文表明，通过教计算机利用试错学习来“玩”量子光路，我们可以以近乎完美的可靠性生成量子计算中最困难且必要的原料，从而将一场概率游戏转变为可靠的制造过程。

技术摘要：用于近确定性制备三次和四次相位门的深度强化学习

问题陈述
连续变量量子计算（CVQC）提供了卓越的扩展性和容错潜力，但实现通用性需要访问非高斯资源，具体而言即三次哈密顿量演化。虽然三次相位门（ $\exp(i\gamma Q^3)$ ）足以实现通用 CVQC，但其确定性生成极具挑战性。依赖三阶光学非线性的传统方法由于光学非线性微弱而效率低下。利用光子数分辨（PNR）测量的概率性方法（如 Gottesman-Kitaev-Preskill (GKP) 协议）需要极端资源（例如约 17 dB 的压缩和探测约 50 个光子）才能达到有用的门参数。此外，现有的量子态制备优化方法通常依赖后选择，这导致成功率低下，并且需要在所有可能的探测模式上进行计算昂贵的优化。

方法论
作者提出了一种利用深度强化学习（DRL）控制量子光学电路以生成三次相位态的控制框架。

量子电路：该系统采用一个包含可变分束器、压缩操作和位移操作的循环光学电路。该循环由一个可切换的镜子终止。PNR 探测器测量循环中的光子数，其结果作为条件输入到神经网络的密度矩阵中。
强化学习框架：交互过程被建模为马尔可夫决策过程（MDP）。
- 状态（ $S$ ）：每个时间步电路状态的展平密度矩阵。
- 动作（ $A$ ）：一个控制分束器透射率（ $\tau_j$ ）、压缩参数（ $r_j$ ）和位移幅度（ $\alpha_j$ ）的向量。
- 奖励（ $R$ ）：当前状态与目标三次相位态之间保真度的函数，对低保真度以及由希尔伯特空间截断引起的非物理结果进行惩罚。
算法：作者使用具有演员 - 评论家架构（两个深度神经网络）的近端策略优化（PPO）。智能体被训练以最大化最终状态的保真度，而不依赖后选择，学习适应 PNR 测量固有的随机性。
训练参数：模拟使用 StrawberryFields 和 StableBaselines3 库运行。智能体在数百万个时间步上进行训练，希尔伯特空间截断为 31 个光子。目标状态是位移三次相位态，其中 $\gamma = 0.2$ 。

关键结果

近确定性三次相位生成：
- 训练有素的智能体在生成 $\gamma = 0.2$ 的三次相位态时，平均成功率达到 96%。
- 这一成果是在适度资源下实现的：压缩不超过 10 dB，低位移，以及远低于概率性 GKP 方案所需的光子数分辨测量。
- 涌现行为：智能体学会了：
  - 一旦达到高保真度，将分束器透射率设为零（ $\tau_j=0$ ），从而有效地锁定状态。
  - 在锁定循环后应用校正位移。
  - 如果输入状态被认为不太可能收敛，则“重置”电路（ $\tau_j=1$ ），从而高效地重启过程。
- 即使 PNR 探测器效率为 99%，该方法也被证明是鲁棒的，尽管在损耗情况下智能体表现出振荡位移行为。在 90% 效率下，智能体未能学会成功的策略。
直接四次相位生成：
- 作者确定了一种量子光学算法，用于直接生成四次相位态（ $\exp(i\delta Q^4)$ ），绕过了将门分解为 29 个三次相位门的需求。
- 该算法涉及在相空间特定相位处，利用基于簇态的两步 PNR 检测过程，用位移福克态对 Wigner 函数进行“盖章”。
- 初步结果：后选择模拟（希尔伯特空间截断为 60 个光子）表明，该方法可以生成高保真度的四次相位态（在特定后选择情况下高达 95%），验证了量子干涉可以将圆形福克轮廓转化为四次态特征波纹的直觉。

意义与主张
该论文声称，这种由 DRL 驱动的方法提供了一条生成三次相位态的近确定性途径，这是通用 CVQC 的关键资源。强调的主要优势包括：

资源效率：与之前的方案相比，该方法所需的压缩和光子数分辨能力显著降低。
实验可行性：所需的组件（压缩光、位移和 PNR 测量）在当前的实验装置中均可获得，这与替代确定性方法所需的强非线性不同。
可扩展性：通过避免后选择，该方法避免了因搜索所有可能的探测模式而导致的低成功率和优化瓶颈。
直接四次门：论文建立了一种直接生成四次相位门的基础算法，表明类似的机器学习扩展最终可能使该过程变得近确定性，尽管这仍是一项需要更大计算资源的工作。

作者总结道，虽然四次相位扩展目前仍是概率性的且计算密集，但三次相位态的成功演示验证了深度强化学习在控制复杂量子光学电路以高效产生非高斯资源方面的潜力。

Deep reinforcement learning for near-deterministic preparation of cubic- and quartic-phase gates in photonic quantum computing