Reinforcement Learning Control of Quantum Error Correction

Volodymyr Sivak, Alexis Morvan, Michael Broughton, Rodrigo G. Cortiñas, Johannes Bausch, Andrew W. Senior, Matthew Neeley, Alec Eickbusch, Noah Shutty, Laleh Aghababaie Beni, James S. Spencer, Francisco J. H Heras, Thomas Edlich, Dmitry Abanin, Amira Abbas, Rajeev Acharya, Georg Aigeldinger, Ross Alcaraz, Sayra Alcaraz, Trond I. Andersen, Markus Ansmann, Frank Arute, Kunal Arya, Walt Askew, Nikita Astrakhantsev, Juan Atalaya, Brian Ballard, Joseph C. Bardin, Hector Bates, Andreas Bengtsson, Majid Bigdeli Karimi, Alexander Bilmes, Simon Bilodeau, Felix Borjans, Alexandre Bourassa, Jenna Bovaird, Dylan Bowers, Leon Brill, Peter Brooks, David A. Browne, Brett Buchea, Bob B. Buckley, Tim Burger, Brian Burkett, Nicholas Bushnell, Jamal Busnaina, Anthony Cabrera, Juan Campero, Hung-Shen Chang, Silas Chen, Ben Chiaro, Liang-Ying Chih, Agnetta Y. Cleland, Bryan Cochrane, Matt Cockrell, Josh Cogan, Roberto Collins, Paul Conner, Harold Cook, William Courtney, Alexander L. Crook, Ben Curtin, Martin Damyanov, Sayan Das, Dripto M. Debroy, Sean Demura, Paul Donohoe, Ilya Drozdov, Andrew Dunsworth, Valerie Ehimhen, Aviv Moshe Elbag, Lior Ella, Mahmoud Elzouka, David Enriquez, Catherine Erickson, Vinicius S. Ferreira, Marcos Flores, Leslie Flores Burgos, Ebrahim Forati, Jeremiah Ford, Austin G. Fowler, Brooks Foxen, Masaya Fukami, Alan Wing Lun Fung, Lenny Fuste, Suhas Ganjam, Gonzalo Garcia, Christopher Garrick, Robert Gasca, Helge Gehring, Robert Geiger, Élie Genois, William Giang, Dar Gilboa, James E. Goeders, Edward C. Gonzales, Raja Gosula, Stijn J. de Graaf, Alejandro Grajales Dau, Dietrich Graumann, Joel Grebel, Alex Greene, Jonathan A. Gross, Jose Guerrero, Loïck Le Guevel, Tan Ha, Steve Habegger, Tanner Hadick, Ali Hadjikhani, Michael C. Hamilton, Matthew P. Harrigan, Sean D. Harrington, Jeanne Hartshorn, Stephen Heslin, Paula Heu, Oscar Higgott, Reno Hiltermann, Hsin-Yuan Huang, Mike Hucka, Christopher Hudspeth, Ashley Huff, William J. Huggins, Evan Jeffrey, Shaun Jevons, Zhang Jiang, Xiaoxuan Jin, Chaitali Joshi, Pavol Juhas, Andreas Kabel, Dvir Kafri, Hui Kang, Kiseo Kang, Amir H. Karamlou, Ryan Kaufman, Kostyantyn Kechedzhi, Tanuj Khattar, Mostafa Khezri, Seon Kim, Can M. Knaut, Bryce Kobrin, Fedor Kostritsa, John Mark Kreikebaum, Ryuho Kudo, Ben Kueffler, Arun Kumar, Vladislav D. Kurilovich, Vitali Kutsko, Nathan Lacroix, David Landhuis, Tiano Lange-Dei, Brandon W. Langley, Pavel Laptev, Kim-Ming Lau, Justin Ledford, Joy Lee, Kenny Lee, Brian J. Lester, Wendy Leung, Lily Li, Wing Yan Li, Ming Li, Alexander T. Lill, William P. Livingston, Matthew T. Lloyd, Aditya Locharla, Laura De Lorenzo, Daniel Lundahl, Aaron Lunt, Sid Madhuk, Aniket Maiti, Ashley Maloney, Salvatore Mandrà, Leigh S. Martin, Orion Martin, Eric Mascot, Paul Masih Das, Dmitri Maslov, Melvin Mathews, Cameron Maxfield, Jarrod R. McClean, Matt McEwen, Seneca Meeks, Kevin C. Miao, Zlatko K. Minev, Reza Molavi, Sebastian Molina, Shirin Montazeri, Charles Neill, Michael Newman, Anthony Nguyen, Murray Nguyen, Chia-Hung Ni, Murphy Yuezhen Niu, Logan Oas, Raymond Orosco, Kristoffer Ottosson, Alice Pagano, Agustin Di Paolo, Sherman Peek, David Peterson, Alex Pizzuto, Elias Portoles, Rebecca Potter, Orion Pritchard, Michael Qian, Chris Quintana, Arpit Ranadive, Matthew J. Reagor, Rachel Resnick, David M. Rhodes, Daniel Riley, Gabrielle Roberts, Roberto Rodriguez, Emma Ropes, Lucia B. De Rose, Eliott Rosenberg, Emma Rosenfeld, Dario Rosenstock, Elizabeth Rossi, Pedram Roushan, David A. Rower, Robert Salazar, Kannan Sankaragomathi, Murat Can Sarihan, Kevin J. Satzinger, Max Schaefer, Sebastian Schroeder, Henry F. Schurkus, Aria Shahingohar, Michael J. Shearn, Aaron Shorter, Vladimir Shvarts, Spencer Small, W. Clarke Smith, David A. Sobel, Barrett Spells, Sofia Springer, George Sterling, Jordan Suchard, Aaron Szasz, Alexander Sztein, Madeline Taylor, Jothi Priyanka Thiruraman, Douglas Thor, Dogan Timucin, Eifu Tomita, Alfredo Torres, M. Mert Torunbalci, Hao Tran, Abeer Vaishnav, Justin Vargas, Sergey Vdovichev, Guifre Vidal, Catherine Vollgraff Heidweiller, Meghan Voorhees, Steven Waltman, Jonathan Waltz, Shannon X. Wang, Brayden Ware, James D. Watson, Yonghua Wei, Travis Weidel, Theodore White, Kristi Wong, Bryan W. K. Woo, Christopher J. Wood, Maddy Woodson, Cheng Xing, Z. Jamie Yao, Ping Yeh, Bicheng Ying, Juhwan Yoo, Noureldin Yosri, Elliot Young, Grayson Young, Adam Zalcman, Ran Zhang, Yaxing Zhang, Ningfeng Zhu, Nicholas Zobrist, Zhenjie Zou, Ryan Babbush, Dave Bacon, Sergio Boixo, Yu Chen, Zijun Chen, Michel Devoret, Monica Hansen, Jeremy Hilton, Cody Jones, Julian Kelly, Alexander N. Korotkov, Erik Lucero, Anthony Megrant, Hartmut Neven, William D. Oliver, Ganesh Ramachandran, Vadim Smelyanskiy, Paul V. Klimov

公開日 Tue, 10 Ma

📖 1 分で読めます🧠 じっくり読む

閲覧： arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Google の研究チームが、量子コンピュータの「未来の課題」を解決する画期的な方法を発表しました。その名も**「エラーから学ぶ、止まらない量子コンピュータ」**です。

この難しい話を、誰でもわかるような日常の例えを使って解説しましょう。

1. 問題：「完璧な料理」は作れない？

量子コンピュータは、非常に繊細な「アナログ（連続的な値）」の機械です。まるで、**「風の中で、指先だけでバランスを取りながら、完璧なタワーを積み上げる」**ようなものです。

現状の課題： 風（環境ノイズ）が吹くと、タワーはすぐに崩れます。
従来の解決策： タワーが崩れそうになったら、**「一度全部止めて、作り直し」**をします。
- これを「校正（キャリブレーション）」と呼びます。
- しかし、将来の量子コンピュータは、何日も何週間も走り続ける必要があります。そのたびに「止めて作り直し」をしていたら、永遠に計算が終わらないのです。

2. 解決策：「エラー」を「先生」にする

Google は、この「止めて作り直す」という非効率な方法を捨てました。代わりに、**「計算しながら、同時に学習し続ける」**という新しいアプローチを採用しました。

ここでのキーパーソンは、**「強化学習（Reinforcement Learning）」**という AI です。

具体的な仕組み：お料理の味付けに例えてみましょう

量子コンピュータの計算は、**「複雑な料理」**を作っているようなものです。

量子ビット（部品）： 食材。
エラー検出： 料理中の「味見」。
AI（強化学習）： 料理人。

【従来の方法】
料理中に味がおかしい（エラーが出た）と気づくと、**「一旦火を止めて、レシピ本をひっくり返して、調味料を全部測り直して、作り直す」**という手順を踏みます。これでは、大きな鍋料理（長い計算）は作れません。

【新しい方法（この論文のアイデア）】

味見を「学習のヒント」にする： 料理中に「味見（エラー検出）」をします。
AI が即座に調整： 「あ、少し塩気が足りないな（エラーが出た）」と AI が感じたら、**「火を止めずに、その瞬間に塩を少し足す」**という微調整を自動で行います。
エラーは「先生」： エラーが出たこと自体が、「ここを直せばもっと美味しくなるよ」という**「先生からのアドバイス」**になります。

AI は、エラーが起きた瞬間に「なぜ起きたのか？」「どう直せばいいか？」を瞬時に学び、**「計算を止めずに、常に最適な状態をキープし続ける」**ことができます。

3. 実験の結果：驚異的な成果

Google は、実際にこの方法を「Willow」という最新の量子プロセッサで試しました。

3.5 倍の安定性： 風（ノイズ）が吹いてシステムが不安定になっても、AI が常に調整し続けることで、従来の方法に比べて3.5 倍も安定してタワー（計算）を維持できました。
記録更新： 従来の人間が手動で調整する限界を超え、これまでにない高い精度（エラーの少なさ）を達成しました。
スケールアップ： シミュレーションでは、この AI はシステムが巨大化しても（パラメータが数万個になっても）、**「学習の速さが落ちない」**ことが確認されました。つまり、どんなに大きな量子コンピュータになっても、この「学習しながら走る」方法は有効なのです。

4. なぜこれが重要なのか？

これまでの量子コンピュータは、「エラーが出たら止めて直す」という**「歩行と休憩を繰り返す」ようなものでした。
しかし、この新しい方法は、「走りながらバランスを取り続ける」という、まるで「自転車に乗っている子供」**のような状態です。

転びそうになったら（エラー）： すぐにハンドルを微調整する。
止まらない： 計算を中断しない。
上手くなる： 転び方を学ぶことで、次はより上手にバランスが取れるようになる。

まとめ

この論文は、**「量子コンピュータが、自分のミス（エラー）から自ら学び、人間が介入することなく、永遠に走り続けられるようになる」**という新しいパラダイムを示しました。

これは、単にハードウェアを良くするだけでなく、**「もっと賢い制御（AI）」によって、量子コンピュータの未来を切り開く重要な一歩です。まるで、「失敗を恐れることなく、失敗そのものが成長の糧になる」**ような、究極の学習マシンが誕生したのです。

Each language version is independently generated for its own context, not a direct translation.

Google Quantum AI と Google DeepMind の共同研究による論文「Reinforcement learning control of quantum error correction（量子誤り訂正の強化学習制御）」の技術的サマリーを以下に記します。

1. 背景と課題

量子コンピュータは本質的にアナログな機械であり、環境ノイズやパラメータのドリフト（経時的な変動）に対して極めて脆弱です。これを克服するための量子誤り訂正（QEC）は、エラーを検知して論理状態を修正するプロセスですが、QEC が有効に機能するためには、物理的なゲートエラー率が特定の閾値（約 $10^{-3} \sim 10^{-2}$）を大幅に下回る必要があります。

従来のアプローチでは、システムがドリフトして性能が低下した際、計算を完全に停止してシステム全体の再較正（リキャリブレーション）を行っていました。しかし、将来の長期間（数日〜数週間）にわたる量子アルゴリズム実行において、この「計算と較正の分離」は持続可能な解決策ではありません。また、既存の理論的提案（論理スワップやコード変形など）は、オーバーヘッドが膨大になるという課題を抱えています。

2. 提案手法：強化学習（RL）による制御

本研究は、**「誤り検知イベントを学習信号として再利用し、計算を止めずに物理制御パラメータを連続的に最適化する」**という新しいパラダイムを提案しました。

基本コンセプト:
QEC プロセスで検出される「誤り検知（syndrome）」は、単に論理状態を修正するだけでなく、強化学習エージェント（RL エージェント）への報酬信号としても利用されます。エージェントは、検出された誤りのパターンから物理制御パラメータ（マイクロ波パルスの振幅、周波数、結合強度など）を微調整し、システムを安定化させます。
代替目的関数（Surrogate Objective）:
論理エラー率（LER）そのものを最適化するのは、コード距離が大きくなるにつれて必要な測定回数が指数関数的に増えるため非現実的です。そこで、著者らは「誤り検知イベントの平均発生率」を LER の代理となる代替目的関数 $C$ $C$ として定義しました。
- 表面コードのスケールモデルに基づき、 $\nabla \log \varepsilon_L \propto \nabla \log C$ の関係が成り立つことを実証し、 $C$ の勾配を推定することで効率的な最適化を可能にしました。
アルゴリズム:
- 多目的方策勾配法: 制御パラメータの確率分布（ガウス分布）を学習対象とし、検出イベントの発生率を最小化する方向に分布を更新します。
- スパース性の活用: QEC 回路における検知領域の局所性を利用し、各検知器が関連する制御パラメータのみを考慮する「ファクターグラフ」構造を導入しました。これにより、高次元の制御空間（数千〜数万个のパラメータ）においても、学習の効率とスケーラビリティを維持しています。
- 探索と活用のバランス: 学習初期にはパラメータ空間を探索（Exploration）し、ドリフトに対して追従（Exploitation）する能力を身につけます。

3. 実験と結果

Google の超伝導量子プロセッサ「Willow」を用いた実験で、距離 5 および 7 の表面コード、距離 5 のカラーコードに対して手法を適用しました。

ドリフトへの追従（Steering）:
人工的に注入されたドリフト（ステップ状、正弦波など）に対し、固定された制御パラメータでは性能が劣化しますが、RL 制御はこれを追従し、論理エラー率（LER）の安定性を3.5 倍向上させました。
微調整による性能向上（Fine-tuning）:
従来の手法と人間の専門家による徹底的な較正を行った後でも、RL による微調整を行うことで、さらに**20%**の LER 抑制を達成しました。
記録的な性能:
- 距離 7 表面コード: 論理エラー率 $\varepsilon_L = 7.72(9) \times 10^{-4}$ を達成（AlphaQubit2 ニューラルネットワークデコーダ使用）。
- 距離 5 カラーコード: 論理エラー率 $\varepsilon_L = 8.19(14) \times 10^{-3}$ を達成（Tesseract デコーダ使用）。
  これらは、あらゆる物理量子ビット方式において達成された最高レベルの QEC 性能です。
ランダム初期化からの回復:
制御パラメータを完全にランダム化（論理出力が 50% の確率で誤る状態）した状態から RL 学習を開始したところ、約 1000 エポックで較正済みレベルの性能まで回復させることに成功しました。

4. スケーラビリティとシミュレーション

大規模コードへの拡張:
距離 15 の表面コード（約 4 万個の制御パラメータ）に対するシミュレーションを行い、RL フレームワークのスケーラビリティを確認しました。
収束速度:
学習の収束速度はシステムサイズに依存せず、検知領域あたりのゲート数やゲートあたりのパラメータ数にのみ依存することが示されました。これは、ファクターグラフのスパース性を活用したアルゴリズム設計の成果です。
リアルタイム制御の限界:
シミュレーションにより、ドリフトの周波数が閾値（約 1/150 エポック）を超えると、探索ノイズの影響でリアルタイム制御が追いつかなくなることも示されました。

5. 意義と将来展望

本研究は、量子コンピュータが「自らの誤りから学習し、計算を中断することなく自己修復・最適化を行う」ことを実証しました。

パラダイムシフト: 従来の「計算と較正の分離」から、「計算中に継続的に較正を行う」統合的な制御へと移行する道筋を示しました。
フォールトトレランスへの道: 将来的な大規模量子計算において、ハードウェアの改良だけでなく、「より賢い制御（Intelligent Control）」が不可欠であることを示唆しています。
汎用性: このアプローチは、超伝導回路に限らず、どの物理量子ビット方式や QEC アーキテクチャ（空間的に非局所的な接続を持つものなど）にも適用可能です。

結論として、強化学習は大規模な誤り訂正量子システムの制御を自動化し、フォールトトレラント量子計算の実現に向けた重要な鍵となる技術であることを実証しました。

Reinforcement Learning Control of Quantum Error Correction

1. 問題：「完璧な料理」は作れない？

2. 解決策：「エラー」を「先生」にする

具体的な仕組み：お料理の味付けに例えてみましょう

3. 実験の結果：驚異的な成果

4. なぜこれが重要なのか？

まとめ

1. 背景と課題

2. 提案手法：強化学習（RL）による制御

3. 実験と結果

4. スケーラビリティとシミュレーション

5. 意義と将来展望

関連論文

Formally Verifying Quantum Phase Estimation Circuits with 1,000+ Qubits

Distributed g(2) Retrieval with Atomic Clocks: Eliminating Conventional Sync Protocols

Efficient training of photonic quantum generative models

Quantum algorithm for anisotropic diffusion and convection equations with vector norm scaling

Large Language Model-Assisted Superconducting Qubit Experiments