Reinforcement Learning Control of Quantum Error Correction

Volodymyr Sivak, Alexis Morvan, Michael Broughton, Rodrigo G. Cortiñas, Johannes Bausch, Andrew W. Senior, Matthew Neeley, Alec Eickbusch, Noah Shutty, Laleh Aghababaie Beni, James S. Spencer, Francisco J. H Heras, Thomas Edlich, Dmitry Abanin, Amira Abbas, Rajeev Acharya, Georg Aigeldinger, Ross Alcaraz, Sayra Alcaraz, Trond I. Andersen, Markus Ansmann, Frank Arute, Kunal Arya, Walt Askew, Nikita Astrakhantsev, Juan Atalaya, Brian Ballard, Joseph C. Bardin, Hector Bates, Andreas Bengtsson, Majid Bigdeli Karimi, Alexander Bilmes, Simon Bilodeau, Felix Borjans, Alexandre Bourassa, Jenna Bovaird, Dylan Bowers, Leon Brill, Peter Brooks, David A. Browne, Brett Buchea, Bob B. Buckley, Tim Burger, Brian Burkett, Nicholas Bushnell, Jamal Busnaina, Anthony Cabrera, Juan Campero, Hung-Shen Chang, Silas Chen, Ben Chiaro, Liang-Ying Chih, Agnetta Y. Cleland, Bryan Cochrane, Matt Cockrell, Josh Cogan, Roberto Collins, Paul Conner, Harold Cook, William Courtney, Alexander L. Crook, Ben Curtin, Martin Damyanov, Sayan Das, Dripto M. Debroy, Sean Demura, Paul Donohoe, Ilya Drozdov, Andrew Dunsworth, Valerie Ehimhen, Aviv Moshe Elbag, Lior Ella, Mahmoud Elzouka, David Enriquez, Catherine Erickson, Vinicius S. Ferreira, Marcos Flores, Leslie Flores Burgos, Ebrahim Forati, Jeremiah Ford, Austin G. Fowler, Brooks Foxen, Masaya Fukami, Alan Wing Lun Fung, Lenny Fuste, Suhas Ganjam, Gonzalo Garcia, Christopher Garrick, Robert Gasca, Helge Gehring, Robert Geiger, Élie Genois, William Giang, Dar Gilboa, James E. Goeders, Edward C. Gonzales, Raja Gosula, Stijn J. de Graaf, Alejandro Grajales Dau, Dietrich Graumann, Joel Grebel, Alex Greene, Jonathan A. Gross, Jose Guerrero, Loïck Le Guevel, Tan Ha, Steve Habegger, Tanner Hadick, Ali Hadjikhani, Michael C. Hamilton, Matthew P. Harrigan, Sean D. Harrington, Jeanne Hartshorn, Stephen Heslin, Paula Heu, Oscar Higgott, Reno Hiltermann, Hsin-Yuan Huang, Mike Hucka, Christopher Hudspeth, Ashley Huff, William J. Huggins, Evan Jeffrey, Shaun Jevons, Zhang Jiang, Xiaoxuan Jin, Chaitali Joshi, Pavol Juhas, Andreas Kabel, Dvir Kafri, Hui Kang, Kiseo Kang, Amir H. Karamlou, Ryan Kaufman, Kostyantyn Kechedzhi, Tanuj Khattar, Mostafa Khezri, Seon Kim, Can M. Knaut, Bryce Kobrin, Fedor Kostritsa, John Mark Kreikebaum, Ryuho Kudo, Ben Kueffler, Arun Kumar, Vladislav D. Kurilovich, Vitali Kutsko, Nathan Lacroix, David Landhuis, Tiano Lange-Dei, Brandon W. Langley, Pavel Laptev, Kim-Ming Lau, Justin Ledford, Joy Lee, Kenny Lee, Brian J. Lester, Wendy Leung, Lily Li, Wing Yan Li, Ming Li, Alexander T. Lill, William P. Livingston, Matthew T. Lloyd, Aditya Locharla, Laura De Lorenzo, Daniel Lundahl, Aaron Lunt, Sid Madhuk, Aniket Maiti, Ashley Maloney, Salvatore Mandrà, Leigh S. Martin, Orion Martin, Eric Mascot, Paul Masih Das, Dmitri Maslov, Melvin Mathews, Cameron Maxfield, Jarrod R. McClean, Matt McEwen, Seneca Meeks, Kevin C. Miao, Zlatko K. Minev, Reza Molavi, Sebastian Molina, Shirin Montazeri, Charles Neill, Michael Newman, Anthony Nguyen, Murray Nguyen, Chia-Hung Ni, Murphy Yuezhen Niu, Logan Oas, Raymond Orosco, Kristoffer Ottosson, Alice Pagano, Agustin Di Paolo, Sherman Peek, David Peterson, Alex Pizzuto, Elias Portoles, Rebecca Potter, Orion Pritchard, Michael Qian, Chris Quintana, Arpit Ranadive, Matthew J. Reagor, Rachel Resnick, David M. Rhodes, Daniel Riley, Gabrielle Roberts, Roberto Rodriguez, Emma Ropes, Lucia B. De Rose, Eliott Rosenberg, Emma Rosenfeld, Dario Rosenstock, Elizabeth Rossi, Pedram Roushan, David A. Rower, Robert Salazar, Kannan Sankaragomathi, Murat Can Sarihan, Kevin J. Satzinger, Max Schaefer, Sebastian Schroeder, Henry F. Schurkus, Aria Shahingohar, Michael J. Shearn, Aaron Shorter, Vladimir Shvarts, Spencer Small, W. Clarke Smith, David A. Sobel, Barrett Spells, Sofia Springer, George Sterling, Jordan Suchard, Aaron Szasz, Alexander Sztein, Madeline Taylor, Jothi Priyanka Thiruraman, Douglas Thor, Dogan Timucin, Eifu Tomita, Alfredo Torres, M. Mert Torunbalci, Hao Tran, Abeer Vaishnav, Justin Vargas, Sergey Vdovichev, Guifre Vidal, Catherine Vollgraff Heidweiller, Meghan Voorhees, Steven Waltman, Jonathan Waltz, Shannon X. Wang, Brayden Ware, James D. Watson, Yonghua Wei, Travis Weidel, Theodore White, Kristi Wong, Bryan W. K. Woo, Christopher J. Wood, Maddy Woodson, Cheng Xing, Z. Jamie Yao, Ping Yeh, Bicheng Ying, Juhwan Yoo, Noureldin Yosri, Elliot Young, Grayson Young, Adam Zalcman, Ran Zhang, Yaxing Zhang, Ningfeng Zhu, Nicholas Zobrist, Zhenjie Zou, Ryan Babbush, Dave Bacon, Sergio Boixo, Yu Chen, Zijun Chen, Michel Devoret, Monica Hansen, Jeremy Hilton, Cody Jones, Julian Kelly, Alexander N. Korotkov, Erik Lucero, Anthony Megrant, Hartmut Neven, William D. Oliver, Ganesh Ramachandran, Vadim Smelyanskiy, Paul V. Klimov

게시일 Tue, 10 Ma

📖 2 분 읽기🧠 심층 분석

보기: arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "고장 난 자동차를 어떻게 고칠까?"

양자 컴퓨터는 매우 정교하지만 동시에 매우 민감한 기계입니다. 마치 정밀한 시계나 고급 스포츠카처럼, 온도나 진동 같은 아주 작은 환경 변화만으로도 성능이 떨어집니다. 이를 '드리프트 (Drift)'라고 합니다.

기존의 해결책 (멈추고 고치기):
과거에는 양자 컴퓨터가 계산을 하다가 성능이 떨어지면, 계산을 완전히 멈추고 엔지니어들이 와서 장시간 동안 하나하나 장비를 재조정 (보정) 했습니다.
- 비유: 운전하다가 차가 조금 삐걱거리면, 목적지에 도착하기 전에 차를 완전히 세우고 정비소에 들어가는 것과 같습니다. 이렇게 하면 목적지 (복잡한 계산) 에는 영원히 도착할 수 없습니다.

2. 새로운 아이디어: "운전 중에도 스스로 핸들을 잡는 자율주행"

연구팀은 "계산을 멈추지 않고, 계산하는 동안에도 스스로 고쳐가면 어떨까?"라고 생각했습니다. 여기서 핵심은 **강화 학습 (Reinforcement Learning, RL)**이라는 인공지능 기술을 적용한 것입니다.

핵심 메커니즘:
양자 오류 수정 (QEC) 이라는 과정은 원래 양자 컴퓨터가 "실수가 났다"는 신호를 감지하는 역할을 합니다. 연구팀은 이 '실수 신호'를 인공지능 (RL 에이전트) 에게 학습 자료로 활용했습니다.
- 비유: 자율주행차가 도로를 달리다가 차선이 살짝 흔들리거나 바람이 불어 차체가 비틀어지면, 운전자가 차를 멈추지 않고 핸들을 미세하게 돌려서 다시 중앙으로 맞추는 것과 같습니다.
- 이 AI 는 "실수 신호"를 보고 "아, 지금 장비가 흔들리네. 그럼 전압을 조금만 더 올리자"라고 스스로 판단하여 장비를 실시간으로 조정합니다.

3. 실험 결과: "Willow 칩의 놀라운 성과"

연구팀은 구글의 최신 양자 프로세서인 **'윌로우 (Willow)'**에서 이 기술을 테스트했습니다.

성공적인 결과:
1. 드리프트에 대한 저항력 3.5 배 향상: 인위적으로 환경을 험하게 만들어도, AI 가 실시간으로 조정해 줘서 오류가 훨씬 적게 발생했습니다.
2. 기록적인 성능: 기존에 인간 전문가가 정밀하게 조정해도 도달하지 못했던 수준을 넘어, 양자 오류 수정의 새로운 기록을 세웠습니다.
3. 확장성: 이 기술은 작은 컴퓨터뿐만 아니라, 미래에 수만 개의 큐비트가 달린 거대한 양자 컴퓨터에서도 작동할 수 있음을 시뮬레이션으로 증명했습니다.

4. 왜 이것이 중요한가?

이 연구는 양자 컴퓨팅의 미래를 바꿀 수 있는 패러다임의 전환입니다.

기존: 계산 → 멈춤 → 수리 → 계산 → 멈춤 → 수리 (비효율적)
새로운 방식: 계산 + 실시간 자가 수리 (지속적이고 효율적)

마치 스스로 피로를 느끼고 휴식을 취하며 다시 달리는 마라토너처럼, 양자 컴퓨터가 계산 도중에도 스스로를 최적화하며 멈추지 않고 긴 작업을 수행할 수 있는 길이 열린 것입니다.

요약

이 논문은 **"양자 컴퓨터가 실수를 감지하는 신호를 이용해, 인공지능이 운전대를 잡듯 실시간으로 장비를 조정하게 만들었다"**는 내용입니다. 덕분에 양자 컴퓨터는 더 이상 "고장 나면 멈추는" 기계가 아니라, "실수를 배우며 스스로 성장하는" 지능형 기계로 진화하고 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

양자 컴퓨터는 본질적으로 아날로그 장치로, 환경적 요인에 의해 발생하는 드리프트 (drift) 로 인해 양자 연산의 품질이 지속적으로 저하됩니다.

기존 방식의 한계: 현재 양자 오류 수정 (QEC) 을 수행할 때 발생하는 환경 드리프트를 해결하기 위한 표준 방법은 계산을 일시 중단하고 시스템을 재보정 (recalibration) 하는 것입니다.
미래의 과제: 수일 또는 수주에 걸친 장시간 연산이 필요한 미래의 양자 알고리즘에서는 계산 중단을 반복하는 방식이 비현실적입니다.
핵심 과제: QEC 임계값 (threshold) 아래로 물리적 오류율을 낮추는 것을 넘어, 비정상성 (non-stationarity) 환경에서 계산이 진행되는 동안에도 지속적으로 시스템 성능을 유지하는 새로운 패러다임이 필요합니다.

2. 방법론 (Methodology)

이 논문은 강화 학습 (Reinforcement Learning, RL) 을 활용하여 계산과 보정을 통합하는 새로운 프레임워크를 제안합니다.

핵심 아이디어: QEC 과정에서 발생하는 '오류 감지 이벤트 (error detection events)'를 단순히 논리적 상태를 수정하는 데만 사용하는 것이 아니라, RL 에이전트에게 시스템 제어 파라미터를 지속적으로 조정하도록 가르치는 학습 신호 (learning signal) 로 재사용합니다.
대리 목적 함수 (Surrogate Objective):
- 논리적 오류율 (Logical Error Rate, LER) 을 직접 최적화하는 것은 계산 비용이 너무 많이 들고 확장성이 떨어집니다.
- 대신, 오류 감지 이벤트의 평균 발생률 (C) 을 대리 목적 함수로 사용합니다. 이는 물리적 오류율과 비례 관계에 있으며, LER 의 기울기와 선형적인 관계 ( $\nabla \log \epsilon_L \propto \nabla \log C$ ) 를 가집니다.
학습 알고리즘:
- 정책 경사 (Policy Gradient) 기반 RL: 모든 제어 파라미터에 대한 확률 분포 (가우시안 분포) 를 유지하며, 이 분포에서 샘플링된 정책 후보들을 실행합니다.
- 희소성 활용 (Sparsity): QEC 회로에서 검출기 (detector) 는 국소적 (local) 이므로, 각 검출기는 시스템 제어 파라미터의 일부 subset 만과 연결됩니다. 이를 팩터 그래프 (factor graph) 로 표현하여 분산 감소를 통해 효율적인 그라디언트 추정을 가능하게 합니다.
- 실시간 조정: 학습 에이전트는 드리프트가 발생하는 동안 최적의 제어 파라미터를 추적하며, 탐험 (exploration) 과 활용 (exploitation) 사이의 균형을 유지합니다.

3. 주요 기여 (Key Contributions)

계산과 보정의 통합: QEC 오류 감지 신호를 RL 학습 신호로 전환하여, 계산 중단 없이 실시간으로 시스템을 보정하는 최초의 실험적 증명을 제시했습니다.
RL 기반 미세 조정 (Fine-tuning): 기존 물리 기반 보정 및 인간 전문가 튜닝으로 최적화된 시스템에 RL 을 적용하여 추가적인 성능 향상을 달성했습니다.
드리프트 제어 (Steering): 인위적으로 주입된 드리프트와 자연 발생 드리프트 모두에 대해 RL 에이전트가 제어 파라미터를 실시간으로 조정하여 시스템 안정성을 유지함을 입증했습니다.
확장성 검증: 거리 15 (distance-15) 의 표면 코드까지 시뮬레이션을 통해 RL 프레임워크의 확장성을 입증했으며, 시스템 크기에 무관한 최적화 속도를 보였습니다.

4. 실험 결과 (Results)

Google Quantum AI 의 초전도 프로세서 'Willow'를 사용하여 거리 5 및 7 의 표면 코드 (Surface Code) 와 거리 5 의 컬러 코드 (Color Code) 로 실험을 수행했습니다.

성능 기록 달성:
- 거리 7 표면 코드: 평균 논리적 오류율 (LER) $\epsilon_L = 7.72(9) \times 10^{-4}$ 달성 (AlphaQubit2 신경망 디코더 사용).
- 거리 5 컬러 코드: 평균 논리적 오류율 $\epsilon_L = 8.19(14) \times 10^{-3}$ 달성 (Tesseract 디코더 사용).
- 이는 현재 알려진 모든 물리적 큐비트 모드 중 최고의 성능 기록입니다.
RL 미세 조정 효과: 기존 보정 후 RL 을 적용했을 때, 논리적 오류율이 약 20% 추가 감소했습니다.
드리프트 안정성: 인위적으로 주입된 드리프트에 대해 RL 제어는 논리적 오류율의 안정성을 3.5 배 향상시켰습니다. (디코더 조정까지 포함 시)
랜덤 초기화 복구: 제어 파라미터를 완전히 무작위로 초기화한 상태에서도 RL 에이전트가 약 1,000 에포크 내에 최적화된 성능 수준으로 회복할 수 있음을 보여주었습니다.
확장성 시뮬레이션: 거리 15 코드 (약 40,000 개의 제어 파라미터) 시뮬레이션에서 최적화 속도가 시스템 크기에 의존하지 않음을 확인했습니다.

5. 의의 및 전망 (Significance)

새로운 패러다임: "오류에서 배우고, 결코 계산을 멈추지 않는" 양자 컴퓨터의 실현 가능성을 열었습니다. 이는 장시간 실행이 필요한 미래 양자 알고리즘 (예: 쇼어 알고리즘 등) 에 필수적인 요소입니다.
자동화의 진전: 전통적인 보정 스택과 인간 전문가의 개입을 대체하거나 보완할 수 있는 완전 자동화된 제어 시스템의 토대를 마련했습니다.
범용성: 이 접근법은 초전도 회로뿐만 아니라 다른 물리적 큐비트 모드와 QEC 아키텍처 (공간적으로 비국소적인 연결성을 가진 시스템 포함) 에도 직접 적용 가능합니다.
지능형 제어의 중요성: 이 연구는 오류 수정의 미래가 단순히 더 나은 하드웨어 개발뿐만 아니라, 더 지능적인 제어 (intelligent control) 에 달려 있음을 시사합니다.

이 논문은 양자 오류 수정의 실용화를 위한 중요한 이정표로, 강화 학습을 통해 양자 시스템의 아날로그적 취약성을 극복하고 확장 가능한 오류 수정을 가능하게 하는 길을 제시했습니다.

Reinforcement Learning Control of Quantum Error Correction

1. 문제: "고장 난 자동차를 어떻게 고칠까?"

2. 새로운 아이디어: "운전 중에도 스스로 핸들을 잡는 자율주행"

3. 실험 결과: "Willow 칩의 놀라운 성과"

4. 왜 이것이 중요한가?

요약

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 전망 (Significance)

유사한 논문

Formally Verifying Quantum Phase Estimation Circuits with 1,000+ Qubits

Distributed g(2) Retrieval with Atomic Clocks: Eliminating Conventional Sync Protocols

Efficient training of photonic quantum generative models

Quantum algorithm for anisotropic diffusion and convection equations with vector norm scaling

Large Language Model-Assisted Superconducting Qubit Experiments