Reinforcement Learning Control of Quantum Error Correction

Volodymyr Sivak, Alexis Morvan, Michael Broughton, Rodrigo G. Cortiñas, Johannes Bausch, Andrew W. Senior, Matthew Neeley, Alec Eickbusch, Noah Shutty, Laleh Aghababaie Beni, James S. Spencer, Francisco J. H Heras, Thomas Edlich, Dmitry Abanin, Amira Abbas, Rajeev Acharya, Georg Aigeldinger, Ross Alcaraz, Sayra Alcaraz, Trond I. Andersen, Markus Ansmann, Frank Arute, Kunal Arya, Walt Askew, Nikita Astrakhantsev, Juan Atalaya, Brian Ballard, Joseph C. Bardin, Hector Bates, Andreas Bengtsson, Majid Bigdeli Karimi, Alexander Bilmes, Simon Bilodeau, Felix Borjans, Alexandre Bourassa, Jenna Bovaird, Dylan Bowers, Leon Brill, Peter Brooks, David A. Browne, Brett Buchea, Bob B. Buckley, Tim Burger, Brian Burkett, Nicholas Bushnell, Jamal Busnaina, Anthony Cabrera, Juan Campero, Hung-Shen Chang, Silas Chen, Ben Chiaro, Liang-Ying Chih, Agnetta Y. Cleland, Bryan Cochrane, Matt Cockrell, Josh Cogan, Roberto Collins, Paul Conner, Harold Cook, William Courtney, Alexander L. Crook, Ben Curtin, Martin Damyanov, Sayan Das, Dripto M. Debroy, Sean Demura, Paul Donohoe, Ilya Drozdov, Andrew Dunsworth, Valerie Ehimhen, Aviv Moshe Elbag, Lior Ella, Mahmoud Elzouka, David Enriquez, Catherine Erickson, Vinicius S. Ferreira, Marcos Flores, Leslie Flores Burgos, Ebrahim Forati, Jeremiah Ford, Austin G. Fowler, Brooks Foxen, Masaya Fukami, Alan Wing Lun Fung, Lenny Fuste, Suhas Ganjam, Gonzalo Garcia, Christopher Garrick, Robert Gasca, Helge Gehring, Robert Geiger, Élie Genois, William Giang, Dar Gilboa, James E. Goeders, Edward C. Gonzales, Raja Gosula, Stijn J. de Graaf, Alejandro Grajales Dau, Dietrich Graumann, Joel Grebel, Alex Greene, Jonathan A. Gross, Jose Guerrero, Loïck Le Guevel, Tan Ha, Steve Habegger, Tanner Hadick, Ali Hadjikhani, Michael C. Hamilton, Matthew P. Harrigan, Sean D. Harrington, Jeanne Hartshorn, Stephen Heslin, Paula Heu, Oscar Higgott, Reno Hiltermann, Hsin-Yuan Huang, Mike Hucka, Christopher Hudspeth, Ashley Huff, William J. Huggins, Evan Jeffrey, Shaun Jevons, Zhang Jiang, Xiaoxuan Jin, Chaitali Joshi, Pavol Juhas, Andreas Kabel, Dvir Kafri, Hui Kang, Kiseo Kang, Amir H. Karamlou, Ryan Kaufman, Kostyantyn Kechedzhi, Tanuj Khattar, Mostafa Khezri, Seon Kim, Can M. Knaut, Bryce Kobrin, Fedor Kostritsa, John Mark Kreikebaum, Ryuho Kudo, Ben Kueffler, Arun Kumar, Vladislav D. Kurilovich, Vitali Kutsko, Nathan Lacroix, David Landhuis, Tiano Lange-Dei, Brandon W. Langley, Pavel Laptev, Kim-Ming Lau, Justin Ledford, Joy Lee, Kenny Lee, Brian J. Lester, Wendy Leung, Lily Li, Wing Yan Li, Ming Li, Alexander T. Lill, William P. Livingston, Matthew T. Lloyd, Aditya Locharla, Laura De Lorenzo, Daniel Lundahl, Aaron Lunt, Sid Madhuk, Aniket Maiti, Ashley Maloney, Salvatore Mandrà, Leigh S. Martin, Orion Martin, Eric Mascot, Paul Masih Das, Dmitri Maslov, Melvin Mathews, Cameron Maxfield, Jarrod R. McClean, Matt McEwen, Seneca Meeks, Kevin C. Miao, Zlatko K. Minev, Reza Molavi, Sebastian Molina, Shirin Montazeri, Charles Neill, Michael Newman, Anthony Nguyen, Murray Nguyen, Chia-Hung Ni, Murphy Yuezhen Niu, Logan Oas, Raymond Orosco, Kristoffer Ottosson, Alice Pagano, Agustin Di Paolo, Sherman Peek, David Peterson, Alex Pizzuto, Elias Portoles, Rebecca Potter, Orion Pritchard, Michael Qian, Chris Quintana, Arpit Ranadive, Matthew J. Reagor, Rachel Resnick, David M. Rhodes, Daniel Riley, Gabrielle Roberts, Roberto Rodriguez, Emma Ropes, Lucia B. De Rose, Eliott Rosenberg, Emma Rosenfeld, Dario Rosenstock, Elizabeth Rossi, Pedram Roushan, David A. Rower, Robert Salazar, Kannan Sankaragomathi, Murat Can Sarihan, Kevin J. Satzinger, Max Schaefer, Sebastian Schroeder, Henry F. Schurkus, Aria Shahingohar, Michael J. Shearn, Aaron Shorter, Vladimir Shvarts, Spencer Small, W. Clarke Smith, David A. Sobel, Barrett Spells, Sofia Springer, George Sterling, Jordan Suchard, Aaron Szasz, Alexander Sztein, Madeline Taylor, Jothi Priyanka Thiruraman, Douglas Thor, Dogan Timucin, Eifu Tomita, Alfredo Torres, M. Mert Torunbalci, Hao Tran, Abeer Vaishnav, Justin Vargas, Sergey Vdovichev, Guifre Vidal, Catherine Vollgraff Heidweiller, Meghan Voorhees, Steven Waltman, Jonathan Waltz, Shannon X. Wang, Brayden Ware, James D. Watson, Yonghua Wei, Travis Weidel, Theodore White, Kristi Wong, Bryan W. K. Woo, Christopher J. Wood, Maddy Woodson, Cheng Xing, Z. Jamie Yao, Ping Yeh, Bicheng Ying, Juhwan Yoo, Noureldin Yosri, Elliot Young, Grayson Young, Adam Zalcman, Ran Zhang, Yaxing Zhang, Ningfeng Zhu, Nicholas Zobrist, Zhenjie Zou, Ryan Babbush, Dave Bacon, Sergio Boixo, Yu Chen, Zijun Chen, Michel Devoret, Monica Hansen, Jeremy Hilton, Cody Jones, Julian Kelly, Alexander N. Korotkov, Erik Lucero, Anthony Megrant, Hartmut Neven, William D. Oliver, Ganesh Ramachandran, Vadim Smelyanskiy, Paul V. Klimov

Publicado Tue, 10 Ma

📖 4 min de leitura🧠 Leitura aprofundada

Ver no arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando manter uma casa perfeitamente organizada enquanto vive em um terremoto constante.

No mundo da computação quântica, os "quartos" são os qubits (as unidades de informação) e o "terremoto" é o ruído ambiental. Esses computadores são extremamente frágeis; qualquer pequena vibração de temperatura ou interferência elétrica pode bagunçar a informação, fazendo com que o cálculo dê errado.

Para resolver isso, os cientistas usam uma técnica chamada Correção de Erros Quânticos (QEC). Pense nisso como ter um exército de guardiões (os códigos de correção) que vigiam a casa 24 horas por dia. Se um móvel se move (um erro), os guardiões gritam: "Algo mudou aqui!". Um decodificador (o chefe) então decide como colocar o móvel de volta no lugar antes que a bagunça se espalhe.

O Problema: O "Reparo" que Para Tudo
Até agora, havia um grande problema: esses guardiões precisam que a casa esteja perfeitamente calibrada para funcionar. Com o tempo, os instrumentos de controle (os botões e alavancas que ajustam os qubits) se descalibram sozinhos, como um relógio que atrasa.
A solução antiga era: Parar tudo. Desligar o computador quântico, esperar horas para que especialistas humanos ajustassem cada botão manualmente e, só então, retomar o trabalho.
Para algoritmos futuros que precisam rodar por dias ou semanas, parar para "ajustar o relógio" a cada hora é inviável. É como tentar dirigir um carro de Fórmula 1, mas ter que parar a cada 10 minutos para trocar os pneus e calibrar o motor manualmente. O carro nunca chega ao destino.

A Solução: O Motorista que Aprende Dirigindo
A Google Quantum AI e o Google DeepMind criaram uma solução genial usando Aprendizado por Reforço (RL), uma inteligência artificial que aprende tentando e errando (como um bebê aprendendo a andar).

Eles deram um novo papel aos guardiões da casa:

Antes: Os guardiões apenas gritavam "Erro!" para o decodificador corrigir o estado lógico.
Agora: Os guardiões também gritam "Erro!" para o IA (o agente de RL).

A IA usa esses gritos de erro como um sinal de aprendizado. Em vez de parar o computador, a IA faz pequenos ajustes nos botões de controle enquanto o cálculo está acontecendo. É como se o motorista do carro de F1 tivesse um copiloto superinteligente que, ao ouvir o motor fazer um barulho estranho, ajusta a injeção de combustível e a direção instantaneamente, sem que o carro precise parar.

Como Funciona na Prática (A Analogia do Sintonizador de Rádio)
Imagine que você está tentando sintonizar uma rádio em uma estação específica, mas a frequência está oscilando constantemente.

Método Antigo: Você para de ouvir, tenta sintonizar manualmente, ouve um pouco, percebe que está fora, para de novo, ajusta... é lento e chato.
Método da IA: Você continua ouvindo a música. A IA percebe que a música está levemente distorcida (o "erro") e, com base nisso, faz micro-ajustes na antena em tempo real. Ela aprende qual ajuste corrige qual tipo de distorção.

Os Resultados: Um Salto Histórico
Os pesquisadores testaram isso no processador "Willow" da Google:

Estabilidade: O sistema conseguiu manter a estabilidade do cálculo 3,5 vezes melhor do que antes, mesmo com interferências artificiais sendo injetadas.
Recorde: Eles conseguiram reduzir a taxa de erros lógicos para níveis recordes (menos de 1 erro em 1.000 ciclos), superando o que era possível apenas com a calibração humana tradicional.
Escalabilidade: Simulações mostraram que esse método funciona mesmo se o computador crescer para ter milhares de qubits. A IA não fica mais lenta; ela continua aprendendo na mesma velocidade, independentemente do tamanho do sistema.

Por que isso é revolucionário?
Esta pesquisa muda o paradigma de "computador que precisa ser consertado" para "computador que aprende com seus próprios erros".
Em vez de interromper a computação para consertar o hardware, o computador usa a própria computação para se auto-ajustar. Isso abre o caminho para algoritmos quânticos que rodam por dias ou semanas sem parar, essenciais para descobertas científicas complexas, como simular novas drogas ou materiais.

Resumo em uma frase:
Os cientistas ensinaram o computador quântico a se "auto-ajustar" em tempo real, usando os próprios erros como lição, permitindo que ele rode para sempre sem precisar parar para ser consertado por humanos.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema: Deriva Ambiental e a Limitação da Calibração Tradicional

Os computadores quânticos são máquinas analógicas inerentemente frágeis, suscetíveis a ruídos e deriva (drift) ambiental que degradam a qualidade das operações ao longo do tempo.

Desafio da Correção de Erros Quânticos (QEC): Para que a QEC seja eficaz, a taxa de erro físico dos portões deve permanecer significativamente abaixo de um limiar crítico (aproximadamente $10^{-3} $a$ 10^{-2}$). Manter-se abaixo desse limiar exige calibração precisa dos parâmetros de controle.
Limitação Atual: A solução contemporânea para a deriva é interromper toda a computação quântica para realizar recalibração do sistema. Para algoritmos futuros que exigem tempos de execução contínuos de dias ou semanas, essa abordagem de "parar e recalibrar" é insustentável.
Gargalo: Desacoplar completamente a computação da calibração cria um gargalo fundamental. Soluções teóricas anteriores (como trocas lógicas ou deformação de código) introduzem uma sobrecarga excessiva de recursos.

2. Metodologia: Aprendizado por Reforço (RL) Unificado

Os autores propõem um novo paradigma onde a calibração e a computação ocorrem simultaneamente. O processo de QEC não apenas corrige o estado lógico, mas também fornece o sinal de aprendizado para um agente de IA.

Sinal de Aprendizado (Learning Signal): Em vez de parar o sistema, os eventos de detecção de erros (síndromes) gerados pelo protocolo QEC são reutilizados como recompensas para um agente de Aprendizado por Reforço (RL).
Objetivo Surrogado (Surrogate Objective):
- Otimizar diretamente a Taxa de Erro Lógico (LER) é inviável devido à sua baixa frequência de ocorrência e custo computacional exponencial.
- O trabalho utiliza uma função objetivo substituta ( $C$ ): a taxa média de eventos de detecção de erros.
- Existe uma relação teórica e experimentalmente validada entre a minimização de $C$ e a redução da LER ( $\nabla \log \epsilon_L \propto \nabla \log C$ ).
Algoritmo de RL:
- Utiliza um algoritmo de gradiente de política multi-objetivo.
- O agente mantém uma distribuição de probabilidade (Gaussiana multivariada fatorada) sobre todos os parâmetros de controle do sistema (mais de 1.000 parâmetros nos experimentos).
- Exploração vs. Exploração: O agente amostra candidatos de política, executa ciclos de QEC, calcula a recompensa (baseada na taxa de detecção) e atualiza a distribuição para reduzir a taxa de erros.
- Escalabilidade: O algoritmo explora a esparsidade do grafo de fatores. Cada detector de erro depende apenas de um subconjunto local de parâmetros de controle, permitindo que o gradiente seja estimado eficientemente sem depender do tamanho total do sistema.

3. Contribuições Principais

Unificação de Calibração e Computação: Demonstração experimental de que um computador quântico pode aprender com seus próprios erros e ajustar seus parâmetros de controle em tempo real, sem interromper a execução do algoritmo lógico.
Superação de Limites de Calibração Tradicional: O RL consegue refinar um sistema já calibrado por especialistas humanos e métodos tradicionais, alcançando desempenho além do que é possível com calibração baseada em modelos físicos.
Estabilidade contra Deriva: O agente de RL aprende a rastrear e compensar a deriva do sistema (injetada artificialmente e natural), mantendo a estabilidade lógica.
Escalabilidade Comprovada: Simulações confirmam que a velocidade de otimização do RL é independente do tamanho do sistema (distância do código), validando a abordagem para códigos de grande escala (até distância-15).

4. Resultados Experimentais e Simulações

Os experimentos foram realizados no processador supercondutor Willow da Google, utilizando códigos de superfície e códigos de cor.

Estabilidade Lógica:
- O RL melhorou a estabilidade da taxa de erro lógico (LER) em 3,5 vezes contra deriva injetada, comparado a uma política de controle fixa.
- A taxa de erro lógico foi reduzida em 20% adicional em sistemas já bem calibrados, estabelecendo novos recordes de desempenho.
Desempenho Recorde:
- Código de Superfície (Distância-7): Alcançou uma LER média de $\epsilon_L = 7,72(9) \times 10^{-4}$ usando o decodificador neural AlphaQubit2.
- Código de Cor (Distância-5): Alcançou uma LER de $\epsilon_L = 8,19(14) \times 10^{-3}$ usando o decodificador Tesseract.
Recuperação de Estado: O agente foi capaz de recuperar o desempenho lógico mesmo quando os parâmetros de controle foram aleatorizados intencionalmente (levando a uma taxa de erro de 50%), demonstrando a capacidade de aprender ab initio.
Simulações de Escala:
- Simulações para códigos de superfície até distância-15 (com ~40.000 parâmetros de controle) mostraram que o RL converge exponencialmente para o ótimo local.
- A taxa de convergência é independente do tamanho do sistema, confirmando a viabilidade para computadores quânticos em grande escala.

5. Significado e Perspectivas Futuras

Este trabalho representa uma mudança de paradigma fundamental na engenharia de computadores quânticos:

Computação Ininterrupta: Elimina a necessidade de pausas longas para calibração, permitindo algoritmos de longa duração essenciais para aplicações práticas (como fatoração de números grandes ou simulação de materiais).
Controle Inteligente: Sugere que o caminho para a tolerância a falhas não depende apenas de hardware melhor, mas de controles mais inteligentes. O sistema torna-se adaptativo, aprendendo continuamente com o ambiente.
Generalidade: Embora demonstrado em circuitos supercondutores, a metodologia é geral e aplicável a qualquer modalidade de qubit (íons, átomos neutros, etc.) e arquitetura de QEC, incluindo aquelas com conectividade não local.

Em resumo, a Google demonstrou que é possível criar um computador quântico que "aprende com seus erros" em tempo real, estabilizando-se automaticamente e operando de forma contínua, um passo crucial rumo à computação quântica tolerante a falhas em escala industrial.

Reinforcement Learning Control of Quantum Error Correction

1. O Problema: Deriva Ambiental e a Limitação da Calibração Tradicional

2. Metodologia: Aprendizado por Reforço (RL) Unificado

3. Contribuições Principais

4. Resultados Experimentais e Simulações

5. Significado e Perspectivas Futuras

Mais como este

Formally Verifying Quantum Phase Estimation Circuits with 1,000+ Qubits

Distributed g(2) Retrieval with Atomic Clocks: Eliminating Conventional Sync Protocols

Efficient training of photonic quantum generative models

Quantum algorithm for anisotropic diffusion and convection equations with vector norm scaling

Large Language Model-Assisted Superconducting Qubit Experiments