Reinforcement Learning Control of Quantum Error Correction

Volodymyr Sivak, Alexis Morvan, Michael Broughton, Rodrigo G. Cortiñas, Johannes Bausch, Andrew W. Senior, Matthew Neeley, Alec Eickbusch, Noah Shutty, Laleh Aghababaie Beni, James S. Spencer, Francisco J. H Heras, Thomas Edlich, Dmitry Abanin, Amira Abbas, Rajeev Acharya, Georg Aigeldinger, Ross Alcaraz, Sayra Alcaraz, Trond I. Andersen, Markus Ansmann, Frank Arute, Kunal Arya, Walt Askew, Nikita Astrakhantsev, Juan Atalaya, Brian Ballard, Joseph C. Bardin, Hector Bates, Andreas Bengtsson, Majid Bigdeli Karimi, Alexander Bilmes, Simon Bilodeau, Felix Borjans, Alexandre Bourassa, Jenna Bovaird, Dylan Bowers, Leon Brill, Peter Brooks, David A. Browne, Brett Buchea, Bob B. Buckley, Tim Burger, Brian Burkett, Nicholas Bushnell, Jamal Busnaina, Anthony Cabrera, Juan Campero, Hung-Shen Chang, Silas Chen, Ben Chiaro, Liang-Ying Chih, Agnetta Y. Cleland, Bryan Cochrane, Matt Cockrell, Josh Cogan, Roberto Collins, Paul Conner, Harold Cook, William Courtney, Alexander L. Crook, Ben Curtin, Martin Damyanov, Sayan Das, Dripto M. Debroy, Sean Demura, Paul Donohoe, Ilya Drozdov, Andrew Dunsworth, Valerie Ehimhen, Aviv Moshe Elbag, Lior Ella, Mahmoud Elzouka, David Enriquez, Catherine Erickson, Vinicius S. Ferreira, Marcos Flores, Leslie Flores Burgos, Ebrahim Forati, Jeremiah Ford, Austin G. Fowler, Brooks Foxen, Masaya Fukami, Alan Wing Lun Fung, Lenny Fuste, Suhas Ganjam, Gonzalo Garcia, Christopher Garrick, Robert Gasca, Helge Gehring, Robert Geiger, Élie Genois, William Giang, Dar Gilboa, James E. Goeders, Edward C. Gonzales, Raja Gosula, Stijn J. de Graaf, Alejandro Grajales Dau, Dietrich Graumann, Joel Grebel, Alex Greene, Jonathan A. Gross, Jose Guerrero, Loïck Le Guevel, Tan Ha, Steve Habegger, Tanner Hadick, Ali Hadjikhani, Michael C. Hamilton, Matthew P. Harrigan, Sean D. Harrington, Jeanne Hartshorn, Stephen Heslin, Paula Heu, Oscar Higgott, Reno Hiltermann, Hsin-Yuan Huang, Mike Hucka, Christopher Hudspeth, Ashley Huff, William J. Huggins, Evan Jeffrey, Shaun Jevons, Zhang Jiang, Xiaoxuan Jin, Chaitali Joshi, Pavol Juhas, Andreas Kabel, Dvir Kafri, Hui Kang, Kiseo Kang, Amir H. Karamlou, Ryan Kaufman, Kostyantyn Kechedzhi, Tanuj Khattar, Mostafa Khezri, Seon Kim, Can M. Knaut, Bryce Kobrin, Fedor Kostritsa, John Mark Kreikebaum, Ryuho Kudo, Ben Kueffler, Arun Kumar, Vladislav D. Kurilovich, Vitali Kutsko, Nathan Lacroix, David Landhuis, Tiano Lange-Dei, Brandon W. Langley, Pavel Laptev, Kim-Ming Lau, Justin Ledford, Joy Lee, Kenny Lee, Brian J. Lester, Wendy Leung, Lily Li, Wing Yan Li, Ming Li, Alexander T. Lill, William P. Livingston, Matthew T. Lloyd, Aditya Locharla, Laura De Lorenzo, Daniel Lundahl, Aaron Lunt, Sid Madhuk, Aniket Maiti, Ashley Maloney, Salvatore Mandrà, Leigh S. Martin, Orion Martin, Eric Mascot, Paul Masih Das, Dmitri Maslov, Melvin Mathews, Cameron Maxfield, Jarrod R. McClean, Matt McEwen, Seneca Meeks, Kevin C. Miao, Zlatko K. Minev, Reza Molavi, Sebastian Molina, Shirin Montazeri, Charles Neill, Michael Newman, Anthony Nguyen, Murray Nguyen, Chia-Hung Ni, Murphy Yuezhen Niu, Logan Oas, Raymond Orosco, Kristoffer Ottosson, Alice Pagano, Agustin Di Paolo, Sherman Peek, David Peterson, Alex Pizzuto, Elias Portoles, Rebecca Potter, Orion Pritchard, Michael Qian, Chris Quintana, Arpit Ranadive, Matthew J. Reagor, Rachel Resnick, David M. Rhodes, Daniel Riley, Gabrielle Roberts, Roberto Rodriguez, Emma Ropes, Lucia B. De Rose, Eliott Rosenberg, Emma Rosenfeld, Dario Rosenstock, Elizabeth Rossi, Pedram Roushan, David A. Rower, Robert Salazar, Kannan Sankaragomathi, Murat Can Sarihan, Kevin J. Satzinger, Max Schaefer, Sebastian Schroeder, Henry F. Schurkus, Aria Shahingohar, Michael J. Shearn, Aaron Shorter, Vladimir Shvarts, Spencer Small, W. Clarke Smith, David A. Sobel, Barrett Spells, Sofia Springer, George Sterling, Jordan Suchard, Aaron Szasz, Alexander Sztein, Madeline Taylor, Jothi Priyanka Thiruraman, Douglas Thor, Dogan Timucin, Eifu Tomita, Alfredo Torres, M. Mert Torunbalci, Hao Tran, Abeer Vaishnav, Justin Vargas, Sergey Vdovichev, Guifre Vidal, Catherine Vollgraff Heidweiller, Meghan Voorhees, Steven Waltman, Jonathan Waltz, Shannon X. Wang, Brayden Ware, James D. Watson, Yonghua Wei, Travis Weidel, Theodore White, Kristi Wong, Bryan W. K. Woo, Christopher J. Wood, Maddy Woodson, Cheng Xing, Z. Jamie Yao, Ping Yeh, Bicheng Ying, Juhwan Yoo, Noureldin Yosri, Elliot Young, Grayson Young, Adam Zalcman, Ran Zhang, Yaxing Zhang, Ningfeng Zhu, Nicholas Zobrist, Zhenjie Zou, Ryan Babbush, Dave Bacon, Sergio Boixo, Yu Chen, Zijun Chen, Michel Devoret, Monica Hansen, Jeremy Hilton, Cody Jones, Julian Kelly, Alexander N. Korotkov, Erik Lucero, Anthony Megrant, Hartmut Neven, William D. Oliver, Ganesh Ramachandran, Vadim Smelyanskiy, Paul V. Klimov

Publicado Tue, 10 Ma

📖 4 min de lectura🧠 Análisis profundo

Ver en arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un orquestador de un concierto de música clásica (el ordenador cuántico) que intenta tocar una sinfonía perfecta. El problema es que los instrumentos (los qubits) son extremadamente delicados; se desintonizan con el mínimo cambio de temperatura, vibración o incluso por el paso del tiempo. Si un violín se desafina, toda la música suena mal.

En el mundo de la computación cuántica, esto se llama "deriva" (drift). Tradicionalmente, la solución era detener la orquesta completa, pedir a los músicos que se calibren uno por uno durante horas, y luego volver a empezar. Pero si la sinfonía dura días o semanas (como los algoritmos del futuro), parar constantemente es imposible.

Google Quantum AI y Google DeepMind han encontrado una solución brillante que cambia las reglas del juego. Han creado un sistema donde el ordenador aprende de sus propios errores mientras sigue tocando la música, sin detenerse nunca.

Aquí te explico cómo funciona, usando analogías sencillas:

1. El problema: El "ruido" que arruina la fiesta

Los ordenadores cuánticos son máquinas analógicas, no digitales como los nuestros. Son como un vaso de agua lleno hasta el borde: cualquier pequeño movimiento (ruido ambiental) hace que se derrame. Para proteger la información, usan un código de seguridad llamado Corrección de Errores Cuánticos (QEC).

La analogía: Imagina que tienes un equipo de guardias (el código de corrección) que vigilan el vaso de agua. Si ven una gota caer, gritan "¡Error!".
El problema: Los guardias gritan, pero no saben por qué se cayó la gota. ¿Fue el viento? ¿Fue un temblor? ¿Fue que el vaso estaba mal colocado? Si no ajustamos el vaso (calibración), seguirán cayendo gotas.

2. La vieja solución: Parar y arreglar

Antes, cuando los guardias empezaban a gritar demasiado, la única solución era parar la sinfonía, apagar la música, y mandar a un técnico experto a ajustar cada tornillo de cada instrumento. Esto funcionaba, pero era lento y costoso. No servía para tareas largas.

3. La nueva solución: El "Entrenador con IA" (Aprendizaje por Refuerzo)

En este nuevo trabajo, han creado un entrenador virtual (un agente de Inteligencia Artificial) que tiene dos trabajos a la vez:

Escuchar a los guardias: Cuando el código de corrección detecta un error (una gota que cae), el entrenador no solo corrige el error, sino que aprende de él.
Ajustar los instrumentos en tiempo real: El entrenador usa esa información para mover sutilmente los controles de los instrumentos (frecuencias, amplitudes) para que dejen de caer gotas.

¿Cómo lo hace?
Imagina que el entrenador es un chef que prueba la sopa constantemente.

En lugar de parar la cocina para probar, el chef prueba una cucharada (detecta un error).
Si la sopa está salada, el chef no solo añade agua; aprende que la sal se disolvió mal o que la fuente de sal estaba mal regulada.
Luego, el chef ajusta sutilmente la válvula de la sal mientras sigue cocinando.
Con el tiempo, el chef se vuelve un experto en mantener el sabor perfecto, incluso si la temperatura de la cocina cambia.

4. El truco: "Aprender de los errores"

Lo genial es que el ordenador no necesita un manual de instrucciones ni un humano experto para decirle qué hacer.

El sistema genera pequeños "ruidos" o cambios aleatorios en sus controles.
Observa si esos cambios hacen que los guardias griten más o menos.
Si los guardias gritan menos, el sistema dice: "¡Genial! Mantengamos ese ajuste". Si gritan más, dice: "Mal, volvamos atrás".
Esto es lo que llaman Aprendizaje por Refuerzo (Reinforcement Learning). El sistema "juega" a ajustar los controles y recibe una "recompensa" cuando el error disminuye.

5. Los resultados: Un récord histórico

En sus experimentos con un procesador llamado Willow:

Estabilidad: Lograron que el sistema fuera 3.5 veces más estable contra las perturbaciones que antes.
Mejora automática: Incluso cuando el sistema ya estaba bien calibrado por humanos, la IA lo mejoró un 20% más, superando lo que un experto humano podía lograr solo.
Escalabilidad: Simularon que esto funcionaría incluso con ordenadores cuánticos gigantes (con miles de qubits), y la IA seguiría aprendiendo a la misma velocidad, sin importar el tamaño.

En resumen

Este trabajo es como pasar de tener un músico que se detiene a afinar su violín cada vez que suena mal, a tener un músico que tiene un oído sobrehumano y ajusta su instrumento con el dedo mientras toca la nota perfecta.

Ya no necesitamos detener el futuro para arreglar el presente. Hemos creado un ordenador cuántico que aprende de sus propios tropiezos para no volver a tropezar, permitiéndole trabajar sin parar durante días o semanas. Es el primer paso hacia una computadora cuántica verdaderamente inteligente y autónoma.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Reinforcement learning control of quantum error correction" (Control de corrección de errores cuánticos mediante aprendizaje por refuerzo), realizado por Google Quantum AI y Google DeepMind.

1. El Problema: Deriva Ambiental y la Limitación de la Calibración Tradicional

La computación cuántica tolerante a fallos enfrenta un obstáculo fundamental: la deriva ambiental (drift). Los procesadores cuánticos son máquinas analógicas extremadamente frágiles donde los parámetros de control (frecuencias, amplitudes de pulsos, acoplamientos) cambian con el tiempo debido a fluctuaciones térmicas, defectos de materiales e inestabilidad electrónica.

Limitación actual: La solución convencional consiste en detener completamente la computación cuántica para realizar recalibraciones intermitentes. Este enfoque es insostenible para algoritmos futuros que requerirán tiempos de ejecución continuos de días o semanas.
El desafío: Mantener la tasa de error físico por debajo del umbral de corrección de errores cuánticos (QEC) de manera continua, sin interrumpir el cálculo lógico, a pesar de la no estacionaridad del sistema.

2. Metodología: Aprendizaje por Refuerzo (RL) Unificado

Los autores proponen un nuevo paradigma que unifica la calibración con la computación. En lugar de detener el sistema, utilizan las eventos de detección de errores generados por el propio protocolo de QEC como señal de aprendizaje para un agente de Aprendizaje por Refuerzo (RL).

Componentes Clave del Marco de Trabajo:

Señal de Aprendizaje: Los eventos de detección (síndromes) no solo se usan para corregir el estado lógico, sino que se reutilizan para entrenar al agente de RL. El objetivo es minimizar la tasa de detección de errores, que actúa como un proxy eficiente para la tasa de error lógico (LER).
Objetivo Sustituto (Surrogate Objective): Optimizar directamente la LER es computacionalmente inviable debido a su supresión exponencial con la distancia del código. En su lugar, se optimiza una función objetivo sustituto $C$ , definida como la tasa promedio de eventos de detección. Se demuestra empíricamente que el gradiente de $C$ es proporcional al gradiente de la LER en el régimen de pequeñas perturbaciones.
Estructura de Grafo de Factores: El algoritmo aprovecha la localidad de los detectores en el circuito QEC. Existe una dependencia dispersa (sparse) entre los detectores y los parámetros de control. Esto se modela mediante un grafo de factores donde cada nodo de detector está conectado solo a un subconjunto de parámetros de control (amplitudes, frecuencias, fases virtuales, etc.).
Algoritmo de RL: Se utiliza un algoritmo de gradiente de política multi-objetivo.
- Muestrea candidatos de política (conjuntos de parámetros) desde una distribución gaussiana.
- Ejecuta ciclos de QEC para estimar recompensas (tasa de detección).
- Actualiza la distribución de la política (media y varianza) para reducir la tasa de errores.
- Utiliza técnicas como optimización de política proximal (PPO) y regularización de entropía para equilibrar la exploración y la explotación.

3. Contribuciones Clave

Unificación de Calibración y Computación: Elimina la necesidad de pausas para la recalibración, permitiendo que el sistema "aprenda de sus errores" en tiempo real durante la ejecución del algoritmo.
Control a Nivel de Sistema: El agente de RL gestiona más de 1,000 parámetros de control simultáneamente en un procesador superconductor, ajustando pulsos de microondas, acoplamientos CZ y correcciones de fase.
Escalabilidad Independiente del Tamaño: Demostración mediante simulaciones de que la velocidad de convergencia del algoritmo es independiente del tamaño del sistema (distancia del código), gracias al uso eficiente de la estructura dispersa del grafo de factores.
Estabilización Activa: Capacidad para compensar deriva artificial y natural, manteniendo el sistema estable incluso cuando los parámetros cambian dinámicamente.

4. Resultados Experimentales y de Simulación

Los experimentos se realizaron en el procesador superconductor Willow de Google, utilizando códigos de superficie (distancia 5 y 7) y códigos de color (distancia 5).

Mejora de Estabilidad ante Deriva:
- Al inyectar deriva artificial en los parámetros de control, el RL mejoró la estabilidad de la tasa de error lógico (LER) en un factor de 2.4x.
- Al incluir la "dirección del decodificador" (ajuste de parámetros del decodificador clásico junto con el control físico), la mejora alcanzó un factor de 3.5x.
Rendimiento Récord (Fine-tuning):
- Incluso partiendo de un sistema ya bien calibrado por expertos humanos, el ajuste fino con RL suprimió adicionalmente la LER en un 20%.
- Código de Superficie (d=7): Logró una tasa de error lógico promedio por ciclo de $\varepsilon_L = 7.72(9) \times 10^{-4}$ .
- Código de Color (d=5): Logró una tasa de error lógico promedio por ciclo de $\varepsilon_L = 8.19(14) \times 10^{-3}$ .
- Estos son los mejores resultados reportados para cualquier modalidad de qubit físico hasta la fecha.
Recuperación desde Cero: El agente fue capaz de recuperar el rendimiento de un sistema calibrado incluso cuando los parámetros iniciales se aleatorizaron completamente (llevando el error lógico al 50%), recuperando el rendimiento en aproximadamente 1,000 épocas.
Simulaciones de Escala: Simulaciones hasta una distancia de código de 15 (con ~40,000 parámetros) confirmaron que el marco de RL escala eficientemente, manteniendo una velocidad de optimización constante independientemente del tamaño del sistema.

5. Significado e Impacto

Este trabajo establece un nuevo paradigma para la computación cuántica tolerante a fallos:

Computación Continua: Permite la ejecución de algoritmos cuánticos de larga duración sin interrupciones para calibración, un requisito esencial para la utilidad práctica de los ordenadores cuánticos.
Automatización Inteligente: Sugiere que el camino hacia la tolerancia a fallos no depende únicamente de hardware mejorado, sino de controles más inteligentes. El RL puede reemplazar o complementar las cadenas de calibración tradicionales basadas en modelos físicos y expertos humanos.
Generalidad: Aunque se demuestra en circuitos superconductores, el enfoque es agnóstico a la plataforma física y aplicable a cualquier arquitectura de QEC que tenga señales de detección de errores y controles sintonizables.

En conclusión, la investigación demuestra que un ordenador cuántico puede aprender de sus propios errores para auto-estabilizarse, superando las limitaciones de la deriva ambiental y acercando la realización de algoritmos cuánticos a gran escala.

Reinforcement Learning Control of Quantum Error Correction

1. El problema: El "ruido" que arruina la fiesta

2. La vieja solución: Parar y arreglar

3. La nueva solución: El "Entrenador con IA" (Aprendizaje por Refuerzo)

4. El truco: "Aprender de los errores"

5. Los resultados: Un récord histórico

En resumen

1. El Problema: Deriva Ambiental y la Limitación de la Calibración Tradicional

2. Metodología: Aprendizaje por Refuerzo (RL) Unificado

Componentes Clave del Marco de Trabajo:

3. Contribuciones Clave

4. Resultados Experimentales y de Simulación

5. Significado e Impacto

Más como este

Formally Verifying Quantum Phase Estimation Circuits with 1,000+ Qubits

Distributed g(2) Retrieval with Atomic Clocks: Eliminating Conventional Sync Protocols

Efficient training of photonic quantum generative models

Quantum algorithm for anisotropic diffusion and convection equations with vector norm scaling

Large Language Model-Assisted Superconducting Qubit Experiments