Reinforcement Learning Control of Quantum Error Correction

Volodymyr Sivak, Alexis Morvan, Michael Broughton, Rodrigo G. Cortiñas, Johannes Bausch, Andrew W. Senior, Matthew Neeley, Alec Eickbusch, Noah Shutty, Laleh Aghababaie Beni, James S. Spencer, Francisco J. H Heras, Thomas Edlich, Dmitry Abanin, Amira Abbas, Rajeev Acharya, Georg Aigeldinger, Ross Alcaraz, Sayra Alcaraz, Trond I. Andersen, Markus Ansmann, Frank Arute, Kunal Arya, Walt Askew, Nikita Astrakhantsev, Juan Atalaya, Brian Ballard, Joseph C. Bardin, Hector Bates, Andreas Bengtsson, Majid Bigdeli Karimi, Alexander Bilmes, Simon Bilodeau, Felix Borjans, Alexandre Bourassa, Jenna Bovaird, Dylan Bowers, Leon Brill, Peter Brooks, David A. Browne, Brett Buchea, Bob B. Buckley, Tim Burger, Brian Burkett, Nicholas Bushnell, Jamal Busnaina, Anthony Cabrera, Juan Campero, Hung-Shen Chang, Silas Chen, Ben Chiaro, Liang-Ying Chih, Agnetta Y. Cleland, Bryan Cochrane, Matt Cockrell, Josh Cogan, Roberto Collins, Paul Conner, Harold Cook, William Courtney, Alexander L. Crook, Ben Curtin, Martin Damyanov, Sayan Das, Dripto M. Debroy, Sean Demura, Paul Donohoe, Ilya Drozdov, Andrew Dunsworth, Valerie Ehimhen, Aviv Moshe Elbag, Lior Ella, Mahmoud Elzouka, David Enriquez, Catherine Erickson, Vinicius S. Ferreira, Marcos Flores, Leslie Flores Burgos, Ebrahim Forati, Jeremiah Ford, Austin G. Fowler, Brooks Foxen, Masaya Fukami, Alan Wing Lun Fung, Lenny Fuste, Suhas Ganjam, Gonzalo Garcia, Christopher Garrick, Robert Gasca, Helge Gehring, Robert Geiger, Élie Genois, William Giang, Dar Gilboa, James E. Goeders, Edward C. Gonzales, Raja Gosula, Stijn J. de Graaf, Alejandro Grajales Dau, Dietrich Graumann, Joel Grebel, Alex Greene, Jonathan A. Gross, Jose Guerrero, Loïck Le Guevel, Tan Ha, Steve Habegger, Tanner Hadick, Ali Hadjikhani, Michael C. Hamilton, Matthew P. Harrigan, Sean D. Harrington, Jeanne Hartshorn, Stephen Heslin, Paula Heu, Oscar Higgott, Reno Hiltermann, Hsin-Yuan Huang, Mike Hucka, Christopher Hudspeth, Ashley Huff, William J. Huggins, Evan Jeffrey, Shaun Jevons, Zhang Jiang, Xiaoxuan Jin, Chaitali Joshi, Pavol Juhas, Andreas Kabel, Dvir Kafri, Hui Kang, Kiseo Kang, Amir H. Karamlou, Ryan Kaufman, Kostyantyn Kechedzhi, Tanuj Khattar, Mostafa Khezri, Seon Kim, Can M. Knaut, Bryce Kobrin, Fedor Kostritsa, John Mark Kreikebaum, Ryuho Kudo, Ben Kueffler, Arun Kumar, Vladislav D. Kurilovich, Vitali Kutsko, Nathan Lacroix, David Landhuis, Tiano Lange-Dei, Brandon W. Langley, Pavel Laptev, Kim-Ming Lau, Justin Ledford, Joy Lee, Kenny Lee, Brian J. Lester, Wendy Leung, Lily Li, Wing Yan Li, Ming Li, Alexander T. Lill, William P. Livingston, Matthew T. Lloyd, Aditya Locharla, Laura De Lorenzo, Daniel Lundahl, Aaron Lunt, Sid Madhuk, Aniket Maiti, Ashley Maloney, Salvatore Mandrà, Leigh S. Martin, Orion Martin, Eric Mascot, Paul Masih Das, Dmitri Maslov, Melvin Mathews, Cameron Maxfield, Jarrod R. McClean, Matt McEwen, Seneca Meeks, Kevin C. Miao, Zlatko K. Minev, Reza Molavi, Sebastian Molina, Shirin Montazeri, Charles Neill, Michael Newman, Anthony Nguyen, Murray Nguyen, Chia-Hung Ni, Murphy Yuezhen Niu, Logan Oas, Raymond Orosco, Kristoffer Ottosson, Alice Pagano, Agustin Di Paolo, Sherman Peek, David Peterson, Alex Pizzuto, Elias Portoles, Rebecca Potter, Orion Pritchard, Michael Qian, Chris Quintana, Arpit Ranadive, Matthew J. Reagor, Rachel Resnick, David M. Rhodes, Daniel Riley, Gabrielle Roberts, Roberto Rodriguez, Emma Ropes, Lucia B. De Rose, Eliott Rosenberg, Emma Rosenfeld, Dario Rosenstock, Elizabeth Rossi, Pedram Roushan, David A. Rower, Robert Salazar, Kannan Sankaragomathi, Murat Can Sarihan, Kevin J. Satzinger, Max Schaefer, Sebastian Schroeder, Henry F. Schurkus, Aria Shahingohar, Michael J. Shearn, Aaron Shorter, Vladimir Shvarts, Spencer Small, W. Clarke Smith, David A. Sobel, Barrett Spells, Sofia Springer, George Sterling, Jordan Suchard, Aaron Szasz, Alexander Sztein, Madeline Taylor, Jothi Priyanka Thiruraman, Douglas Thor, Dogan Timucin, Eifu Tomita, Alfredo Torres, M. Mert Torunbalci, Hao Tran, Abeer Vaishnav, Justin Vargas, Sergey Vdovichev, Guifre Vidal, Catherine Vollgraff Heidweiller, Meghan Voorhees, Steven Waltman, Jonathan Waltz, Shannon X. Wang, Brayden Ware, James D. Watson, Yonghua Wei, Travis Weidel, Theodore White, Kristi Wong, Bryan W. K. Woo, Christopher J. Wood, Maddy Woodson, Cheng Xing, Z. Jamie Yao, Ping Yeh, Bicheng Ying, Juhwan Yoo, Noureldin Yosri, Elliot Young, Grayson Young, Adam Zalcman, Ran Zhang, Yaxing Zhang, Ningfeng Zhu, Nicholas Zobrist, Zhenjie Zou, Ryan Babbush, Dave Bacon, Sergio Boixo, Yu Chen, Zijun Chen, Michel Devoret, Monica Hansen, Jeremy Hilton, Cody Jones, Julian Kelly, Alexander N. Korotkov, Erik Lucero, Anthony Megrant, Hartmut Neven, William D. Oliver, Ganesh Ramachandran, Vadim Smelyanskiy, Paul V. Klimov

Gepubliceerd Tue, 10 Ma

📖 4 min leestijd🧠 Diepgaand

Bekijk op arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel kwetsbaar, glazen muziekinstrument bouwt dat perfect moet klinken om een symfonie te spelen. Maar er is een probleem: de temperatuur in de zaal verandert, de luchtvochtigheid schommelt en het instrument stemt zichzelf constant een beetje verkeerd. Als je dat niet oplost, wordt de muziek na een paar minuten onherkenbaar ruis.

In de wereld van quantumcomputers is dit precies wat er gebeurt. Deze computers zijn zo gevoelig dat ze voortdurend "ontstemd" raken door de omgeving.

Het oude probleem: De pauzeknop
Voorheen was de enige oplossing om de hele symfonie te stoppen, het instrument uit te halen, het te stemmen (kalibreren) en dan weer verder te spelen. Maar voor de complexe berekeningen van de toekomst (die dagen of weken duren) is dit onmogelijk. Je kunt niet elke 10 minuten pauzeren om te stemmen; de muziek stopt dan en het doel is mislukt.

De nieuwe oplossing: Een muzikant die uit zijn fouten leert
Google Quantum AI en DeepMind hebben een revolutionaire nieuwe aanpak bedacht, beschreven in dit artikel. Ze hebben een systeem gecreëerd waarbij de quantumcomputer tijdens het spelen zelf leert hoe hij zichzelf moet stemmen.

Hier is hoe het werkt, vertaald naar alledaagse beelden:

1. De "Foutmeldingen" als leraar

Stel je voor dat je een spelletje speelt en je krijgt een melding: "Oeps, je bent een muur tegengekomen." In plaats van alleen te zeggen "probeer het opnieuw", gebruiken deze onderzoekers die melding als een lesmoment.

Hoe het werkt: De quantumcomputer voert een complexe foutcorrectie uit. Als er een foutje optreedt (een "detectiegebeurtenis"), is dat niet alleen een teken dat iets mis is, maar ook een signaal voor een kunstmatige intelligentie (een Reinforcement Learning-agent).
De analogie: Het is alsof een leerling die een piano bespeelt, elke keer dat een noot vals klinkt, een klein beetje de toetsenbalk aanpast. De computer zegt: "Ah, toen ik deze knop een heel klein beetje draaide, klonk de noot net iets beter. De volgende keer draai ik hem nog een fractie verder."

2. De "Zelflerende Regisseur"

Deze AI-agent is als een super-snel regisseur die duizenden knoppen tegelijkertijd aanstuurt.

Het oude systeem: Een technicus die elke week komt om één voor één de schroeven vast te draaien.
Het nieuwe systeem: De AI probeert continu, in een razendsnel ritme, kleine veranderingen in de instellingen. Als de muziek (de berekening) beter klinkt, onthoudt de AI die instelling. Als het slechter klinkt, doet hij het anders.
Het resultaat: De computer "stelt zichzelf voortdurend bij" terwijl hij rekent. Hij hoeft nooit te stoppen.

3. De "Onzichtbare Filter"

In het experiment hebben ze de computer bewust een beetje "ziek" gemaakt (ze hebben drift toegevoegd, alsof de zaal plotseling kouder werd).

Zonder AI: De muziek werd steeds slechter en slechter.
Met AI: De computer merkte de verandering op en paste zijn instellingen aan. Het resultaat? De kwaliteit van de berekening bleef stabiel, zelfs terwijl de omgeving veranderde. Ze verbeterden de stabiliteit met een factor 3,5!

Waarom is dit zo belangrijk?

Vroeger dachten we dat we alleen betere hardware nodig hadden om quantumcomputers te maken. Dit artikel toont aan dat we ook slimmere software nodig hebben.

De metafoor: Het is het verschil tussen een auto die stopt bij elke kleine hobbels in de weg om de wielen te recht te zetten, en een auto met een zelfsturend systeem dat de hobbels voelt en direct de stuurbekrachtiging aanpast, zodat je soepel doorrijdt.

Conclusie in één zin:
Google heeft een quantumcomputer gebouwd die niet alleen fouten corrigeert, maar ook leert van die fouten om zichzelf in real-time te optimaliseren, waardoor hij nooit meer hoeft te stoppen om te "stemmen". Dit is een enorme stap richting een toekomst waarin quantumcomputers dagenlang ononderbroken kunnen rekenen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Reinforcement learning control of quantum error correction" van Google Quantum AI en Google DeepMind, geschreven in het Nederlands.

Titel: Versterkende leercontrole voor kwantumfoutcorrectie

Auteurs: Google Quantum AI en Google DeepMind
Platform: Willow-supergeleidende processor

1. Het Probleem: Drift en Kalibratie in Kwantumcomputers

Kwantumcomputers zijn fundamenteel analoge machines die extreem gevoelig zijn voor omgevingsinvloeden. Hoewel Kwantumfoutcorrectie (QEC) een strategie is om deze kwetsbaarheid te overwinnen door fouten te "digitaliseren" (omzetten in binaire detectie-evenementen), is dit alleen effectief als de fysieke foutenrate van de qubits significant onder een bepaalde drempelwaarde (rond $10^{-3} $tot$ 10^{-2}$) blijft.

De huidige uitdaging is omgevingsdrift: de controleparameters van het systeem veranderen continu door temperatuurschommelingen, materiaaldefecten en elektronische ruis.

Huidige oplossing: Het stoppen van de kwantumberekening om het systeem te herkalibreren.
Nadeel: Deze onderbrekingen zijn onhoudbaar voor toekomstige algoritmen die dagen of weken aan continue rekentijd vereisen.
Bestaande alternatieven: Theoretische voorstellen zoals logische swaps of code-deformatie brengen te grote overhead met zich mee.

Het doel is dus om kalibratie en berekening te verenigen, zodat het systeem zichzelf kan stabiliseren tijdens de uitvoering van de berekening.

2. Methodologie: Reinforcement Learning (RL) Framework

De auteurs introduceren een nieuw paradigma waarbij versterkende leer (Reinforcement Learning - RL) wordt gebruikt om de fysieke controleparameters van de QEC-cyclus continu aan te sturen.

Kernprincipes:

Leeruit fouten: In plaats van de berekening te stoppen, worden de foutdetectie-evenementen (syndromen) die normaal gesproken door de decoder worden gebruikt om de logische toestand te corrigeren, ook gebruikt als leersignaal voor een RL-agent.
Surrogaatdoelwit: De logische foutenrate ( $\varepsilon_L$ $ε_{L}$ ) is te zeldzaam om direct als optimisatiedoel te gebruiken (vereist exponentieel veel metingen). In plaats daarvan gebruiken de auteurs een surrogaatdoelfunctie $C$ , gedefinieerd als de gemiddelde snelheid van foutdetectie-evenementen.
- Er is een wiskundig verband tussen de gradient van de detectiesnelheid en de logische foutenrate: $\nabla \log \varepsilon_L \propto \nabla \log C$ .
Sparse Factor Graph: Het optimalisatieprobleem wordt gemodelleerd als een factorgrafiek. Door de lokale aard van QEC-circuits hangt elk detectie-evenement slechts af van een klein subset van controleparameters. Dit maakt het probleem schaalbaar, zelfs bij duizenden parameters.
RL Agent:
- De agent beheert meer dan 1.000 controleparameters (pulsamplitudes, frequenties, fasecorrecties, etc.) voor single-qubit en CZ-gates.
- De agent gebruikt een multi-objective policy-gradient algoritme.
- Het proces is iteratief: Er wordt een batch van "policy-candidaten" (lichte verstoringen van de huidige parameters) gegenereerd. De prestaties worden beoordeeld op basis van de detectiesnelheid, en de verdeling van de parameters wordt bijgesteld (gradient ascent) om de detectiesnelheid te minimaliseren.
- De agent gebruikt een Gaussian policy distribution met een gemiddelde $\mu(t)$ (de beste schatting) en een variantie $\sigma(t)^2$ (exploratie). In een niet-stationaire omgeving (met drift) leert $\mu(t)$ om de optimale policy te volgen, terwijl $\sigma(t)^2$ zorgt voor continue exploratie.

3. Belangrijkste Bijdragen

Unificatie van Kalibratie en Berekening: Voor het eerst wordt aangetoond dat een RL-agent QEC-cycli kan uitvoeren en tegelijkertijd de fysieke parameters kan sturen om drift te compenseren, zonder de berekening te onderbreken.
Schaalbaarheid: Het framework is ontworpen om te schalen naar grote systemen (tot code-afstand $d=15$ met ~40.000 parameters) dankzij het gebruik van de sparsiteit in de factorgrafiek. De convergentiesnelheid is onafhankelijk van de systeemgrootte.
Record Prestaties: Het bereiken van de laagste logische foutenraten die ooit zijn gemeten voor oppervlaktecodes en kleurencodes op supergeleidende qubits.
Robuustheid tegen Drift: Demonstratie van het vermogen om kunstmatige en natuurlijke drift te compenseren, wat leidt tot een stabielere logische toestand.

4. Resultaten

Experimentele Prestaties (Willow Processor):

Drift-Compensatie: Bij injectie van kunstmatige drift verbeterde de RL-sturing de stabiliteit van de logische foutenrate met 3,5 keer (in combinatie met decoder-sturing) vergeleken met een vaste policy.
Fijnafstemming (Fine-tuning): Zelfs op een reeds goed gekalibreerd systeem (via traditionele methoden) leverde RL-fijnafstemming een extra onderdrukking van de logische foutenrate van 20%.
Record Logische Foutenraten:
- Oppervlaktecode (distance-7): $\varepsilon_L = 7,72(9) \times 10^{-4}$ (gebruikmakend van de AlphaQubit2-neuraalnetwerkdecoder).
- Kleurencode (distance-5): $\varepsilon_L = 8,19(14) \times 10^{-3}$ (gebruikmakend van de Tesseract-decoder).
Randomisatie: De agent was in staat om de prestaties te herstellen tot het niveau van een expert-getalibreerd systeem, zelfs wanneer de initiële controleparameters volledig gerandomiseerd waren (logische foutkans van 50%).

Simulaties:

Schaalbaarheid: Simulaties van oppervlaktecodes tot afstand $d=15$ (met ~38.670 controleparameters) bevestigden dat het framework schaalbaar is.
Convergentie: De convergentiesnelheid naar de optimale foutonderdrukking is exponentieel en onafhankelijk van de systeemgrootte, wat bewijst dat het algoritme effectief gebruikmaakt van de lokale structuur van het probleem.
Real-time Sturing: Simulaties tonen aan dat real-time sturing mogelijk is zolang de drift-frequentie onder een bepaalde drempel ligt (ongeveer 1/150 epoches). Boven deze snelheid is hardware-level mitigatie nodig.

5. Betekenis en Toekomstperspectief

Dit werk markeert een fundamentele verschuiving in de aanpak van fouttolerantie in kwantumcomputing:

Van "Stop-and-Calibrate" naar "Continuous Learning": Het elimineert de noodzaak om kwantumberekeningen te onderbreken voor kalibratie, wat essentieel is voor langdurige algoritmen.
Model-vrij: Het systeem leert direct uit de data (foutdetecties) zonder een perfect fysiek model van het apparaat te vereisen, wat het robuust maakt tegen onbekende fysieke effecten.
Intelligente Controle: Het suggereert dat de weg naar fouttolerantie niet alleen ligt in betere hardware, maar in slimmere controlealgoritmen.
Toekomst: Met verdere verbeteringen zou een kwantumprocessor in de toekomst volledig "ab initio" gekalibreerd kunnen worden door RL, zonder menselijke experts of traditionele kalibratiestacks.

Samenvattend bewijst dit artikel dat een kwantumcomputer kan leren van zijn eigen fouten om zichzelf te stabiliseren, waardoor een nieuw paradigma ontstaat van een computer die nooit stopt met rekenen.