Reinforcement Learning Control of Quantum Error Correction

Volodymyr Sivak, Alexis Morvan, Michael Broughton, Rodrigo G. Cortiñas, Johannes Bausch, Andrew W. Senior, Matthew Neeley, Alec Eickbusch, Noah Shutty, Laleh Aghababaie Beni, James S. Spencer, Francisco J. H Heras, Thomas Edlich, Dmitry Abanin, Amira Abbas, Rajeev Acharya, Georg Aigeldinger, Ross Alcaraz, Sayra Alcaraz, Trond I. Andersen, Markus Ansmann, Frank Arute, Kunal Arya, Walt Askew, Nikita Astrakhantsev, Juan Atalaya, Brian Ballard, Joseph C. Bardin, Hector Bates, Andreas Bengtsson, Majid Bigdeli Karimi, Alexander Bilmes, Simon Bilodeau, Felix Borjans, Alexandre Bourassa, Jenna Bovaird, Dylan Bowers, Leon Brill, Peter Brooks, David A. Browne, Brett Buchea, Bob B. Buckley, Tim Burger, Brian Burkett, Nicholas Bushnell, Jamal Busnaina, Anthony Cabrera, Juan Campero, Hung-Shen Chang, Silas Chen, Ben Chiaro, Liang-Ying Chih, Agnetta Y. Cleland, Bryan Cochrane, Matt Cockrell, Josh Cogan, Roberto Collins, Paul Conner, Harold Cook, William Courtney, Alexander L. Crook, Ben Curtin, Martin Damyanov, Sayan Das, Dripto M. Debroy, Sean Demura, Paul Donohoe, Ilya Drozdov, Andrew Dunsworth, Valerie Ehimhen, Aviv Moshe Elbag, Lior Ella, Mahmoud Elzouka, David Enriquez, Catherine Erickson, Vinicius S. Ferreira, Marcos Flores, Leslie Flores Burgos, Ebrahim Forati, Jeremiah Ford, Austin G. Fowler, Brooks Foxen, Masaya Fukami, Alan Wing Lun Fung, Lenny Fuste, Suhas Ganjam, Gonzalo Garcia, Christopher Garrick, Robert Gasca, Helge Gehring, Robert Geiger, Élie Genois, William Giang, Dar Gilboa, James E. Goeders, Edward C. Gonzales, Raja Gosula, Stijn J. de Graaf, Alejandro Grajales Dau, Dietrich Graumann, Joel Grebel, Alex Greene, Jonathan A. Gross, Jose Guerrero, Loïck Le Guevel, Tan Ha, Steve Habegger, Tanner Hadick, Ali Hadjikhani, Michael C. Hamilton, Matthew P. Harrigan, Sean D. Harrington, Jeanne Hartshorn, Stephen Heslin, Paula Heu, Oscar Higgott, Reno Hiltermann, Hsin-Yuan Huang, Mike Hucka, Christopher Hudspeth, Ashley Huff, William J. Huggins, Evan Jeffrey, Shaun Jevons, Zhang Jiang, Xiaoxuan Jin, Chaitali Joshi, Pavol Juhas, Andreas Kabel, Dvir Kafri, Hui Kang, Kiseo Kang, Amir H. Karamlou, Ryan Kaufman, Kostyantyn Kechedzhi, Tanuj Khattar, Mostafa Khezri, Seon Kim, Can M. Knaut, Bryce Kobrin, Fedor Kostritsa, John Mark Kreikebaum, Ryuho Kudo, Ben Kueffler, Arun Kumar, Vladislav D. Kurilovich, Vitali Kutsko, Nathan Lacroix, David Landhuis, Tiano Lange-Dei, Brandon W. Langley, Pavel Laptev, Kim-Ming Lau, Justin Ledford, Joy Lee, Kenny Lee, Brian J. Lester, Wendy Leung, Lily Li, Wing Yan Li, Ming Li, Alexander T. Lill, William P. Livingston, Matthew T. Lloyd, Aditya Locharla, Laura De Lorenzo, Daniel Lundahl, Aaron Lunt, Sid Madhuk, Aniket Maiti, Ashley Maloney, Salvatore Mandrà, Leigh S. Martin, Orion Martin, Eric Mascot, Paul Masih Das, Dmitri Maslov, Melvin Mathews, Cameron Maxfield, Jarrod R. McClean, Matt McEwen, Seneca Meeks, Kevin C. Miao, Zlatko K. Minev, Reza Molavi, Sebastian Molina, Shirin Montazeri, Charles Neill, Michael Newman, Anthony Nguyen, Murray Nguyen, Chia-Hung Ni, Murphy Yuezhen Niu, Logan Oas, Raymond Orosco, Kristoffer Ottosson, Alice Pagano, Agustin Di Paolo, Sherman Peek, David Peterson, Alex Pizzuto, Elias Portoles, Rebecca Potter, Orion Pritchard, Michael Qian, Chris Quintana, Arpit Ranadive, Matthew J. Reagor, Rachel Resnick, David M. Rhodes, Daniel Riley, Gabrielle Roberts, Roberto Rodriguez, Emma Ropes, Lucia B. De Rose, Eliott Rosenberg, Emma Rosenfeld, Dario Rosenstock, Elizabeth Rossi, Pedram Roushan, David A. Rower, Robert Salazar, Kannan Sankaragomathi, Murat Can Sarihan, Kevin J. Satzinger, Max Schaefer, Sebastian Schroeder, Henry F. Schurkus, Aria Shahingohar, Michael J. Shearn, Aaron Shorter, Vladimir Shvarts, Spencer Small, W. Clarke Smith, David A. Sobel, Barrett Spells, Sofia Springer, George Sterling, Jordan Suchard, Aaron Szasz, Alexander Sztein, Madeline Taylor, Jothi Priyanka Thiruraman, Douglas Thor, Dogan Timucin, Eifu Tomita, Alfredo Torres, M. Mert Torunbalci, Hao Tran, Abeer Vaishnav, Justin Vargas, Sergey Vdovichev, Guifre Vidal, Catherine Vollgraff Heidweiller, Meghan Voorhees, Steven Waltman, Jonathan Waltz, Shannon X. Wang, Brayden Ware, James D. Watson, Yonghua Wei, Travis Weidel, Theodore White, Kristi Wong, Bryan W. K. Woo, Christopher J. Wood, Maddy Woodson, Cheng Xing, Z. Jamie Yao, Ping Yeh, Bicheng Ying, Juhwan Yoo, Noureldin Yosri, Elliot Young, Grayson Young, Adam Zalcman, Ran Zhang, Yaxing Zhang, Ningfeng Zhu, Nicholas Zobrist, Zhenjie Zou, Ryan Babbush, Dave Bacon, Sergio Boixo, Yu Chen, Zijun Chen, Michel Devoret, Monica Hansen, Jeremy Hilton, Cody Jones, Julian Kelly, Alexander N. Korotkov, Erik Lucero, Anthony Megrant, Hartmut Neven, William D. Oliver, Ganesh Ramachandran, Vadim Smelyanskiy, Paul V. Klimov

Veröffentlicht Tue, 10 Ma

📖 4 Min. Lesezeit🧠 Tiefgang

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich einen Quantencomputer nicht als einen starren, digitalen Rechner vor, sondern eher wie ein hochsensibles Orchester, das in einem stürmischen Raum spielt.

Jeder Musiker (ein Qubit) muss perfekt aufeinander abgestimmt sein. Doch das Problem ist: Der Raum ist nicht ruhig. Die Temperatur schwankt, die Luftfeuchtigkeit ändert sich, und die Instrumente stimmen sich im Laufe der Zeit selbst leicht falsch. In der Welt der Quantencomputer nennt man das „Drift". Wenn die Musiker nicht ständig neu abgestimmt werden, wird die Musik (die Berechnung) schnell zu einem chaotischen Krach.

Bisher war die Lösung für dieses Problem sehr simpel, aber auch sehr störend: Man hat das Orchester einfach zum Schweigen gebracht. Man hat die Berechnung gestoppt, alle Musiker einzeln neu abgestimmt (kalibriert) und dann erst wieder weitergespielt. Für kurze Stücke ging das. Aber für die großen, komplexen Symphonien der Zukunft, die Tage oder Wochen dauern sollen, wäre dieses ständige Anhalten und Neustarten völlig untragbar. Es wäre, als würde ein Marathonläufer alle 100 Meter anhalten, um seine Schuhe neu zu binden.

Die neue Idee: Lernen aus dem Rauschen

Google Quantum AI und Google DeepMind haben eine geniale neue Strategie entwickelt, die sie „Reinforcement Learning" (Bestärkendes Lernen) nennen. Stellen Sie sich vor, das Orchester hat einen super-intelligenten Dirigenten, der nicht nur die Musik leitet, sondern auch ein Lernroboter ist.

Hier ist, wie dieser Dirigent funktioniert:

Der Fehler als Lehrer: Normalerweise sind Fehler beim Spielen (falsche Töne) etwas Schlimmes. In diesem neuen System nutzt der Dirigent diese Fehler jedoch als Lernsignal. Wenn ein Musiker einen falschen Ton spielt, sagt der Dirigent nicht nur: „Oh nein, korrigiere das!", sondern er denkt: „Aha! Dieser falsche Ton sagt mir, dass mein Instrument im Raum etwas zu warm ist. Ich muss die Temperatur für diesen Musiker leicht anpassen."
Zwei Aufgaben gleichzeitig: Der Dirigent macht zwei Dinge gleichzeitig:
- Er korrigiert die Musik sofort, damit das Publikum (die Daten) nichts von den Fehlern merkt.
- Er nutzt die Art und Weise, wie die Fehler auftreten, um seine eigenen Einstellungen zu verbessern. Er lernt ständig dazu, wie er die Instrumente justieren muss, damit sie trotz des stürmischen Raums perfekt klingen.
Nie aufhören: Das Wichtigste: Das Orchester hält niemals auf. Die Berechnung läuft durchgehend weiter, während der Dirigent im Hintergrund wie ein unsichtbarer Mechaniker die Schrauben der Instrumente dreht, um sie perfekt zu halten.

Was haben sie erreicht?

Die Forscher haben dies auf einem echten Quantenprozessor (dem „Willow"-Chip) getestet. Das Ergebnis war beeindruckend:

Stabilität: Der Dirigent konnte die Stabilität der Musik (die „logische Stabilität") um das 3,5-fache verbessern, selbst wenn sie absichtlich Störungen in den Raum warfen.
Rekordwerte: Durch das ständige, feine Justieren (das „Feinabstimmen") konnten sie Fehlerquoten erreichen, die so niedrig sind wie noch nie zuvor bei dieser Art von Quantencomputern.
Skalierbarkeit: Sie haben in Simulationen gezeigt, dass dieser Ansatz auch für riesige Orchester funktioniert. Selbst wenn das Orchester auf das Zehnfache wächst (von 50 auf 500 Musiker), bleibt die Geschwindigkeit, mit der der Dirigent lernt, gleich schnell. Er wird nicht langsamer, nur weil mehr Musiker da sind.

Warum ist das so wichtig?

Früher dachte man, Quantencomputer seien so zerbrechlich, dass man sie nur in perfekten, statischen Umgebungen betreiben könne. Diese Arbeit zeigt etwas Revolutionäres: Ein Quantencomputer kann aus seinen eigenen Fehlern lernen.

Es ist, als würde ein Auto nicht nur fahren, sondern während der Fahrt selbstständig die Federung, den Motor und die Reifen justieren, um auf jeder Straße perfekt zu laufen – ohne jemals in die Werkstatt zu müssen.

Zusammenfassend:
Diese Forschung öffnet die Tür zu einem neuen Zeitalter. Statt Quantencomputer zu bauen, die so perfekt sind, dass sie nie kaputtgehen (was unmöglich ist), bauen wir jetzt intelligente Quantencomputer, die lernen, sich selbst zu reparieren und anzupassen, während sie arbeiten. Sie hören nie auf zu rechnen, weil sie nie aufhören zu lernen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Reinforcement learning control of quantum error correction" von Google Quantum AI und Google DeepMind auf Deutsch:

1. Problemstellung

Quantencomputer sind analoge Maschinen, die extrem anfällig für Umgebungsstörungen und Drift (langsame Veränderungen der Systemparameter) sind. Die derzeitige Lösung für dieses Problem besteht darin, die Quantenberechnung zu unterbrechen, um das System neu zu kalibrieren.

Herausforderung: Für zukünftige Algorithmen, die Laufzeiten von Tagen oder Wochen erfordern, ist ein ständiges Anhalten zur Kalibrierung nicht nachhaltig.
Limitierung traditioneller Methoden: Herkömmliche Kalibrierungstechniken erreichen zwar hohe Präzision, können aber nicht kontinuierlich gegen die nicht-stationäre Drift des Systems ankommen. Zudem ist die reine Fehlerkorrektur (QEC) nur effektiv, wenn die physikalischen Gatterfehlerraten deutlich unter einem bestimmten Schwellenwert (ca. $10^{-3} $bis$ 10^{-2}$) liegen.
Ziel: Eine Methode zu entwickeln, die Kalibrierung und Berechnung vereint, sodass das System während des laufenden Betriebs stabilisiert wird, ohne die Quantenberechnung zu unterbrechen.

2. Methodik: Reinforcement Learning (RL) als Steuerungsmechanismus

Das Paper stellt einen neuen Paradigmenwechsel vor: Die Nutzung von Fehlerdetektionsereignissen des Quantenfehlerkorrektur-Protokolls (QEC) nicht nur zur Korrektur des logischen Zustands, sondern auch als Lernsignal für einen Reinforcement-Learning-Agenten.

Das Framework:
- Ein RL-Agent steuert über 1.000 physikalische Kontrollparameter (z. B. Pulsamplituden, Frequenzen, Phasen), die die Analog-Signale für die Qubits definieren.
- Lernsignal: Anstatt den logischen Fehler (der schwer direkt zu messen ist) als Zielgröße zu nutzen, verwendet der Algorithmus eine Surrogat-Zielfunktion $C$ . Diese ist definiert als die durchschnittliche Rate von Fehlerdetektionsereignissen (Error Detection Rate, EDR).
- Theoretische Basis: Basierend auf Skalierungsmodellen des Surface Codes korreliert die Minimierung der EDR direkt mit der Minimierung der logischen Fehlerrate ( $\varepsilon_L$ ). Es wird gezeigt, dass der Gradient der logischen Fehlerrate proportional zum Gradienten der Surrogat-Zielfunktion ist.
- Algorithmus: Es wird ein multi-objektiver Policy-Gradient-RL-Ansatz verwendet. Der Agent sampelt eine Verteilung von Kontrollrichtlinien (Policy), führt QEC-Zyklen durch und bewertet die Ergebnisse.
- Skalierbarkeit: Um die hohe Dimensionalität des Problems zu bewältigen, nutzt der Algorithmus die Sparsität der QEC-Schaltungen. Ein Faktorgraph (Factor Graph) verknüpft Detektoren nur mit den Kontrollparametern der Gatter in ihrer unmittelbaren räumlich-zeitlichen Umgebung. Dies ermöglicht eine effiziente Gradientenabschätzung, die unabhängig von der Systemgröße skaliert.

3. Schlüsselbeiträge

Vereinheitlichung von Kalibrierung und Berechnung: Erstmals wird demonstriert, dass ein RL-Agent die physikalischen Parameter eines Quantenprozessors kontinuierlich während der Ausführung von QEC-Zyklen anpassen kann, ohne die Berechnung zu stoppen.
Surrogat-Zielfunktion: Die Einführung der EDR als effizientes, skalierbares Lernziel, das die direkte Optimierung der logischen Fehlerrate umgeht, die aufgrund exponentiell benötigter Messungen unpraktisch wäre.
Decoder-Steering: Der Ansatz wird erweitert, um nicht nur die Hardware-Parameter, sondern auch die Parameter des Decoders (z. B. Gewichtung des Matching-Graphen) anzupassen, was die Fehlerrate weiter senkt.
Skalierbarkeitsnachweis: Simulationen zeigen, dass das Framework auf Surface Codes mit einer Distanz von 15 (ca. 40.000 Kontrollparameter) skaliert, wobei die Konvergenzgeschwindigkeit unabhängig von der Systemgröße bleibt.

4. Ergebnisse

Die Experimente wurden auf dem Willow-Supraleiter-Prozessor durchgeführt.

Stabilität gegen Drift:
- Bei injizierter künstlicher Drift konnte der RL-Agent die Stabilität der logischen Fehlerrate um den Faktor 3,5 im Vergleich zu einer statischen, nicht nachgeführten Kontrolle verbessern.
- Die logische Fehlerrate (LER) wurde um durchschnittlich 24% reduziert, und die Stabilität (Standardabweichung der LER) um den Faktor 2,4 verbessert.
- Durch zusätzliche Steuerung des Decoders stieg die Verbesserung auf einen Faktor von 3,5 an.
Leistungssteigerung (Fine-Tuning):
- Selbst auf einem bereits durch traditionelle Methoden und Experten gut kalibrierten System erzielte das RL-Fine-Tuning eine weitere Unterdrückung der LER um 20%.
- Rekordwerte: Es wurden neue Bestwerte für die logische Fehlerrate pro Zyklus erreicht:
  - Surface Code (Distanz 7): $\varepsilon_L = 7,72(9) \times 10^{-4}$
  - Color Code (Distanz 5): $\varepsilon_L = 8,19(14) \times 10^{-3}$
Robustheit: Der Agent konnte auch von stark zufällig initialisierten Parametern ausgehend erfolgreich lernen und die Leistung wiederherstellen, was zeigt, dass das System nicht zwingend auf eine manuelle Vor-Kalibrierung angewiesen ist.
Echtzeit-Steering: Simulationen zeigten, dass das System Drifts mit Frequenzen unterhalb eines kritischen Schwellenwerts (ca. 1/150 Epochen) in Echtzeit kompensieren kann.

5. Bedeutung und Ausblick

Diese Arbeit markiert einen Wendepunkt auf dem Weg zu fehlertoleranten Quantencomputern:

Ende der Unterbrechungen: Sie ermöglicht einen neuen Betriebsmodus, bei dem ein Quantencomputer aus seinen Fehlern lernt und niemals anhalten muss, um sich neu zu kalibrieren.
Automatisierung: Der Ansatz verspricht, die Abhängigkeit von manuellen Experten und starren Kalibrierungsprotokollen zu überwinden und stattdessen eine adaptive, intelligente Steuerung zu etablieren.
Allgemeingültigkeit: Obwohl auf supraleitenden Qubits demonstriert, ist das Framework prinzipiell auf jede Qubit-Technologie und jede QEC-Architektur anwendbar, solange Fehlerdetektionssignale und justierbare Kontrollparameter vorhanden sind.
Zukunftsperspektive: Es legt den Grundstein für zukünftige Systeme, die sich selbstständig an verändernde Umgebungsbedingungen anpassen und so die Voraussetzungen für langlaufende, komplexe Quantenalgorithmen schaffen.

Zusammenfassend beweist das Paper, dass Reinforcement Learning ein leistungsfähiges Werkzeug ist, um die inhärente Fragilität analoger Quantensysteme zu überwinden und die Schwelle zur praktischen Fehlertoleranz durch intelligente, kontinuierliche Optimierung zu senken.

Reinforcement Learning Control of Quantum Error Correction

Die neue Idee: Lernen aus dem Rauschen

Was haben sie erreicht?

Warum ist das so wichtig?

1. Problemstellung

2. Methodik: Reinforcement Learning (RL) als Steuerungsmechanismus

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Formally Verifying Quantum Phase Estimation Circuits with 1,000+ Qubits

Distributed g(2) Retrieval with Atomic Clocks: Eliminating Conventional Sync Protocols

Efficient training of photonic quantum generative models

Quantum algorithm for anisotropic diffusion and convection equations with vector norm scaling

Large Language Model-Assisted Superconducting Qubit Experiments