Ursprüngliche Autoren: Joost Van Veen, Luise Prielinger, Sebastian Feld

Veröffentlicht 2026-05-05

📖 4 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Joost Van Veen, Luise Prielinger, Sebastian Feld

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie versuchen, eine riesige, hochriskante Tanzparty zu organisieren, aber der Veranstaltungsort ist in zwei separate Räume aufgeteilt, die durch einen schmalen, langsamen Flur verbunden sind.

Das Problem: Der Quanten-Tanzboden
In der Welt des Quantencomputings wollen wir komplexe Berechnungen durchführen (den Tanz). Allerdings wird der Bau eines einzigen riesigen Raums mit tausenden Tänzern (Qubits) zu unübersichtlich und teuer. Daher entwickeln Wissenschaftler „Verteilte Quantencomputing"-Systeme (DQC): zwei kleinere, handhabbare Räume (Module), die durch einen Flur verbunden sind.

Der Haken?

Innerhalb der Räume: Tänzer können sich sofort bewegen und interagieren.
Zwischen den Räumen: Das Bewegen eines Tänzers durch den Flur ist langsam, unzuverlässig und erfordert eine lange Vorbereitungszeit (wie das Warten auf einen bestimmten Bus).

Das Ziel ist es, alle Tanzbewegungen (Quantengatter) so schnell wie möglich auszuführen. Die Herausforderung besteht darin zu entscheiden: Soll ich einen Tänzer jetzt in den Flur schicken? Soll ich warten? Welchen Tänzer soll ich bewegen?

Der alte Weg: Der zögerliche Planer
Früher nutzten Forscher einen „schrittweisen" Planer (Reinforcement Learning). Stellen Sie sich einen nervösen Manager vor, der nur einen winzigen Schritt auf einmal machen kann: „Bewege Tänzer A einen Schritt nach links" oder „Warte eine Sekunde".

Das Problem: Da der Manager nur winzige Schritte machen kann, wird er überwältigt. Er verbringt viel Zeit damit, über jeden einzelnen winzigen Schritt nachzudenken, und gerät häufig in Staus, weil er das große Ganze nicht sah. Es dauert lange, diesen Manager zu trainieren, und selbst dann ist er nicht sehr schnell.

Die neue Idee: Der strategische Kommandant
Die Autoren dieses Papers führten eine neue Art von Manager (ein KI-Agent) mit einer intelligenteren Denkweise ein. Anstatt winzige Schritte zu machen, denkt dieser Agent in strategischen Zügen.

Große Züge, keine winzigen Schritte: Anstatt zu sagen „Bewege einen Schritt nach links", sagt der Agent: „Bewege Tänzer A den gesamten Weg zum Flur entlang des kürzesten Pfades." Er plant die gesamte Kette von Bewegungen auf einmal.
Das „Bitte nicht stören"-Schild (Action Masking): Um den Agenten nicht verwirren zu lassen, setzten die Forscher „Action Masks" ein. Diese sind wie Türsteher, die dem Agenten sagen: „Du kannst diesen Tänzer jetzt nicht bewegen, weil er noch nicht benötigt wird." Dies verhindert, dass der Agent Zeit damit verschwendet, unmögliche oder nutzlose Dinge zu versuchen.
Intelligenteres Gehirn: Der Agent verwendet ein vereinfachtes „Gehirn" (neuronales Netz), das nicht versucht, jeden einzelnen möglichen winzigen Schritt auswendig zu lernen. Stattdessen lernt er den Wert des Bewegens von einem bestimmten Ort zu einem bestimmten Ort, was das Lernen viel schneller macht.

Die Ergebnisse: Schnellere Partys, weniger Training
Die Forscher testeten diesen neuen „Strategischen Kommandanten" gegen den alten „Zögerlichen Planer" unter Verwendung simulierter Quantenschaltungen (Tanzroutinen).

Geschwindigkeit: Der neue Agent beendete die Routinen 35 % schneller als der alte. Er fand bessere Pfade und umging Staus effektiver.
Trainingszeit: Der neue Agent benötigte 64 % weniger Zeit, um die Aufgabe zu lernen. Es war so, als hätte der neue Manager den gesamten Veranstaltungsort an einem Nachmittag gelernt, während der alte Manager eine Woche an Versuch und Irrtum benötigte.
Skalierbarkeit: Der neue Agent wurde noch besser, wenn er auf größeren, komplexeren Routinen trainiert wurde, während der alte Schwierigkeiten hatte, sich zu verbessern.

Das Fazit
Dieses Paper zeigt, dass wir durch die Änderung wie die KI Entscheidungen treffen darf (indem wir ihr größere, intelligentere Züge geben und schlechte herausfiltern), verteilte Quantencomputer viel effizienter betreiben können. Es geht nicht darum, bessere Hardware zu bauen, sondern darum, einen besseren „Verkehrspolizisten" zu bauen, um den Informationsfluss zwischen den verschiedenen Teilen des Computers zu steuern.

Hinweis: Das Paper konzentriert sich streng auf die Effizienz des Kompilierens dieser Quantenschaltungen. Es wird nicht behauptet, dass diese Ergebnisse unmittelbar zu neuen medizinischen Heilmitteln oder Arzneimittelentdeckungen führen werden, sondern vielmehr, dass die zugrundeliegende „Verkehrssteuerung" für Quantencomputer nun erheblich effizienter ist.

Technische Zusammenfassung: Neukonzeption des Handelns: Action-Space-Engineering für Reinforcement-Learning-basierte Schaltungs-Routing in verteilten Quantensystemen

Problemstellung

Da das monolithische Skalieren von Quantenprozessoren aufgrund von Steuerungskomplexität, Übersprechen und korrelierten Fehlern an Grenzen stößt, hat sich das Verteilte Quantencomputing (DQC) als eine praktikable Alternative etabliert. DQC vernetzt mehrere kleinere Quantenprozessor-Module über Quanten- und klassische Kanäle. Das Kompilieren von Quantenschaltungen für DQC bringt jedoch eine spezifische Herausforderung mit sich: Der Compiler muss nicht nur lokale Konnektivitätsbeschränkungen innerhalb der Module erfüllen, sondern auch die Erzeugung und das Routing von entfernten verschränkten Zuständen (EPR-Paaren) verwalten, um nicht-lokale Operationen zu ermöglichen.

Die Erzeugung von EPR-Paaren ist deutlich langsamer (z. B. 10–40 Hz) im Vergleich zu lokalen Gatteroperationen (MHz bis kHz), was einen Engpass darstellt. Traditionelle Kompilierungsansätze verlassen sich häufig auf statische Qubit-Platzierung oder Heuristiken, die Netzwerkdynamiken in skalare Kosten abstrahieren, und erfassen dabei weder die stochastische Natur noch die Latenz der Erzeugung entfernter Verschränkung. Während Reinforcement Learning (RL) im nicht-verteilten Routing vielversprechend war, sehen bestehende DQC-spezifische RL-Frameworks (z. B. Promponas et al., 2024) aufgrund ihrer Action-Space-Formulierungen Herausforderungen hinsichtlich Trainingseffizienz, Skalierbarkeit und Inferenzleistung.

Methodik

Die Autoren schlagen einen neuartigen RL-Agenten vor, der die Ausführungszeit von Schaltungen in DQC-Architekturen optimieren soll. Der Ansatz baut auf dem von Promponas et al. (2024) etablierten Framework auf, führt jedoch signifikante ingenieurtechnische Änderungen im Action Space, in Maskierungsstrategien und bei der Wertapproximation ein.

1. System- und Schaltungsmodell

Schaltungsrepräsentation: Quantenschaltungen werden als gerichtete azyklische Graphen (DAGs) modelliert, wobei Knoten Gatter und Kanten Präzedenzbeschränkungen darstellen.
Hardware-Modell: Das System besteht aus mehreren Modulen (QPUs), die über Quantenkanäle verbunden sind. Lokale Operationen finden innerhalb der Module statt, während entfernte Operationen auf EPR-Paaren basieren.
Entfernte Primitive: Das Framework unterstützt Tele-Gatter (nicht-lokales CNOT) und Tele-Qubits (Zustands-Teleportation), die EPR-Paare verbrauchen. Die Verschränkungserzeugung wird als deterministischer Prozess mit fester Latenz $t_{gen}$ modelliert, was die mittlere Wartezeit eines Repeat-Until-Success-Protokolls approximiert.

2. Reinforcement-Learning-Framework

Das Problem wird als Markov-Entscheidungsprozess (MDP) unter Verwendung von Double Deep Q-Networks (DDQN) formuliert.

Zustandsraum ( $S$ ): Identisch zur Baseline, kodiert die aktuelle Qubit-Mapping (physikalisch zu virtuell) und die DAG-Struktur (Gatter-Abhängigkeiten und Schichtung).
Belohnungsstruktur:
- Positive Belohnungen für das Abschließen von Gattern ( $R_{score}$ ) und das Beenden der Schaltung ( $R_{success}$ ).
- Strafen für das Nicht-Abschließen der Schaltung innerhalb einer Zeitgrenze ( $R_{fail}$ ) und für die Verwendung der STOP-Aktion.
- Änderung: Die Autoren modifizieren die Bewegungsbelohnung ( $R_{move}$ ). Im Gegensatz zur Baseline, die eine erhöhte Distanz bestraft, erhält der neue Agent keine Belohnung, wenn die Distanzmessgröße nicht sinkt, wodurch negatives Feedback für nicht-fortschreitende Bewegungen vermieden wird, die nicht strikt verboten sind. Die STOP-Belohnung wird um die Anzahl der übersprungenen Zeitschritte ( $\Delta t_{skip}$ ) skaliert.

3. Schlüsselinnovationen: Action-Space-Engineering

Der Kernbeitrag liegt in der Neudefinition des Aktionsraums des Agenten ( $\tilde{A}$ ) sowie in der Art und Weise, wie dieser maskiert und approximiert wird.

Erweiterter Aktionsraum: Anstatt Aktionen mit einzelnen Kanten (SWAPs auf einzelnen Links) zu assoziieren, assoziiert der neue Agent Aktionen mit Paaren physikalischer Qubits $(i, j)$ . Eine Aktion ROUT(i, j) führt eine Kette von SWAP- und Tele-Qubit-Operationen entlang eines vorkalkulierten kürzesten Pfades zwischen $i$ und $j$ aus. Dies ermöglicht dem Agenten, mehrstufige Routing-Entscheidungen in einem einzigen Schritt zu treffen.
Restriktive Aktionsmaskierung: Um zu verhindern, dass der vergrößerte Aktionsraum den Agenten überfordert, wird eine strenge Maskierungsstrategie angewendet. Eine Routing-Aktion ROUT(i, j) ist nur zulässig, wenn sie:
1. Ein „Frontier-Qubit" (beteiligt am nächsten Gatter) zu seinem Partner hin bewegt.
2. Ein nicht-initialisiertes Qubit zu einer Kommunikationsleitung hin bewegt, um die Erzeugung von EPR vorzubereiten.
3. Ein EPR-Qubit und ein Frontier-Qubit aufeinander zu bewegt.
Strukturierte Q-Wert-Approximation: Um die quadratische Skalierung des Aktionsraums ( $O(|V|^2)$ ) zu adressieren, führen die Autoren eine strukturierte Approximation ein. Das neuronale Netzwerk gibt einen skalaren Wert $Q_i$ für jedes physikalische Qubit $i$ aus (zusätzlich Werte für STOP- und generate-Aktionen). Der Wert für eine spezifische Routing-Aktion von $i$ nach $j$ wird über eine lineare Kombination induziert:
$Q_{ij} = (1 - \alpha)Q_i + \alpha Q_j$
wobei $0 < \alpha < 0.5$ . Dies reduziert die Anzahl der trainierbaren Ausgaben von $O(|V|^2)$ auf $O(|V|)$ , senkt die Rechenkosten erheblich und bewahrt gleichzeitig die Richtungsabhängigkeit.

Hauptergebnisse

Der vorgeschlagene Agent wurde gegen den Baseline-DDQN-Agenten (Promponas et al., 2024) über zwei Hardware-Topologien evaluiert: ein 4x4-Gitter und ein verbundenes Paar von IBM Q Guadalupe-Architekturen (insgesamt 32 Qubits). Die Experimente verwendeten zufällig generierte Schaltungen mit 30, 40 und 50 CNOT-Gattern.

1. Inferenzleistung

Reduktion der Ausführungszeit: Auf der Guadalupe-Topologie mit 30-Gatter-Schaltungen erreichte der vorgeschlagene Agent eine relative Reduktion der modellierten Ausführungszeit von ~35% im Vergleich zur Baseline.
- Baseline-Durchschnitt: ~1.227 Zeitschritte.
- Durchschnitt des vorgeschlagenen Agents: ~799 Zeitschritte.
Skalierbarkeit: Auf der stärker eingeschränkten Guadalupe-Topologie hatte der Baseline-Agent Schwierigkeiten, effektive Strategien für 40- und 50-Gatter-Schaltungen zu lernen (die Ausführungszeiten blieben nahe dem Niveau einer zufälligen Auswahl). Im Gegensatz dazu zeigte der vorgeschlagene Agent signifikante Verbesserungen der Ausführungszeit für diese größeren Schaltungen, was auf eine bessere Skalierbarkeit hindeutet.
Gitter-Topologie: Auf dem hochvernetzten 4x4-Gitter trainierte der vorgeschlagene Agent zunächst langsamer aufgrund der Komplexität der Auswahl optimaler Pfade unter vielen Alternativen. Er erreichte jedoch schließlich eine wettbewerbsfähige Endleistung und schnitt die Baseline leicht ab.

2. Trainingseffizienz

Wandzeit: Das vorgeschlagene Modell benötigte deutlich weniger Trainingszeit. Für 30-Gatter-Schaltungen wurde die Trainingszeit um 64% reduziert (von ~66 Stunden auf ~23,5 Stunden).
Konvergenz: Der vorgeschlagene Agent zeigte eine geringere Varianz in der kumulierten Belohnung und der Ausführungszeit während der finalen Trainingsphasen, was auf eine stabilere und konsistentere Strategie hindeutet.

3. Look-Ahead-Analyse

Die Autoren untersuchten, ob das Training an kleineren Schaltungen (begrenzter Look-Ahead) auf größere verallgemeinert wird. Das Training an größeren Schaltungen (C50) lieferte konsistent bessere Inferenzleistungen auf 50-Gatter-Testsets als das Training an kleineren Schaltungen (C30 oder C40), was darauf hindeutet, dass der vollständige Schaltungskontext für optimale Routing-Entscheidungen in diesem Setup notwendig ist.

Bedeutung und Behauptungen

Die Arbeit behauptet, dass Action-Space-Engineering ein entscheidender Hebel zur Verbesserung der RL-basierten Quantenschaltungs-Kompilierung ist. Durch die Umstrukturierung des Aktionsraums, um zusammengesetzte Routing-Aktionen zu ermöglichen, und den Einsatz einer strukturierten Q-Wert-Approximation erreichten die Autoren:

Verbesserte Leistung: Eine signifikante Reduktion der Schaltungsausführungszeit (bis zu 35–38%) auf eingeschränkten Hardware-Topologien.
Rechenleistungseffizienz: Eine drastische Reduktion der Trainingszeit (64%) und eine skalierbarere Parametrisierung des Q-Netzwerks.
Verallgemeinerung: Die Fähigkeit, effektive Strategien für größere Schaltungen zu lernen, bei denen die Baseline-heuristischen oder auf Kanten-Ebene basierenden RL-Ansätze versagten.

Die Autoren vermerken bescheiden, dass die Skalierbarkeit weiterhin durch das polynomiale Wachstum des Zustandsraums mit der Anzahl der Gatter begrenzt ist (derzeit bewertet bis zu 50 Gattern und 18 Qubits). Sie identifizieren den Trade-off zwischen der restriktiven Maskierungsstrategie (die die Lerngeschwindigkeit unterstützt) und dem potenziellen Verlust global optimaler Routing-Strategien als eine Einschränkung. Als zukünftige Arbeit wird vorgeschlagen, sich auf kompaktere Zustandsrepräsentationen zu konzentrieren, um die Verallgemeinerung weiter zu verbessern.

Rethinking How to Act: Action-Space Engineering for Reinforcement Learning-Based Circuit Routing in Distributed Quantum Systems