Towards Real-time Control of a CartPole System on… — Allgemeinverständliche Erklärung

Ursprüngliche Autoren: Nguyen Truong Thu Ngo, Väinö Mehtola, Jérome Lenssen, Peiyong Wang, Francesco Cosco, Tien-Fu Lu, James Q. Quach

Veröffentlicht 2026-05-05

📖 5 Min. Lesezeit🧠 Tiefgang

Ansehen auf arXiv ↗PDF ↗

CC BY 4.0

Ursprüngliche Autoren: Nguyen Truong Thu Ngo, Väinö Mehtola, Jérome Lenssen, Peiyong Wang, Francesco Cosco, Tien-Fu Lu, James Q. Quach

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie versuchen, einem Roboter beizubringen, einen Besenstiel auf seiner Hand im Gleichgewicht zu halten. Dies ist eine klassische Herausforderung in der Robotik, die als „CartPole" bekannt ist. Normalerweise bringen wir Robotern bei, dies mit klassischen Computern zu tun (der Art, wie sie in Ihrem Laptop zu finden sind). Aber was wäre, wenn wir versuchen würden, es mit einem Quantencomputer zu lehren?

Dieser Artikel ist ein Zeugnis für dieses Experiment. Die Forscher stellten drei große Fragen:

Kann ein winziger Quantencomputer lernen, den Besenstiel schneller im Gleichgewicht zu halten als ein normaler Computer?
Wird der Roboter verwirrt, wenn wir ihn mit einer Geschwindigkeit trainieren, aber ihn bei einer anderen Geschwindigkeit arbeiten lassen?
Können wir den Quantencomputer schnell genug machen, um den Roboter tatsächlich in Echtzeit zu steuern, oder ist er zu langsam?

Hier ist eine Aufschlüsselung ihrer Erkenntnisse, unter Verwendung einfacher Analogien.

1. Das „winzige Gehirn" vs. das „große Gehirn"

Der Aufbau:
Die Forscher bauten ein „hybrides" Roboterhirn. Es besteht größtenteils aus einem normalen Computer, hat aber einen winzigen Quantenteil (ein einzelnes „Qubit", das wie eine Quantenmünze ist, die Kopf, Zahl oder beides gleichzeitig sein kann). Sie verglichen dies mit einem „großen Gehirn", das vollständig aus Standard-Computerkomponenten besteht (ein tiefes neuronales Netz).

Das Ergebnis:
Das winzige Quantengehirn war ein Geschwindigkeitsdämon.

Die Analogie: Stellen Sie sich zwei Schüler vor, die eine Prüfung ablegen. Der Schüler des „Großen Gehirns" muss das Lehrbuch 430 Mal lesen, bevor er eine Eins bekommt. Der Schüler des „winzigen Quantengehirns" muss es nur 160 Mal lesen, um dieselbe Eins zu erhalten.
Der Haken: Dieser Geschwindigkeitsschub trat sogar dann auf, wenn das Quantengehirn seine Antworten erraten musste, indem es die Münze viele Male warf (eine Methode namens „Parameter-Verschiebung"), anstatt die Antwort perfekt zu kennen. Es bewies, dass selbst ein sehr kleines Quantenmodell beim Lernen überraschend effizient sein kann.

2. Das Problem des „Geschwindigkeitsbremsers" (Training vs. Fahren)

Der Aufbau:
In der realen Welt muss ein Roboter sehr schnell Entscheidungen treffen (zum Beispiel 50 Mal pro Sekunde). Quantencomputer sind jedoch verrauscht und langsam. Um eine klare Antwort von der Quantenmünze zu erhalten, muss man sie oft viele Male werfen (sogenannte „Shots").

Der Kompromiss: Wenn Sie die Münze zu selten werfen, ist die Antwort verrauscht (wie wenn man versucht, ein Flüstern in einem Sturm zu hören). Wenn Sie sie zu oft werfen, dauert es zu lange, und der Roboter fällt um, bevor er reagieren kann.

Das Experiment:
Die Forscher trainierten den Roboter mit unterschiedlichen Geschwindigkeiten und testeten ihn dann bei unterschiedlichen Geschwindigkeiten, um zu sehen, ob er verwirrt würde. Sie erstellten eine große „Wärmekarte" (wie eine Wetterkarte), die zeigt, wie gut der Roboter unter verschiedenen Bedingungen das Gleichgewicht hielt.

Das Ergebnis:

Die „Inferenz"-Geschwindigkeit ist am wichtigsten: Es spielte keine Rolle, wie schnell der Roboter trainiert wurde. Wichtig war, wie schnell er fuhr (Inferenz). Wenn der Roboter schnell Entscheidungen treffen durfte (hohe Frequenz), hielt er das Gleichgewicht gut. Wenn er gezwungen wurde, langsam zu fahren, fiel er um.
Mehr Würfe = mehr Stabilität: Wenn der Roboter langsam fahren musste, konnten sie es beheben, indem sie ihm mehr „Shots" gaben (die Münze öfter warfen, um eine klare Antwort zu erhalten).
Der Sweet Spot: Man muss ein Gleichgewicht finden. Der Roboter muss schnell fahren und genug Zeit haben, um eine klare Quantenantwort zu erhalten. Der Artikel liefert eine Karte, die Ingenieuren hilft, dieses perfekte Gleichgewicht für zukünftige Roboter zu finden.

3. Der „Stau" vs. die „Autobahn" (Latenz)

Der Aufbau:
Dies ist der kritischste Teil. Selbst wenn der Quantencomputer gut lernt, ist er nutzlos, wenn er zu langsam ist, um in Echtzeit zu reagieren.

Das Problem: Normalerweise, wenn man einen Quantencomputer in der Cloud nutzt, muss man seine Anfrage durch viel „Bürokratie" senden (Softwareschichten, Compiler, Internetverzögerungen). Es ist, als würde man versuchen, ein Rennauto durch eine Stadt mit Stoppschildern, Ampeln und Baustellen zu fahren.
Der alte Weg: Mit der Standardsoftware konnte der Roboter nur etwa 0,14 Mal pro Sekunde eine Entscheidung treffen. Er war im Wesentlichen eingeschlafen.

Der Durchbruch:
Die Forscher beschlossen, die „Bürokratie" zu umgehen. Sie programmierten die Hardware des Quantencomputers direkt, wie ein Rennfahrer, der eine Abkürzung über eine private Autobahn nimmt.

Das Ergebnis: Durch das Streichen der Mittelsmänner beschleunigten sie den Roboter um den Faktor 40. Der Roboter konnte nun 6,2 Mal pro Sekunde Entscheidungen treffen.
Die Grenze: Obwohl 6,2 Mal pro Sekunde eine enorme Verbesserung ist, ist es immer noch nicht schnell genug für einen Besenstiel, der 50 Mal pro Sekunde im Gleichgewicht gehalten werden muss. Es beweist jedoch, dass der „Stau" das Hauptproblem war, nicht die Quantenphysik selbst.

Das Fazit

Dieser Artikel ist ein „Proof of Concept", der besagt:

Ja, ein winziges Quantengehirn kann eine Balancieraufgabe schneller lernen als ein großes klassisches Gehirn.
Ja, wir können genau kartieren, wie schnell und wie präzise der Quantencomputer sein muss, um zu verhindern, dass der Roboter umfällt.
Ja, wir können Quantencomputer schnell genug machen, um für die Steuerung nützlich zu sein, aber nur wenn wir aufhören, die langsame Standardsoftware zu verwenden und direkt mit der Hardware sprechen.

Die Forscher haben noch kein autonomes Fahrzeug oder einen medizinischen Roboter gebaut. Sie haben lediglich bewiesen, dass der Motor (das Quantenlernen) funktioniert, und sie haben herausgefunden, wie man die Staus (Latenz) beseitigt, damit er schließlich schneller fahren kann.

Technisches Fazit: Auf dem Weg zur Echtzeitsteuerung eines CartPole-Systems auf einem Quantencomputer

Problemstellung
Die Anwendung von Quantum Reinforcement Learning (QRL) auf Echtzeitsteuerungssysteme steht vor erheblichen Hindernissen hinsichtlich Hardware-Latenz, Störanfälligkeit und Konvergenz des Lernprozesses. Während theoretische QML-Forschung potenzielle Vorteile bei der Stichprobeneffizienz und der Darstellung hochdimensionaler Räume nahelegt, bleibt die praktische Implementierung auf Noisy Intermediate-Scale Quantum (NISQ)-Geräten begrenzt. Bestehende Studien verlassen sich häufig auf idealisierte Simulationen oder adressieren nicht die kritischen Latenzengpässe der standardmäßigen cloudbasierten Quantenausführung, was sie für latenzsensitive, geschlossene Regelkreisaufgaben ungeeignet macht. Die spezifische Herausforderung, die in dieser Arbeit behandelt wird, ist die Kluft zwischen rein simulationsbasierten Bewertungen und der Ausführung eines hybriden quanten-klassischen Agenten auf einer physikalischen supraleitenden Quantum Processing Unit (QPU) unter Echtzeitbedingungen.

Methodik
Die Autoren präsentieren eine End-to-End-Untersuchung eines minimalen hybriden quanten-klassischen Agenten, der auf den CartPole-Benchmark angewendet wird.

Umgebung & Zustandskodierung: Die Aufgabe besteht darin, einen inversen Pendel auf einem Wagen zu stabilisieren. Der Agent nutzt einen reduzierten dreidimensionalen Merkmalsvektor (Wagengeschwindigkeit, Pendelwinkel, Winkelgeschwindigkeit des Pendels) anstelle des vollständigen vierdimensionalen Zustands, motiviert durch die Einschränkungen einer Ein-Qubit-Architektur.
Agentenarchitektur:
- Hybrides Modell: Der Agent verwendet einen variationalen Quantenschaltkreis (VQC) mit einem Qubit, der mit klassischen vollvernetzten Schichten verbunden ist. Der VQC verwendet ein Hadamard-Gatter gefolgt von einer Sequenz aus drei Rotationen ( $R_z-R_y-R_z$ ), um den Zustand auf die Bloch-Kugel zu kodieren, sowie eine trainierbare $R_x$ -Rotation. Der Erwartungswert einer Pauli-Z-Messung wird in klassische Actor- und Critic-Netzwerke eingespeist (jeweils mit 32 versteckten Neuronen).
- Klassische Baseline: Ein rein klassisches Actor-Critic-Netzwerk mit identischen Strukturen der versteckten Schichten (128 bzw. 256 Einheiten) dient als Referenz.
- Training: Beide Modelle verwenden die Actor-Critic-Methode mit Policy Gradients. Der hybride Agent wird unter Verwendung der Parameter-Verschiebungsregel (parameter-shift rule) für die Gradientenschätzung auf schussbasierten Backends trainiert, ebenso wie analytische Gradienten zum Vergleich.
Experimentelle Kategorien:
1. Rauschfreier Benchmark: Vergleich der Konvergenzraten zwischen klassischen und hybriden Agenten unter Verwendung des Qiskit BasicSimulators.
2. Kompatibilität von Training und Inferenz: Eine systematische Studie, die den Trade-off zwischen der Regelkreishäufigkeit (Inferenzfrequenz) und dem Messschussbudget (measurement shot budget) abbildet. Agenten, die bei verschiedenen Frequenzen (20–100 Hz) trainiert wurden, wurden über verschiedene Inferenzfrequenzen und Schusszahlen (128–1024) auf einem rauschemulierenden Backend (FakeAdonis) evaluiert.
3. Hardware-Ausführung mit niedriger Latenz: Bereitstellung einer trainierten Policy auf dem VTT Q5 (eine 5-Qubit-supraleitende QPU). Entscheidend ist, dass die Autoren den standardmäßigen High-Level-Qiskit/IQM-Softwarestack umgangen haben. Stattdessen programmierten sie die Ausleseelektronik von Zurich Instruments (HDAWG und UHFQA) direkt über Befehlstabellen (CT), wodurch der Overhead durch Neukompilierung von Code und Hochladen von Wellenformen bei jeder Parameteränderung eliminiert wurde.

Hauptbeiträge

Stichprobeneffizienz minimaler hybrider Agenten: Die Studie zeigt, dass ein hybrider Agent mit einem Qubit die CartPole-Umgebung in deutlich weniger Episoden (ca. 162 Episoden) lösen kann als ein vergleichbares klassisches Actor-Critic-Netzwerk (ca. 429 Episoden), selbst wenn er unter Verwendung der Parameter-Verschiebungsregel mit endlichen Schussbewertungen trainiert wird.
Analyse des Trade-offs zur Inferenzzeit: Die Autoren liefern Leistungsmatrizen, die die Beziehung zwischen der Inferenz-Steuerungsfrequenz und der Schusszahl quantifizieren. Die Ergebnisse zeigen, dass höhere Inferenzfrequenzen die Stabilität des Balancierens konsistent verbessern. Darüber hinaus senkt eine Erhöhung des Schussbudgets die minimale Inferenzfrequenz, die erforderlich ist, um ein nahezu maximales Balancieren zu erreichen, was die Notwendigkeit unterstreicht, ein optimales Mittelmaß zwischen diesen beiden Einschränkungen zu finden.
Latenzreduktion durch Low-Level-Steuerung: Durch das Umgehen des standardmäßigen Softwarestacks und die Nutzung einer direkten Befehlstabellenprogrammierung auf der Steuerelektronik erzielten die Autoren eine Verbesserung der Ausführungsgeschwindigkeit um eine Größenordnung. Auf dem VTT Q5-Prozessor stieg die Iterationsrate von ~0,14 Hz (Standardstack) auf über 6,2 Hz (Low-Level-Pfad) für 128 Schüsse, was einer Beschleunigung von über 40-fach entspricht.

Ergebnisse

Lern-Dynamik: In rauschfreien Simulationen konvergierte der hybride Agent signifikant schneller als die klassische Baseline. Die Verwendung von Parameter-Verschiebungs-Gradienten führte zu einer leicht langsameren Konvergenz als analytische Gradienten, behielt jedoch einen klaren Vorteil gegenüber dem klassischen Modell bei.
Einschränkungen der Bereitstellung: Die Kompatibilitätsstudie ergab, dass Inferenzzeit-Einschränkungen (Frequenz und Schusszahl) die primären Determinanten der Stabilität sind und nicht die Trainingsfrequenz. Eine Diskrepanz zwischen Trainings- und Inferenzfrequenzen hatte im Vergleich zur Schusszahl und Inferenzfrequenz nur einen sekundären Effekt.
Hardware-Leistung: Auf dem VTT Q5 ermöglichte der Low-Level-Ausführungspfad Iterationsraten von 6,23 Hz (128 Schüsse) bis hinunter zu 2,71 Hz (1024 Schüsse). Obwohl die absoluten Episoden-Scores auf der Hardware aufgrund des Fehlens von Maßnahmen zur Korrektur von Auslesefehlern und nicht idealer Inferenzbedingungen konservativ ausfielen, demonstrierte das System erfolgreich eine geschlossene Regelkreiskontrolle. Die Ergebnisse zeigten, dass das System mit einem ausreichenden Schussbudget (z. B. 1024 Schüsse) trotz Hardware-Rauschen nahezu perfekte Balancier-Scores (500) erreichen konnte.

Bedeutung und Behauptungen
Die Arbeit beansprucht einen grundlegenden Schritt hin zur Erreichung einer Echtzeit-Feedback-Steuerung in geschlossenen Regelkreisen auf Quantenhardware zu liefern. Sie beansprucht keinen theoretischen Quantenvorteil im komplexitätstheoretischen Sinne, gegeben die niedrigdimensionale Natur von CartPole. Stattdessen liegt die Bedeutung in:

Quantifizierung von Grenzen: Die Arbeit quantifiziert die aktuellen Grenzen der quantenunterstützten Steuerung, insbesondere die Trade-offs zwischen Schusszahl, Steuerungsfrequenz und Latenz.
Praktische Roadmap: Sie skizziert einen praktischen Pfad für Echtzeit-Demonstrationen, indem sie zeigt, dass das Umgehen standardmäßiger Softwarestacks notwendig ist, um die für Echtzeit-Feedback erforderliche Durchsatzrate im Bereich von mehreren zehn Hertz zu erreichen.
Durchführbarkeit minimaler Modelle: Sie validiert, dass minimale Ein-Qubit-Modelle als effektive lernende Agenten in RL-Schleifen fungieren können, wenn sie mit geeigneter Kodierung und leichter klassischer Nachverarbeitung kombiniert werden, selbst unter realistischen Rausch- und endlichen Schussbedingungen.

Die Autoren schließen, dass die aktuellen Iterationsraten von NISQ-Hardware (mehrere Hertz) das für eine robuste Echtzeitsteuerung erforderliche Regime von mehreren zehn Hertz noch nicht vollständig erreicht haben, die demonstrierte Low-Latenz-Pipeline jedoch einen viablen Startpunkt darstellt, um einen solchen Durchsatz in zukünftigen Iterationen zu erreichen.

Towards Real-time Control of a CartPole System on a Quantum Computer

1. Das „winzige Gehirn" vs. das „große Gehirn"

2. Das Problem des „Geschwindigkeitsbremsers" (Training vs. Fahren)

3. Der „Stau" vs. die „Autobahn" (Latenz)

Das Fazit

Technisches Fazit: Auf dem Weg zur Echtzeitsteuerung eines CartPole-Systems auf einem Quantencomputer

Mehr davon