Towards Real-time Control of a CartPole System on a Quantum… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Nguyen Truong Thu Ngo, Väinö Mehtola, Jérome Lenssen, Peiyong Wang, Francesco Cosco, Tien-Fu Lu, James Q. Quach

Gepubliceerd 2026-05-05

📖 5 min leestijd🧠 Diepgaand

Bekijk op arXiv ↗PDF ↗

CC BY 4.0

Oorspronkelijke auteurs: Nguyen Truong Thu Ngo, Väinö Mehtola, Jérome Lenssen, Peiyong Wang, Francesco Cosco, Tien-Fu Lu, James Q. Quach

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een robot probeert te leren een bezemsteel op zijn hand in evenwicht te houden. Dit is een klassieke uitdaging in de robotica die "CartPole" wordt genoemd. Normaal gesproken leren we robots met klassieke computers (het type dat in je laptop zit). Maar wat als we het proberen met een quantumcomputer?

Dit artikel is een rapportkaart van dat experiment. De onderzoekers stelden drie grote vragen:

Kan een kleine quantumcomputer leren de bezemsteel sneller in evenwicht te houden dan een normale computer?
Raakt de robot in de war als we hem trainen op de ene snelheid, maar vragen hem om op een andere snelheid te werken?
Kunnen we de quantumcomputer snel genoeg maken om de robot in real-time daadwerkelijk te besturen, of is hij te traag?

Hier is de uiteenzetting van hun bevindingen, met eenvoudige analogieën.

1. Het "Kleine Brein" versus het "Grote Brein"

De Opzet:
De onderzoekers bouwden een "hybride" robotbrein. Het bestaat grotendeels uit een normale computer, maar heeft één klein quantumgedeelte (een enkele "qubit", die lijkt op een quantummunt die kop, munt of beide tegelijk kan zijn). Ze vergeleken dit met een "groot brein" dat volledig bestaat uit standaard computeronderdelen (een diep neurale netwerk).

Het Resultaat:
Het kleine quantumbrein was een snelheidsduivel.

De Analogie: Stel je twee studenten voor die een toets maken. De student met het "Grote Brein" moet het leerboek 430 keer lezen voordat hij een 10 haalt. De student met het "Kleine Quantumbrein" hoeft het slechts 160 keer te lezen om dezelfde 10 te halen.
De Haken en Ogen: Deze snelheidswinst vond plaats, zelfs toen het quantumbrein zijn antwoorden moest raden door de munt veel keer op te gooien (een methode genaamd "parameter-shift") in plaats van het antwoord perfect te weten. Het bewees dat zelfs een zeer klein quantummodel verrassend efficiënt kan zijn in het leren.

2. Het "Snelheidsdrempel"-Probleem (Trainen versus Besturen)

De Opzet:
In de echte wereld moet een robot zeer snel beslissingen nemen (zoals 50 keer per seconde). Quantumcomputers zijn echter luidruchtig en traag. Om een duidelijk antwoord van de quantummunt te krijgen, moet je deze vaak opgooien (zogenaamde "shots").

De Afweging: Gooi je de munt te weinig keer op, dan is het antwoord luidruchtig (alsof je probeert een fluistering te horen in een storm). Gooi je hem te vaak op, dan duurt het te lang en valt de robot om voordat hij kan reageren.

Het Experiment:
De onderzoekers trainden de robot op verschillende snelheden en testten hem vervolgens op verschillende snelheden om te zien of hij in de war zou raken. Ze maakten een enorme "warmtekaart" (zoals een weerkaart) die liet zien hoe goed de robot in evenwicht bleef onder verschillende omstandigheden.

Het Resultaat:

De "Inferentie"-snelheid is het belangrijkst: Het maakte niet uit hoe snel de robot was getraind. Wat telde, was hoe snel hij reed (inferentie). Als de robot snel beslissingen mocht nemen (hoge frequentie), bleef hij goed in evenwicht. Als hij gedwongen werd langzaam te rijden, viel hij om.
Meer Gooien = Meer Stabiliteit: Als de robot langzaam moest rijden, konden ze dit oplossen door hem meer "shots" te geven (de munt vaker opgooien om een duidelijk antwoord te krijgen).
Het Sweet Spot: Je moet een balans vinden. Je wilt dat de robot snel rijdt én genoeg tijd heeft om een duidelijk quantumantwoord te krijgen. Het artikel biedt een kaart om ingenieurs te helpen deze perfecte balans te vinden voor toekomstige robots.

3. De "Verkeersopstopping" versus de "Autosnelweg" (Latentie)

De Opzet:
Dit is het meest kritieke deel. Zelfs als de quantumcomputer goed leert, is het nutteloos als hij te traag is om in real-time te reageren.

Het Probleem: Normaal gesproken, wanneer je een quantumcomputer in de cloud gebruikt, moet je je verzoek door veel "bureaucratie" sturen (softwarelagen, compilers, internetvertragingen). Het is alsof je probeert een raceauto door een stad te rijden met stopborden, verkeerslichten en bouwvakken.
De Oude Manier: Met de standaardsoftware kon de robot slechts ongeveer 0,14 keer per seconde een beslissing nemen. Hij was in feite in slaap.

De Doorbraak:
De onderzoekers besloten de "bureaucratie" te omzeilen. Ze programmeerden de hardware van de quantumcomputer direct, alsof een racecoureur een afkorting neemt via een privé-autosnelweg.

Het Resultaat: Door de tussenpersonen uit te schakelen, versnelden ze de robot met 40 keer. De robot kon nu 6,2 keer per seconde beslissingen nemen.
De Limiet: Hoewel 6,2 keer per seconde een enorme verbetering is, is het nog steeds niet snel genoeg voor een bezemsteel die 50 keer per seconde in evenwicht moet worden gehouden. Het bewijst echter dat de "verkeersopstopping" het hoofdprobleem was, niet de quantumfysica zelf.

De Conclusie

Dit artikel is een "proof of concept" dat zegt:

Ja, een klein quantumbrein kan een balancerende taak sneller leren dan een groot klassiek brein.
Ja, we kunnen precies in kaart brengen hoe snel en hoe precies de quantumcomputer moet zijn om te voorkomen dat de robot omvalt.
Ja, we kunnen quantumcomputers snel genoeg maken om bruikbaar te zijn voor besturing, maar alleen als we stoppen met het gebruik van de trage, standaardsoftware en direct met de hardware praten.

De onderzoekers hebben nog geen zelfrijdende auto of medische robot gebouwd. Ze hebben alleen bewezen dat de motor (het quantumleren) werkt, en ze hebben uitgezocht hoe ze de verkeersopstoppingen (latentie) kunnen verwijderen zodat het uiteindelijk sneller kan rijden.

Technische Samenvatting: Op weg naar real-time besturing van een CartPole-systeem op een quantumcomputer

Probleemstelling
De toepassing van Quantum Reinforcement Learning (QRL) op real-time besturingssystemen staat voor aanzienlijke hindernissen met betrekking tot hardware-latentie, gevoeligheid voor ruis en convergentie van het leerproces. Hoewel theoretisch QML-onderzoek potentieel voordeel suggereert in steekproefficiëntie en representatie in hoge dimensies, blijft de praktische implementatie op Noisy Intermediate-Scale Quantum (NISQ)-apparaten beperkt. Bestaande studies vertrouwen vaak op geïdealiseerde simulaties of slagen er niet in om de kritieke latentieknelpunten van standaard cloud-gebaseerde quantum-executie aan te pakken, waardoor ze ongeschikt zijn voor latentie-gevoelige, gesloten-lus besturingstaken. De specifieke uitdaging die in dit werk wordt aangepakt, is de kloof tussen uitsluitend simulatie-gebaseerde evaluaties en de uitvoering van een hybride quantum-klassiek agent op een fysieke supergeleidende Quantum Processing Unit (QPU) onder real-time constraints.

Methodologie
De auteurs presenteren een end-to-end onderzoek naar een minimaal hybride quantum-klassiek agent toegepast op de CartPole-benchmark.

Omgeving & State Encoding: De taak bestaat uit het stabiliseren van een omgekeerde slinger op een kar. De agent maakt gebruik van een gereduceerde driedimensionale feature-vector (snelheid van de kar, hoek van de slinger, hoeksnelheid van de slinger) in plaats van de volledige vierdimensionale state, gedreven door de beperkingen van een single-qubit architectuur.
Agent Architectuur:
- Hybride Model: De agent maakt gebruik van een single-qubit variational quantum circuit (VQC) verbonden met klassiek volledig verbonden lagen. De VQC gebruikt een Hadamard-gate gevolgd door een drie-rotatiesequentie ( $R_z-R_y-R_z$ ) om de state te encoderen op de Bloch-sfeer, en een trainbare $R_x$ -rotatie. De verwachtingswaarde van een Pauli-Z-meting wordt ingevoerd in klassieke actor- en criticusnetwerken (elk met 32 verborgen neuronen).
- Klassieke Baseline: Een volledig klassiek actor-critic netwerk met identieke verborgen laagstructuren (128 en 256 eenheden) dient als baseline.
- Training: Beide modellen maken gebruik van de Actor-Critic-methode met Policy Gradients. De hybride agent wordt getraind met behulp van de parameter-shift regel voor gradiëntschatting op shot-based backends, evenals analytische gradiënten voor vergelijking.
Experimentele Categorieën:
1. Ruisvrije Benchmark: Vergelijking van convergentiesnelheden tussen klassieke en hybride agents met behulp van Qiskit BasicSimulator.
2. Training-Inferentie Compatibiliteit: Een systematische studie die de afweging in kaart brengt tussen de besturingslus-snelheid (inferentie-frequentie) en het shot-budget voor metingen. Agents getraind bij verschillende frequenties (20–100 Hz) werden geëvalueerd over verschillende inferentie-frequenties en shot-aantallen (128–1024) op een ruis-emulerende backend (FakeAdonis).
3. Hardware-executie met Lage Latentie: Implementatie van een getraind beleid op de VTT Q5 (een 5-qubit supergeleidende QPU). Cruciaal is dat de auteurs de standaard high-level Qiskit/IQM software-stack hebben omzeild. In plaats daarvan hebben ze de Zurich Instruments uitlees-elektronica (HDAWG en UHFQA) direct geprogrammeerd via command tables (CT), waardoor de overhead van code her-compilatie en waveform-upload voor elke parameterwijziging wordt geëlimineerd.

Belangrijkste Bijdragen

Steekproefficiëntie van Minimale Hybride Agents: De studie toont aan dat een single-qubit hybride agent de CartPole-omgeving kan oplossen in aanzienlijk minder episodes (ongeveer 162 episodes) dan een vergelijkbaar klassiek actor-critic netwerk (ongeveer 429 episodes), zelfs wanneer getraind met de parameter-shift regel met finite-shot evaluaties.
Analyse van Afwegingen tijdens Inferentie: De auteurs leveren prestatiematrices die de relatie kwantificeren tussen inferentie-besturingsfrequentie en shot-aantal. Resultaten geven aan dat hogere inferentie-frequenties consistent de stabiliteit van het in evenwicht houden verbeteren. Bovendien verlaagt het verhogen van het shot-budget de minimale inferentie-frequentie die nodig is om bijna-maximaal in evenwicht te blijven, wat de noodzaak benadrukt om een optimaal midden te vinden tussen deze twee constraints.
Latentie-reductie via Lage-niveau Besturing: Door de standaard software-stack te omzeilen en direct command table-programmering op de besturingselektronica te gebruiken, bereikten de auteurs een verbetering in uitvoeringssnelheid met een orde van grootte. Op de VTT Q5-processor steeg de iteratiesnelheid van ~0,14 Hz (standaard stack) naar meer dan 6,2 Hz (lage-niveau pad) voor 128 shots, wat een snelheidswinst van meer dan 40x vertegenwoordigt.

Resultaten

Leer-dynamiek: In ruisvrije simulaties convergeerde de hybride agent aanzienlijk sneller dan de klassieke baseline. Het gebruik van parameter-shift gradiënten resulteerde in iets langzamere convergentie dan analytische gradiënten, maar behield een duidelijk voordeel ten opzichte van het klassieke model.
Implementatie-beperkingen: De compatibiliteitsstudie onthulde dat inferentie-tijd constraints (frequentie en shot-aantal) de primaire determinanten zijn van stabiliteit, en niet de trainingsfrequentie. Een mismatch tussen trainings- en inferentie-frequenties had een secundair effect in vergelijking met het shot-aantal en de inferentie-frequentie.
Hardware-prestaties: Op de VTT Q5 maakte het lage-niveau uitvoeringspad iteratiesnelheden mogelijk van 6,23 Hz (128 shots) tot 2,71 Hz (1024 shots). Hoewel de absolute episode-scores op hardware conservatief waren vanwege het ontbreken van readout-error mitigatie en niet-ideale inferentie-omstandigheden, demonstreerde het systeem succesvol gesloten-lus besturing. De resultaten toonden aan dat met een voldoende shot-budget (bijvoorbeeld 1024 shots), het systeem bijna-perfecte in-echwicht-houdingscores (500) kon bereiken ondanks de hardware-ruis.

Betekenis en Claims
Het artikel claimt een fundamentele stap te bieden richting het bereiken van real-time gesloten-lus besturingsfeedback op quantumhardware. Het claimt geen theoretische quantum-snelheidswinst in de complexiteit-theoretische zin, gezien de lage-dimensionale aard van CartPole. In plaats daarvan ligt de betekenis in:

Kwantificeren van Grenzen: Het werk kwantificeert de huidige grenzen van quantum-ondersteunde besturing, specifiek de afwegingen tussen shot-aantal, besturingsfrequentie en latentie.
Praktische Routekaart: Het schetst een praktische route voor real-time demonstraties door aan te tonen dat het omzeilen van standaard software-stacks noodzakelijk is om de doorvoer van tientallen hertz te bereiken die vereist is voor real-time feedback.
Haalbaarheid van Minimale Modellen: Het valideert dat minimale single-qubit modellen kunnen fungeren als effectieve leer-agents in RL-lussen wanneer gekoppeld aan passende encoding en lichtgewicht klassieke post-processing, zelfs onder realistische ruis en finite-shot constraints.

De auteurs concluderen dat hoewel de huidige NISQ-hardware iteratiesnelheden (multi-hertz) nog niet volledig het regime van tientallen hertz hebben bereikt dat vereist is voor robuuste real-time besturing, de gedemonstreerde low-latency pijplijn een haalbaar startpunt biedt om een dergelijke doorvoer in toekomstige iteraties te bereiken.

Towards Real-time Control of a CartPole System on a Quantum Computer

1. Het "Kleine Brein" versus het "Grote Brein"

2. Het "Snelheidsdrempel"-Probleem (Trainen versus Besturen)

3. De "Verkeersopstopping" versus de "Autosnelweg" (Latentie)

De Conclusie

Technische Samenvatting: Op weg naar real-time besturing van een CartPole-systeem op een quantumcomputer

Meer zoals dit