⚛️ quantum physics

Scalable Quantum Reinforcement Learning on NISQ Devices with Dynamic-Circuit Qubit Reuse and Grover Optimization

Dit paper introduceert een schaalbaar quantum-versterkingsleerframework voor NISQ-apparaten dat door dynamische circuituitvoering en qubit-hergebruik de qubit-complexiteit voor multi-stap beslissingsprocessen reduceert van O(T) naar O(1) terwijl de trajectfideliteit behouden blijft.

Oorspronkelijke auteurs: Thet Htar Su, Shaswot Shresthamali, Masaaki Kondo

Gepubliceerd 2026-04-23

📖 5 min leestijd🧠 Diepgaand

CC BY 4.0

Oorspronkelijke auteurs: Thet Htar Su, Shaswot Shresthamali, Masaaki Kondo

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een zeer slimme robot wilt trainen om een doolhof te vinden. De robot moet proefondervindelijk leren: hij loopt een stukje, krijgt een beloning als hij goed gaat, en een straf als hij vastloopt. Dit noemen we Versterkend Leren (Reinforcement Learning).

Nu wil je deze robot niet op een gewone computer trainen, maar op een kwantumcomputer. Kwantumcomputers zijn als magische dobbelstenen die alle mogelijke routes tegelijk kunnen verkennen in plaats van één voor één. Dat klinkt fantastisch, maar er zit een groot probleem aan vast, vooral op de huidige generatie kwantumcomputers (die we NISQ noemen: ruisgevoelig en met weinig "ruimte").

Hier is wat dit paper doet, vertaald naar een verhaal:

1. Het Probleem: De "Onbeperkte" Kamer

Stel je voor dat elke stap die de robot maakt in het doolhof een nieuwe kamer vereist om te worden onthouden.

Als de robot 1 stap zet, heb je 1 kamer nodig.
Als hij 10 stappen zet, heb je 10 kamers nodig.
Als hij 1000 stappen zet, heb je 1000 kamers nodig.

Op een echte kwantumcomputer zijn die "kamers" qubits (de bouwstenen van de computer). De huidige computers hebben er maar heel weinig (zo'n 100 of 130). Als je een langere reis wilt plannen, heb je dus meer kamers nodig dan er bestaan. De vorige methoden waren als een trein waarbij elke wagon een nieuwe treinwagen toevoegt; na een tijdje is de trein te lang voor het spoor.

2. De Oplossing: De "Magische Herbruikbare Kamer"

De auteurs van dit paper hebben een slimme truc bedacht: Dynamische Circuits met Qubit-hergebruik.

In plaats van een nieuwe kamer te bouwen voor elke stap, gebruiken ze één enkele kamer en maken ze die schoon na elke stap.

De Analogie: Stel je voor dat je een bord hebt om je eten op te doen. In de oude methode zou je voor elke hap een nieuw, schoon bord nodig hebben. Dat is veel afval en kost veel ruimte.
De Nieuwe Methode: Je eet je hap, wast het bord direct af (dit heet meten en resetten in de kwantumwereld), en gebruikt hetzelfde bord voor de volgende hap.

Dankzij deze truc kunnen ze een reis van 1000 stappen plannen met slechts 7 vaste qubits (de "borden"), in plaats van 7000. Ze hebben de groei van 7xT (lineair) omgezet naar 7 (constant). Het is alsof je een hele reis kunt plannen in één kleine auto, terwijl je eerder een trein nodig had.

3. Hoe werkt het precies?

Het proces verloopt in drie stappen, alsof je een film draait:

De Actie (Superpositie): De robot kijkt naar alle mogelijke wegen tegelijk (zoals een wolk van mogelijkheden).
De Keuze (Meten): De robot maakt een keuze. De computer "meet" wat er gebeurt, slaat het resultaat op in het geheugen (als een notitie op een papiertje), en veegt de kwantumruimte direct schoon.
Herhaling: De robot begint de volgende stap met dezelfde schone ruimte, maar nu met de nieuwe positie die hij zojuist heeft opgeschreven.

Dit gebeurt razendsnel achter elkaar. Het resultaat is dat de robot een complete reis door het doolhof heeft gemaakt, zonder dat hij ooit meer ruimte nodig had dan voor één enkele stap.

4. De "Zoektocht naar de Gouden Weg" (Grover's Optimalisatie)

Naast het plannen van de route, willen ze ook weten welke route het beste is (de meeste beloning).
In de oude wereld zou je alle routes één voor één moeten tellen. In deze nieuwe methode gebruiken ze een kwantumtruc genaamd Grover's algoritme.

De Analogie: Stel je voor dat je in een grote zaal staat met duizenden mensen. Iedereen heeft een nummer op zijn rug. Je zoekt de persoon met het nummer "1000".
In een normale zaal loop je iedereen langs.
Met deze kwantum-magie (amplitude amplification) "versterk" je het geluid van de persoon met nummer 1000. Na een paar seconden klinkt die ene persoon zo hard dat je hem direct kunt horen, terwijl de anderen verdwijnen.

Dit betekent dat de computer de beste route veel sneller vindt dan een gewone computer ooit zou kunnen.

5. Het Resultaat: Werkend in de Realiteit

De auteurs hebben dit niet alleen op papier bedacht, maar het ook daadwerkelijk geprobeerd op een echte IBM-kwantumcomputer (de "Heron"-processor).

Ze lieten de robot 3 stappen zetten in een doolhof.
Ze kregen precies dezelfde resultaten als bij de oude, ruimteverslindende methode.
Maar ze gebruikten 66% minder qubits.

Conclusie

Dit paper is een grote stap voorwaarts. Het laat zien dat we niet hoeven te wachten tot kwantumcomputers gigantisch groot worden om complexe problemen op te lossen. Door slimme trucjes te gebruiken om bestaande ruimte te hergebruiken (zoals een bord afwassen en hergebruiken), kunnen we nu al slimme AI-toepassingen bouwen op de kleine, ruisgevoelige computers van vandaag.

Het is de sleutel om kwantumcomputers schaalbaar te maken voor de echte wereld.

Titel: Schaalbaar Quantum Versterkend Leren op NISQ-apparaten met Dynamische Circuit Qubit-hergebruik en Grover-Optimalisatie

Auteurs: Thet Htar Su, Shaswot Shresthamali, en Masaaki Kondo (Keio Universiteit & Kyushu Universiteit)

1. Het Probleem: Schaalbaarheid in Quantum Versterkend Leren (QRL)

Traditioneel versterkend leren (RL) heeft succes geboekt, maar kampt met trage convergentie en hoge rekenkosten. Quantum versterkend leren (QRL) belooft deze beperkingen te overwinnen door gebruik te maken van superpositie en verstrengeling. Echter, eerdere volledig quantum-benaderingen voor Multi-Step Quantum Markov Decision Processes (QMDPs) stuiten op een fundamenteel architectonisch probleem: lineaire schaalbaarheid van het aantal qubits.

In eerdere werken (zoals referentie [7] in het artikel) vereiste het modelleren van $T$ interactiestappen een circuit waarbij elke stap zijn eigen set qubits nodig had. Voor een omgeving met 4 toestanden en 2 acties (7 qubits per stap) groeide het totale aantal benodigde qubits lineair met de tijdshorizon ( $7 \times T$ ).

Consequentie: Voor realistische, langere planninghorizons is dit onhaalbaar op huidige Noisy Intermediate-Scale Quantum (NISQ) apparaten, die beperkt zijn in het aantal fysieke qubits en coherentie-tijden.
Doel: Een architectuur ontwikkelen die de interactiediepte ontkoppelt van het fysieke qubit-gebruik, zonder de nauwkeurigheid van de trajectoires te verliezen.

2. Methodologie: Dynamische Circuits en Qubit-hergebruik

De auteurs stellen een nieuw QRL-framework voor dat drie kerncomponenten integreert: een QMDP-formulering, dynamische circuit-executie en Grover-gebaseerde amplitude-versterking.

A. Dynamische Circuit-executie (Mid-Circuit Measurement & Reset)

In plaats van een statisch, "ontrollend" circuit (waarbij elke tijdstap nieuwe qubits toevoegt), gebruikt het voorgestelde model dynamische circuits:

Middencircuit-meting: Na elke interactiestap worden de qubits die de huidige toestand, actie, volgende toestand en beloning coderen, gemeten.
Reset en Hergebruik: De gemeten qubits worden direct gereset naar de grondtoestand ( $|0\rangle$ ) en hergebruikt voor de volgende stap.
Toestandsvoortplanting: De uitkomst van de meting (de nieuwe toestand) wordt klassiek opgeslagen en via CNOT-poorten teruggevoerd naar de qubit-register om de starttoestand van de volgende stap te initialiseren.
Resultaat: Een vast aantal fysieke qubits (in dit geval 7) wordt gebruikt voor een willekeurig groot aantal stappen $T$ . De complexiteit verandert van $O(T)$ naar $O(1)$ .

B. Quantum Markov Decision Process (QMDP) Implementatie

Encoding: Toestanden en acties worden gecodeerd in superpositie (via Hadamard-poorten).
Transities: De overgangskansen van het MDP worden geïmplementeerd via gecontroleerde rotaties ( $R_y(\theta)$ ) die de klassieke waarschijnlijkheden vertalen naar quantum-amplitudes.
Beloning: Een dedicated qubit registreert de beloning, die later wordt opgeteld in een "return-register" via quantum-aritmetiek.

C. Grover-gebaseerde Trajecto-optimalisatie

Na het genereren van trajectoires en het coherent accumuleren van de totale beloning (return) in een register, wordt Grover's algoritme toegepast:

Oracle: Een quantum-oracle markeert de toestanden in de superpositie die overeenkomen met de maximale return (optimale trajectoires).
Amplitude-versterking: Door herhaaldelijk de oracle en een diffusie-operator toe te passen, wordt de waarschijnlijkheid van het meten van de optimale trajectoires kwadratisch verhoogd ten opzichte van een klassieke zoektocht.
Dit vereenvoudigt het beleidsoptimalisatieproces tot één quantum-proces zonder klassieke tussenkomst.

3. Belangrijkste Bijdragen

Paradigmaverschuiving in Resource-scaling: Het bewijs dat de lineaire groei van qubit-vereisten geen inherent kenmerk is van QMDPs, maar een gevolg van statische circuitconstructie.
Correctheidbehoudend Qubit-hergebruik: Het introduceren van een dynamisch uitvoeringsmodel dat exact dezelfde trajectoiredistributie en optimale beleidsstructuur produceert als de statische versie, maar met een constant aantal qubits.
Integratie van Grover in Dynamische Circuits: Het unificeren van trajectoie-evaluatie en beleidsidentificatie in één quantum-native proces, waarbij Grover's algoritme direct op de dynamisch gegenereerde data werkt.
NISQ-compatibiliteit: Een architectuur die specifiek is ontworpen voor huidige hardware-beperkingen, waarbij de trade-off tussen decoherentie en reset-fouten wordt beheerd.

4. Resultaten en Experimenten

De auteurs hebben het framework getest via simulaties en op echte hardware.

Simulatie (IBM Qiskit Aer):
- Een 3-staps QMDP werd gesimuleerd.
- Qubit-reductie: Het dynamische model gebruikte 7 qubits, terwijl de statische baseline 21 qubits ( $7 \times 3$ ) vereiste. Dit is een reductie van 66%.
- Fideliteit: De gegenereerde trajectoires, overgangskansen en optimale beleidsstrategieën waren identiek aan die van de statische versie.
Hardware-experiment (IBM Heron Processor - ibm_toronto):
- Het circuit werd uitgevoerd op een 133-qubit supergeleidende processor.
- Uitdagingen: Er werden vertragingen (delays) toegevoegd tussen meting en reset om hardware-timing-problemen en readout-stabilisatie te compenseren.
- Uitkomst: Ondanks ruis en fouten op de hardware, werden de optimale trajectoires (T-151 en T-143, met de maximale return '1000') succesvol gedetecteerd en versterkt door Grover's algoritme. De resultaten kwamen overeen met de theoretische voorspellingen, hoewel met een lagere frequentie door hardware-ruis.

5. Betekenis en Conclusie

Dit werk markeert een doorbraak in de haalbaarheid van volledig quantum versterkend leren op korte termijn hardware.

Schaalbaarheid: Het doorbreekt de "qubit-muur" die langere planninghorizons onmogelijk maakte op NISQ-apparaten.
Efficiëntie: Het toont aan dat middencircuit-metingen en resetten niet alleen een techniek voor foutcorrectie zijn, maar een fundamentele architecturale keuze kunnen zijn om rekenkracht te maximaliseren binnen beperkte hardware.
Toekomstperspectief: Hoewel ruis en foutaccumulatie bij herhaalde resets nog een uitdaging blijven voor zeer lange horizons, biedt dit framework een schaalbare basis voor de ontwikkeling van grootschalige, native quantum-RL-systemen. Het bewijst dat complexe besluitvormingsproblemen kunnen worden opgelost zonder dat het aantal fysieke qubits lineair moet groeien met de complexiteit van het probleem.