⚛️ quantum physics

Quantum framework for Reinforcement Learning: Integrating Markov decision process, quantum arithmetic, and trajectory search

Dit artikel introduceert een volledig kwantumbaseerd raamwerk voor versterkend leren dat klassieke Markov-beslissingsprocessen, kwantumarithmetiek en trajectzoekalgoritmen integreert om agent-omgevinginteracties uitsluitend binnen het kwantumdomein te optimaliseren en zo een rekenkundige verbetering te realiseren.

Oorspronkelijke auteurs: Thet Htar Su, Shaswot Shresthamali, Masaaki Kondo

Gepubliceerd 2026-04-23

📖 4 min leestijd🧠 Diepgaand

CC BY 4.0

Oorspronkelijke auteurs: Thet Htar Su, Shaswot Shresthamali, Masaaki Kondo

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een enorme doolhof moet doorlopen om de snelste route naar een schat te vinden. In de wereld van kunstmatige intelligentie heet dit Versterkend Leren (Reinforcement Learning). Een 'agent' (zoals een robot of een zelfrijdende auto) probeert verschillende paden, maakt fouten, krijgt beloningen voor goede stappen en leert zo uiteindelijk de beste route.

Het probleem met de huidige, klassieke computers is dat ze dit doolhof één stap per keer moeten verkennen. Als het doolhof heel groot is (met miljoenen mogelijke routes), duurt het eeuwen om de perfecte route te vinden. Ze moeten alles één voor één uitproberen, alsof ze elke deur in een kasteel één voor één openen.

Deze paper introduceert een kwantumbasis voor dit proces. Het is alsof we de regels van de fysica veranderen en de agent een kwantum-robot maken. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Kwantum-Magie: Superpositie (Het "Alles Tegelijk"-Principe)

In de klassieke wereld kun je maar op één plek tegelijk staan. In de kwantumwereld kan een deeltje (een qubit) op alle mogelijke plekken tegelijk staan. Dit noemen ze superpositie.

De Analogie: Stel je voor dat je in een doolhof staat.
- Klassieke robot: Hij loopt naar links, komt een doodlopende weg tegen, loopt terug, probeert rechts, enzovoort. Hij moet elke weg afzonderlijk testen.
- Kwantum-robot: Dankzij superpositie loopt hij alle paden tegelijk in één enkele stap. Hij ziet direct welke routes werken en welke niet, zonder ze één voor één te hoeven lopen.

2. De Interactie: Agent en Omgeving

In dit nieuwe systeem zijn zowel de robot (de agent) als de wereld om hem heen (de omgeving) volledig kwantum. Ze praten niet via klassieke signalen (zoals 0 en 1), maar via kwantumtoestanden.

De Analogie: Het is alsof de robot en de muren van het doolhof met elkaar 'verstrengeld' zijn. Als de robot een beweging maakt, verandert het hele doolhof direct in een kwantum-geest, waardoor hij direct ziet wat er gebeurt zonder te hoeven wachten op een antwoord.

3. Het Zoeken naar de Beste Route (Grover's Algoritme)

Nadat de robot alle paden tegelijk heeft verkend, moet hij nog steeds de beste route kiezen (die met de meeste beloningen). Normaal gesproken zou hij alle resultaten moeten doorzoeken.
De auteurs gebruiken een slimme kwantum-truc genaamd Grover's algoritme.

De Analogie: Stel je voor dat je in een telefoonboek van 1 miljoen namen moet zoeken naar één specifieke naam.
- Klassiek: Je bladert pagina voor pagina. Dit duurt lang.
- Kwantum (Grover): Je doet alsof je een magische luidspreker hebt die direct de naam versterkt die je zoekt, terwijl alle andere namen stil worden. In één keer (of heel weinig keren) hoor je precies wie je zoekt.
- In dit paper wordt deze truc gebruikt om de beste reisroute (de trajecten) direct uit de massa van mogelijke routes te filteren.

4. De Beloning (Return)

In het klassieke systeem moet de robot alle beloningen optellen om te zien hoe goed een route was. In dit kwantumsysteem gebeurt dit met kwantum-rekenen.

De Analogie: Het is alsof je niet elke muntstuk apart moet tellen en in een potje moet doen. In plaats daarvan gooi je alle muntstukken in een speciale kwantum-bak, en poef, de bak toont direct het totale bedrag. Dit gebeurt voor alle mogelijke routes tegelijk.

Waarom is dit belangrijk?

De auteurs hebben laten zien dat je een compleet leerproces (van het maken van stappen tot het kiezen van de beste strategie) volledig binnen de kwantumwereld kunt houden. Je hoeft niet steeds heen en weer te schakelen tussen een klassieke computer en een kwantumcomputer.

Het Resultaat: De robot leert veel sneller. Waar een klassieke computer misschien duizenden uren nodig heeft om de beste strategie te vinden in een complex spel of een zelfrijdende auto-situatie, kan deze kwantum-methode het in een fractie van de tijd doen door alles parallel te verwerken.

Samenvattend

Dit paper is als het ontwerpen van een nieuwe soort GPS voor robots.

De oude GPS (klassiek) probeert elke weg uit en zegt: "Oh, deze weg is vastgelopen, ik probeer de volgende."
De nieuwe GPS (kwantum) kijkt naar alle wegen tegelijk, ziet direct welke weg de snelste is, en zegt: "Ga deze kant op, dit is de winnende route."

Het is een grote stap in de richting van slimme machines die complexe beslissingen (zoals in de zorg, financiën of verkeer) veel sneller en efficiënter kunnen nemen dan we nu kunnen.

Titel: Kwantumkader voor Versterkend Leren: Integratie van Markov-beslissingsprocessen, kwantumrekenen en trajectzoektocht

1. Het Probleem

Versterkend leren (Reinforcement Learning - RL) is een krachtige tak van machine learning voor autonome agenten die beslissingen nemen in onzekere omgevingen. Echter, klassieke RL-benaderingen stuiten op ernstige schaalbaarheidsproblemen in omgevingen met hoge dimensionaliteit.

Computationele kosten: De ruimte van toestanden en acties groeit exponentieel met de probleemgrootte, wat klassieke RL-methoden (zoals Q-learning) uiterst rekenintensief maakt.
Beperkingen van hybride systemen: Bestaande "Quantum Reinforcement Learning" (QRL) methoden zijn vaak hybride: ze gebruiken variational quantum circuits (VQCs) voor de agent, maar houden de omgeving klassiek. Dit vereist frequente conversies tussen klassieke en kwantumsystemen, wat de prestaties beperkt en de volledige potentie van kwantumrekenen niet benut.
Behoefte: Er is een behoefte aan een volledig kwantumkader dat alle berekeningen (agent, omgeving, interacties en optimalisatie) binnen het kwantumdomein uitvoert, zonder afhankelijkheid van klassieke subroutines.

2. Methodologie

De auteurs stellen een volledig kwantumkader voor dat een klassiek Markov-beslissingsproces (MDP) volledig in het kwantumdomein implementeert. Het kader bestaat uit vier kerncomponenten:

Kwantumrepresentatie van het MDP:
- Toestanden en Acties: In plaats van klassieke bits, worden toestanden ( $S$ ) en acties ( $A$ ) gecodeerd in qubits. Door het gebruik van Hadamard-transformaties worden deze in een uniforme superpositie gebracht. Dit stelt het systeem in staat om alle mogelijke toestand-actieparen parallel te verkennen.
- Kwantum Overgangsfunctie: De overgangskansen $P(s'|s,a)$ worden gecodeerd in de amplitude van qubits. Dit wordt gedaan met behulp van gecontroleerde rotatiegaten ( $R_y(\theta)$ ), waarbij de rotatiehoek $\theta$ afhangt van de klassieke overgangswaarschijnlijkheid.
- Beloningsfunctie: Beloningen worden gemodelleerd met CNOT-gaten die een beloningsqubit omkeren afhankelijk van de resulterende toestand.
Kwantum Agent-Omgeving Interactie:
- De interactie wordt gemodelleerd als een unitaire operator die een toestand creëert die de verdeling van trajecten (sequentie van toestand, actie, volgende toestand en beloning) bevat.
- Voor meerdere tijdstappen ( $T$ ) worden CNOT-gaten gebruikt om de uitkomst van de volgende toestand ( $s'_t$ ) conditioneel over te dragen naar de huidige toestandregister van de volgende tijdstap ( $s_{t+1}$ ). Hierdoor behoudt het circuit de kwantumsuperpositie over de hele tijdsreeks.
Kwantum Berekening van de Return (Totale Beloning):
- In plaats van beloningen later klassiek op te tellen, wordt er een kwantumrekenmodule gebruikt.
- Met behulp van CNOT- en Toffoli-gaten worden de beloningsregisters van elke tijdstap opgeteld in een "return-register" ( $|g\rangle$ ). Dit proces voert een sequentiële bit-voor-bit optelling uit binnen het kwantumcircuit, waardoor de afgepaste som van beloningen voor elk traject direct in een kwantumtoestand wordt gecodeerd.
Kwantum Trajectzoektocht (Grover's Algorithm):
- Om de optimale beleidslijn te vinden, wordt Grover's zoekalgoritme toegepast op de verzameling van alle mogelijke trajecten.
- Een Oracle markeert trajecten die een maximale return opleveren door de fase van die specifieke toestanden om te draaien.
- Vervolgens wordt Amplitude Amplification toegepast om de waarschijnlijkheid van het meten van deze geoptimaliseerde trajecten te vergroten. Dit vereist slechts één (of zeer weinig) oproep(en) aan de oracle, in tegenstelling tot lineair zoeken in klassieke systemen.

3. Belangrijkste Bijdragen

Volledig Kwantum MDP: De eerste implementatie van een MDP waarbij zowel de agent als de omgeving volledig kwantum zijn, zonder klassieke tussenkomst tijdens de interactie.
Kwantum Superpositie voor Parallelisme: Het gebruik van superpositie stelt de agent in staat om duizenden interactiesequenties simultaan te evalueren, wat de sample-efficiëntie drastisch verhoogt.
Kwantum Rekenen voor Return: Een nieuwe methode om de cumulatieve beloning (return) direct in het kwantumcircuit te berekenen via kwantumrekenen, in plaats van post-processing.
Trajectoptimalisatie met Grover: De toepassing van Grover's algoritme niet alleen voor het kiezen van een enkele actie, maar voor het zoeken naar een optimaal traject over meerdere tijdstappen in een multi-state omgeving.

4. Resultaten

De auteurs hebben hun framework getest op een simulatie van een MDP met 4 toestanden en 2 acties over 3 tijdstappen (gebruikmakend van IBM Qiskit).

Validatie: De kwantumcircuit-simulatie reproduceerde nauwkeurig de overgangswaarschijnlijkheden en beloningsstructuren van het equivalente klassieke MDP.
Optimalisatie: Bij het zoeken naar trajecten die starten bij $s_0$ en eindigen bij de terminale toestand $s_3$ , identificeerde Grover's algoritme succesvol de trajecten met de maximale return (8 punten).
Vergelijking met Klassiek RL: De optimale trajecten gevonden door het kwantumkader kwamen exact overeen met die gevonden door klassiek Q-learning. Echter, het kwantumkader bereikte dit resultaat met aanzienlijk minder iteraties en computercosts door het gebruik van parallelle verwerking en de snelle zoektocht van Grover.
Flexibiliteit: In een scenario waarbij de starttoestand onbekend was (elke toestand mogelijk), kon het kwantumkader eveneens de optimale trajecten (met maximale return 9) efficiënt identificeren, wat de robuustheid van de methode aantoont.

5. Betekenis en Toekomstperspectief

Dit werk markeert een belangrijke stap in de evolutie van Quantum Reinforcement Learning (QRL):

Eliminatie van Klassieke Bottlenecks: Door alle berekeningen kwantum te houden, worden de kosten en latentie van data-uitwisseling tussen klassieke en kwantumsystemen volledig geëlimineerd.
Computationele Voorsprong: Het kader demonstreert een potentieel voor kwantumversnelling (quantum speedup) in het oplossen van complexe beslissingsproblemen, vooral in scenario's met grote zoekruimtes.
Toepassingen: De auteurs wijzen op praktische toepassingen in autonoom rijden (parallelle evaluatie van routes), gepersonaliseerde gezondheidszorg (parallelle evaluatie van behandelplannen) en financieel portefeuillebeheer.
Toekomstig Onderzoek: De auteurs suggereren dat toekomstig werk zich moet richten op het schalen naar grotere MDP's, het optimaliseren van het qubit-gebruik (hergebruik van qubits) en het ontwikkelen van zoekalgoritmen die geen voorafgaande kennis van de maximale return vereisen.

Samenvattend biedt dit artikel een robuust, volledig kwantumkader dat de principes van versterkend leren herdefinieert binnen de kwantummechanica, en bewijst dat kwantumrekenen een haalbare en efficiëntere route kan zijn voor complexe beslissingsproblemen dan klassieke methoden.