Minor Embedding for Quantum Annealing with Reinforcement Learning

Dit artikel presenteert een Reinforcement Learning-benadering met Proximal Policy Optimization voor het efficiënt oplossen van het minor embedding-probleem bij kwantum-annealing, waarbij het model succesvol schaalbare en aanpasbare oplossingen toont voor diverse probleemgrafieken op moderne hardware-topologieën zoals Zephyr.

Riccardo Nembrini, Maurizio Ferrari Dacrema, Paolo Cremonesi

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🧩 De Grote Puzzel: Hoe we een computer helpen om te dromen

Stel je voor dat je een enorme, ingewikkelde puzzel hebt. Je wilt deze oplossen met een heel speciale soort computer: een Quantum Annealer. Deze computer is als een genie dat kan "dromen" om het beste antwoord te vinden voor moeilijke problemen, zoals het plannen van een logistieke route of het ontwerpen van een nieuw medicijn.

Maar er is een probleem: deze quantum-computer is een beetje als een ouderwetse, starre speelgoeddoos. Hij heeft vaste vakjes (qubits) die op een heel specifiek patroon liggen. Sommige vakjes kunnen met elkaar praten, maar andere niet.

De problemen die we willen oplossen (zoals die logistieke route) zijn echter als een losse hoop blokken die overal met elkaar verbonden moeten kunnen zijn. Ze passen niet in de starre doos van de computer.

De Oplossing: "Minor Embedding" (De Kunst van het Inprikken)

Om het probleem in de computer te krijgen, moeten we het "inpassen". Dit heet Minor Embedding.

  • De uitdaging: Als twee blokken in je probleem met elkaar moeten praten, maar in de computer zitten ze niet naast elkaar, dan moet je een "brug" bouwen. Je gebruikt meerdere blokken in de computer om één blok in je probleem te vertegenwoordigen. Je koppelt ze aan elkaar met een sterke lijm (koppeling), zodat ze als één geheel gedragen.
  • Het probleem: Dit inpassen is een nachtmerrie voor de computer. Het kost meer tijd om de puzzel in de doos te krijgen dan om de puzzel daadwerkelijk op te lossen! De oude methodes zijn als een trage, stijve robot die probeert de blokken erin te duwen. Soms lukt het, soms niet, en vaak gebruikt hij veel te veel blokken (wat de computer verwarrend maakt).

De Nieuwe Helden: Een Leerling met Reinforcement Learning

De auteurs van dit paper hebben een nieuwe aanpak bedacht. In plaats van een stijve robot, hebben ze een Leerling gemaakt die leert door te proberen. Dit noemen ze Reinforcement Learning (Versterkend Leren).

  • Hoe werkt het? Stel je voor dat je een kind leert een kamer in te richten.
    • De Leerling (de AI-agent) kijkt naar de kamer (de quantum-computer) en de meubels (het probleem).
    • Hij probeert een meubel ergens neer te zetten.
    • Beloning: Als hij slim kiest en de kamer blijft overzichtelijk, krijgt hij een puntje. Als hij de kamer volstopt met meubels die niet nodig zijn, krijgt hij een klein strafje.
    • Straf: Elke stap die hij zet kost tijd. Dus hij leert snel om de kamer zo efficiënt mogelijk in te richten.
  • De methode: Ze gebruikten een slimme versie van deze leerling genaamd PPO (Proximal Policy Optimization). Deze leerling probeert, faalt, leert van zijn fouten en probeert het opnieuw, tot hij een perfecte indeling heeft gevonden.

Het Experiment: Oude vs. Nieuwe Speelgoeddozen

De onderzoekers testten hun leerling op twee soorten quantum-computers:

  1. Chimera: De "oude" speelgoeddoos. De blokken hierin hebben maar een paar buren (maximaal 6). Het is hier lastig om alles met elkaar te verbinden zonder een enorm wirwar van bruggen te bouwen.
  2. Zephyr: De "nieuwe", moderne speelgoeddoos. Hier hebben de blokken veel meer buren (tot wel 20). Het is hier makkelijker om bruggen te bouwen.

Wat ontdekten ze?

  • Op de oude doos (Chimera): De leerling deed het redelijk bij kleine puzzels, maar bij grote, ingewikkelde puzzels raakte hij in de war. Hij maakte veel fouten en gebruikte soms veel te veel blokken. Het was alsof hij probeerde een kasteel te bouwen in een krappe slaapkamer.
  • Op de nieuwe doos (Zephyr): Hier was de leerling een ster! Omdat de blokken meer buren hebben, kon hij de puzzel veel makkelijker en efficiënter inpassen. Hij slaagde bijna altijd en gebruikte weinig blokken.

De Magische Truc: "Data Augmentation" (De Spiegels)

Er was nog een slimme truc. De leerling had moeite om te begrijpen dat een kamer die gedraaid of gespiegeld is, eigenlijk nog steeds dezelfde kamer is.

  • De truc: Tijdens het leren lieten ze de leerling de kamer in verschillende hoeken zien (gedraaid, gespiegeld, etc.).
  • Het resultaat: Bij willekeurige, chaotische puzzels hielp dit enorm. De leerling werd flexibeler en leerde de "essentie" van het probleem, in plaats van alleen de specifieke positie van de blokken. Bij de zeer strakke, volgepropte puzzels (waar alles met alles verbonden is) hielp deze truc minder, maar bij de losse puzzels was het een game-changer.

Conclusie: Wat betekent dit voor de toekomst?

Dit onderzoek laat zien dat we niet hoeven te wachten tot quantum-computers perfect zijn. We kunnen slimme AI-agenten gebruiken om de brug te slaan tussen onze complexe problemen en de beperkte hardware.

  • De les: De nieuwe quantum-computers (Zephyr) zijn veel beter geschikt voor deze slimme leerling.
  • De toekomst: Hoewel de huidige leerling (die een simpele hersenstructuur heeft) al goed werkt, denken de onderzoekers dat de volgende generatie leerlingen, die specifiek zijn gebouwd om patronen te zien (zoals "Graph Neural Networks"), nog veel slimmer zullen worden.

Kortom: We hebben een slimme, lerende assistent gevonden die helpt om de quantum-computers van morgen veel sneller en efficiënter te gebruiken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →