Layer-wise QUBO-Based Training of CNN Classifiers for Quantum Annealing

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om foto's te herkennen. Bijvoorbeeld: is dit een kat of een hond? Of: is dit een cijfer 7 of een cijzer 1?

Normaal gesproken leer je zo'n robot door hem duizenden voorbeelden te laten zien en zijn "hersenen" (de wiskundige gewichten) beetje bij beetje aan te passen. Dit heet training.

Deze paper beschrijft een nieuwe, slimme manier om die training te doen, specifiek voor quantum-computers. Het klinkt als sciencefiction, maar het is heel praktisch. Hier is de uitleg in gewone taal, met een paar vergelijkingen.

1. Het Probleem: De Mist op de Berg

Stel je voor dat het trainen van een AI-netwerk is als het vinden van het laagste punt in een groot berglandschap. Je wilt zo laag mogelijk komen (dat is de beste oplossing).

De oude methode: Je loopt stap voor stap bergafwaarts. Maar vaak zit er mist in de lucht (de wiskunde is te complex). Je loopt vast op een plat vlak waar je niet weet welke kant op te gaan. Dit noemen wetenschappers een "barren plateau" (een vruchteloos vlak).
Quantum-probleem: Quantum-computers zijn heel goed in het vinden van het laagste punt, maar ze kunnen alleen een heel specifiek soort puzzel oplossen. De normale manier waarop AI's leren, past niet in dat puzzel.

2. De Oplossing: Een Vaste Camera en een Nieuwe Puzzel

De auteurs van dit paper hebben een truc bedacht om dit op te lossen. Ze gebruiken drie hoofdideeën:

A. De Vaste Camera (Frozen Filters)

Stel je voor dat je een camera hebt die foto's maakt. In een normaal AI-netwerk leer je de camera om de foto's scherper te maken terwijl je de labels leert.
In deze methode zeggen ze: "Laten we de camera instellingen vastzetten."
Ze nemen een camera (het convolutie-netwerk) die willekeurig is ingesteld en veranderen die nooit meer. Ze gebruiken de foto's die deze camera maakt, en trainen alleen de persoon die de foto's bekijkt en er een label op plakt (de classificatie-laag).

Vergelijking: Het is alsof je een fabriek hebt. De machines die de onderdelen maken (de camera) zijn al klaar. Jij hoeft alleen de werknemers te trainen om de onderdelen in de juiste doos te doen. Dit maakt het wiskundige probleem veel simpeler.

B. De Vlakke Schuif (Quadratic Surrogate)

De wiskunde die AI's normaal gebruiken om te leren (cross-entropy loss) is erg krom en hobbelig. Quantum-computers houden van gladde, ronde vormen.
De auteurs zeggen: "Laten we die hobbelige berg vervangen door een gladde kom."
Ze gebruiken een wiskundige vervanging (een 'surrogaat') die eruitziet als een kom. Als je een bal in zo'n kom rolt, glijdt hij vanzelf naar de bodem. Dit is een puzzel die een quantum-computer (een 'quantum annealer') perfect kan oplossen.

Vergelijking: In plaats van een steile, rotsachtige wand te beklimmen, bouwen we een glijbaan. Het doel is hetzelfde (naar beneden), maar de weg is makkelijker voor de machine.

C. De Puzzel Opsplitsen (Per-Output Decomposition)

Stel je moet een grote, ingewikkelde legpuzzel maken. Dat duurt lang.
De auteurs splitsen de puzzel op. In plaats van één grote puzzel voor alle cijfers (0 t/m 9), maken ze 10 kleine puzzels.

Vergelijking: In plaats van één grote groep mensen die één groot bordspel spelen, geef je aan elke speler zijn eigen kleine bordspel. Ze kunnen allemaal tegelijk spelen, en het is veel sneller op te lossen.

3. De Precisie: Hoe fijn is je liniaal?

Om de antwoorden te geven, moet de quantum-computer getallen in binaire code zetten (enen en nullen).

5 bits: Dit is als een liniaal met alleen grote streepjes. Je kunt niet precies meten. De resultaten waren slecht.
20 bits: Dit is als een liniaal met heel fijne streepjes. Je kunt heel precies meten. De resultaten waren veel beter.
De paper laat zien dat je minimaal 10 bits nodig hebt om goed te werken, maar 20 bits geeft de beste resultaten.

4. Wat is het Resultaat?

Ze hebben dit getest op zes verschillende datasets (zoals MNIST, wat cijfers zijn, en Fashion-MNIST, wat kleding is).

Snelheid: Op dit moment hebben ze een simulatie gebruikt (een gewone computer die doet alsof hij een quantum-computer is). Dat is nog langzaam.
Kwaliteit: Op sommige tests deed deze methode het beter dan de standaard methoden die we nu gebruiken.
Toekomst: De methode is zo ontworpen dat hij straks direct op een echte quantum-chip (zoals die van D-Wave) kan worden gezet. Omdat ze de "camera" vastzetten, is de puzzel klein genoeg om op de huidige quantum-hardware te passen.

Samenvatting in één zin

De auteurs hebben een manier bedacht om een AI te trainen die de zware wiskunde vervangt door een simpele, gladde puzzel die quantum-computers kunnen oplossen, door de "camera" van de AI vast te zetten en alleen de "labeler" te leren.

Waarom is dit belangrijk?
Het is een brug tussen de AI van vandaag en de quantum-computers van morgen. Het laat zien dat we AI niet hoeven te laten wachten tot quantum-computers heel groot zijn; we kunnen ze nu al gebruiken voor specifieke, slimme onderdelen van het leerproces.

Each language version is independently generated for its own context, not a direct translation.

Titel: Layer-wise QUBO-gebaseerde training van CNN-classifiers voor Quantum Annealing

Auteurs: Mostafa Atallah en Rebekah Herrman
Affiliatie: Universiteit van Tennessee - Knoxville & Cairo University
Publicatiedatum: Maart 2026 (arXiv)

1. Probleemstelling

Het paper adresseert de uitdagingen bij het toepassen van Quantum Machine Learning (QML) voor beeldclassificatie. Bestaande methoden hebben significante beperkingen:

Variational Quantum Circuits (VQCs): Lijden onder "barren plateaus", waarbij de gradiënten exponentieel verdwijnen naarmate het aantal qubits groeit, wat optimalisatie ondoenlijk maakt.
Quantum Kernel Methods: Schalen kwadratisch met de datasetgrootte ( $O(N^2)$ ), wat onpraktisch is voor grote datasets.
Neurale Netwerk Training: De cross-entropy loss is niet-kwadratisch en niet-convex, waardoor deze niet direct kan worden gemapt naar een Quadratic Unconstrained Binary Optimization (QUBO) probleem, de native taal van quantum annealers.
Bestaande QUBO-aanpakken: Methoden zoals SVM in QUBO-formulering schalen met het aantal trainingsvoorbeelden, niet met het model, wat beperkend is voor grote datasets.

2. Methodologie

De auteurs stellen een iteratief framework voor om de classifier-head (fully connected layer) van een Convolutional Neural Network (CNN) te trainen via quantum annealing, zonder gebruik van gradiëntgebaseerde circuitoptimalisatie.

Extreme Learning Machine (ELM) Paradigma:
- De convolutionele filters worden willekeurig geïnitieerd en bevroren (niet getraind).
- Alleen de fully connected (FC) laag wordt geoptimaliseerd.
- Dit ontkoppelt feature-extractie (klassiek) van classifier-optimalisatie (via QUBO).
Quadratische Surrogaat:
- De niet-kwadratische cross-entropy loss wordt vervangen door een convex kwadratisch surrogaat gebaseerd op de Gram-matrix ( $G = \frac{1}{N}X^T X$ ).
- Dit maakt het probleem geschikt voor QUBO-formulering.
- De Gram-matrix is iteratie-stabiel (afhankelijk van features, niet van voorspellingen) en wordt slechts één keer berekend.
Per-Output Decompositie:
- Het C-klassen classificatieprobleem wordt opgesplitst in $C$ onafhankelijke QUBO's (één per output-neuron).
- De grootte van het probleem hangt af van de feature-dimensie ( $d$ ) en bit-precisie ( $K$ ), niet van het aantal trainingsvoorbeelden ( $N$ ).
- Formule: Elk QUBO heeft $(d+1)K$ binaire variabelen.
Binary Encoding:
- Continue gewichtsupdates worden gedigitaliseerd met symmetrische signed encoding.
- Variabele precisie ( $K$ ) bepaalt de resolutie van de updates.
Solver:
- Alle experimenten gebruiken Simulated Annealing (SA) om een baseline te leggen voor directe implementatie op quantum hardware (zoals D-Wave).

3. Belangrijkste Bijdragen

Iteratieve Gram-matrix QUBO Surrogaat: Vervangt de niet-kwadratische loss door een convex kwadratisch probleem dat geschikt is voor quantum annealing, waardoor training vanaf willekeurige initialisatie mogelijk is.
Per-Output Decompositie: Reduceert de QUBO-grootte van $(d+1)CK$ naar $C$ onafhankelijke problemen van $(d+1)K$ variabelen. Dit schaal met het model, niet met de dataset.
Empirisch Precisie-onderzoek: Identificeert een minimum levensvatbare bit-precisie ( $K \geq 10$ ) voor effectieve training.
Multi-Dataset Benchmark: Valideert de methode op zes beeldclassificatie-benchmarks onder een "frozen-feature" setting.

4. Resultaten

De methode is getest op zes datasets (sklearn digits, MNIST, Fashion-MNIST, CIFAR-10, EMNIST, KMNIST), allemaal gedownsampled naar 8x8 pixels.

Bit-Precisie:
- 5-bit: Faalt (te grove updates, ~33% nauwkeurigheid).
- 10-bit: Minimum voor concurrerende resultaten.
- 20-bit: Bereikt de beste prestaties.
Nauwkeurigheid (Accuracy):
- Op MNIST (20-bit): 81.3% (QUBO) vs 78.2% (Klassieke SGD).
- Op Fashion-MNIST (20-bit): 53.4% (QUBO) vs 52.1% (Klassieke SGD).
- Op EMNIST (20-bit): Gelijk aan klassieke baseline.
- Op CIFAR-10 en KMNIST: Concurrerend, maar iets lager dan klassiek (door de beperkingen van 8x8 resolutie en 2 filters).
Hardware Geschiktheid:
- De 20-bit formulering (380 logische qubits per QUBO) past binnen de capaciteit van D-Wave Advantage (5.640 fysieke qubits), hoewel de dichte connectiviteit (72.010 koppelingen) minor-embedding vereist.
- De 15-bit formulering past binnen de fysieke koppelinglimieten van de huidige Pegasus-topologie.
Trainingstijd:
- QUBO-training is 100-400x langzamer dan klassieke SGD (gebruikmakend van SA). Echter, dit dient als baseline voor potentieel quantum speedup via tunneling.

5. Betekenis en Conclusie

Dit werk biedt een haalbare route voor het trainen van neurale netwerken op quantum annealers zonder last te hebben van barren plateaus.

Voordelen:
- Gradiënt-vrije optimalisatie (immune voor barren plateaus).
- Schaalbaarheid onafhankelijk van datasetgrootte ( $N$ ).
- Werkt met huidige quantum hardware (D-Wave) binnen bepaalde precisie- en connectiviteitslimieten.
Beperkingen:
- Gebruikt bevroren convolutionele filters (ELM), wat de representatiekracht beperkt ten opzichte van volledig getrainde CNN's.
- Beeldresolutie is beperkt tot 8x8 om de QUBO-grootte beheersbaar te houden.
- Experimenten zijn uitgevoerd met Simulated Annealing; prestaties op echte quantum hardware moeten nog worden bevestigd.
Toekomstperspectief:
- Validatie op echte quantum annealing hardware.
- Adaptieve bit-precisie (beginnen met lage $K$ en verhogen).
- Uitbreiding naar end-to-end training van convolutionele lagen.

Conclusie: De auteurs tonen aan dat QUBO-gebaseerde training van CNN-classifier heads een competitief alternatief is voor klassieke SGD, mits er voldoende bit-precisie wordt gebruikt en de beperkingen van de hardware worden gerespecteerd. Het biedt een stabiele basis voor toekomstige implementaties op quantum annealers.