⚛️ quantum physics

Planted-solution SAT and Ising benchmarks from integer factorization

Dit artikel introduceert een nieuwe familie van verifieerbare benchmarkproblemen voor SAT-oplossers en Ising-optimatie, die zijn afgeleid van priemgetallenfactorisatie en een exponentiële toename in rekentijd tonen naarmate de grootte van de factoren groeit.

Oorspronkelijke auteurs: Itay Hen

Gepubliceerd 2026-04-14

📖 4 min leestijd🧠 Diepgaand

CC BY 4.0

Oorspronkelijke auteurs: Itay Hen

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

De "Gouden Sleutel" voor het testen van slimme computers

Stel je voor dat je een enorme, onbreekbare kluis hebt. Om hem te openen, moet je de juiste sleutel vinden. In de wereld van computers is deze "sleutel" een getal dat is gemaakt door twee grote priemgetallen met elkaar te vermenigvuldigen. Het is een bekend raadsel: het is makkelijk om twee getallen te vermenigvuldigen, maar ongelooflijk moeilijk om het resultaat weer terug te breken in die twee oorspronkelijke getallen.

Dit artikel introduceert een nieuwe manier om te testen hoe goed computers (en hun slimme algoritmen) zijn in het oplossen van dit soort raadsels. De auteur, Itay Hen, heeft een reeks van "opzettelijke puzzels" gemaakt.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Puzzel: Een Rekenmachine als Raadsel

Normaal gesproken zijn puzzels voor computers ofwel willekeurig (zoals een doolhof zonder plan) ofwel te makkelijk. De auteur doet iets anders: hij pakt twee geheime getallen (laten we ze P en Q noemen) en vermenigvuldigt ze tot een groot getal N.

Vervolgens vertaalt hij de rekenregels die nodig zijn om N te maken, naar een taal die computers begrijpen (een soort logische code).

Het idee: De computer moet de code oplossen om terug te vinden welke P en Q er zijn gebruikt.
De truc: De auteur weet al wat P en Q zijn. Dit is de "geplante oplossing". Het is alsof de maker van een kruiswoordraadsel het antwoord al in zijn zak heeft. Zo kan hij precies zien of de computer het goed heeft gedaan.

2. De "Carry" (Het Overdragen van Getallen)

Wanneer je twee grote getallen handmatig vermenigvuldigt, gebruik je de "overdracht" (in het Engels: carry). Als je 7 x 8 doet, krijg je 56. Je schrijft de 6 op en de 5 "draag je over" naar de volgende kolom.

In deze puzzel gebeurt dit op een heel speciaal manier:

Elke keer dat er een getal wordt "overgedragen", creëert het een nieuw logisch probleem voor de volgende kolom.
Dit zorgt voor een kettingreactie. Een kleine verandering in het eerste getal kan een golf van veranderingen veroorzaken die helemaal naar het einde van de berekening doorgaat.
De analogie: Stel je een lange rij mensen voor die een emmer water doorgeven. Als de eerste persoon een beetje water mors, moet de tweede persoon dat opvangen, wat weer invloed heeft op hoeveel water de derde persoon krijgt, enzovoort. Bij deze puzzel wordt de "mors" (de overdracht) steeds groter naarmate de rij langer wordt.

3. Waarom is dit zo moeilijk? (De Explosie van Complexiteit)

De auteur ontdekte iets fascinerends over de grootte van deze puzzels:

Als je de getallen d cijfers lang maakt, groeit de moeilijkheid niet lineair, maar als een vierkante piramide (in feite tot de macht 4).
Vergelijking: Als je de puzzel 2 keer zo groot maakt, wordt hij niet 2 keer, maar 16 keer zo zwaar.
Dit komt door die kettingreactie van de "overdrachten". De computer moet niet alleen naar het begin kijken, maar naar alles wat er in het midden gebeurt, omdat alles met elkaar verbonden is.

4. De Testresultaten

De auteur heeft deze puzzels voorgelegd aan de slimste computers ter wereld (de zogenaamde SAT-solvers).

Het resultaat: De computers deden het goed, maar naarmate de getallen langer werden, duurde het oplossen exponentieel langer.
De conclusie: Elke extra cijfer in het getal verdubbelde ongeveer de tijd die de computer nodig had. Dit bevestigt dat deze puzzels echt moeilijk zijn en perfect zijn om de grenzen van huidige technologie te testen.

5. Twee Gezichten, Eén Probleem

Het mooie aan deze methode is dat ze twee vormen heeft:

De Logische Vorm (SAT): Voor traditionele computers die logisch redeneren.
De Energievorm (Ising): Voor geavanceerde quantumcomputers en speciale machines die zoeken naar de "laagste energietoestand" (alsof een bal die van een heuvel rolt om op het laagste punt te stoppen).

Omdat de auteur precies weet wat het antwoord is, kan hij beide soorten computers op dezelfde puzzel testen en zien welke het snelst is.

Samenvattend

Dit artikel presenteert een nieuwe, zeer gestructureerde manier om computers te testen. Het is als het bouwen van een reeks van steeds zwaardere bergbeklimmingen, waarbij de maker precies weet hoe hoog de top is. Door te kijken hoe snel de klimmers (de computers) de top bereiken, kunnen wetenschappers beter begrijpen waar de grenzen liggen van wat computers vandaag de dag kunnen, en wat ze in de toekomst misschien kunnen.

Het is een brug tussen de wiskunde van getallen, de logica van computers en de fysica van quantummechanica, allemaal verpakt in een test die je kunt controleren met een simpele rekenmachine.

Probleemstelling

Het benchmarken van satisfiability (SAT) en optimalisatie-oplossers vereist probleeminstanties die drie eigenschappen tegelijk vertonen: realistische structuur, systematische schaalbaarheid en een verifieerbare "ground truth" (de bekende oplossing). Bestaande methoden hebben hierin tekortkomingen:

Willekeurige ensemble's (zoals uniform random k-SAT) zijn schaalbaar en moeilijk bij de drempelwaarde, maar missen een ingebouwde oplossing om de output van de solver te valideren.
Handgemaakte instanties uit competitiebibliotheken hebben structuur, maar bieden vaak geen gecontroleerde, single-parameter schaalbaarheid van de moeilijkheidsgraad.
Bestaande "planted-solution" (ingebouwde oplossing) constructies zijn vaak gebaseerd op willekeurige disordere of algebraïsche planting, en missen de deterministische, lange-afstands-correlaties die kenmerkend zijn voor veel reële computationele problemen.

Het doel van dit werk is het introduceren van een nieuwe klasse van benchmark-instanties die deze gaten opvult door gebruik te maken van de deterministische structuur van gehele getallen factorisatie.

Methodologie

De auteurs presenteren een pipeline die de rekenkundige beperkingen van het vermenigvuldigen van twee priemgetallen $p$ en $q$ (waarbij $N = p \times q$ ) vertaalt naar een constraint satisfaction probleem.

Constructie van de CNF-formule:
- Gegeven twee priemgetallen $p$ en $q$ met bitlengte $d$ , wordt het product $N$ berekend.
- De binaire vermenigvuldiging wordt gemodelleerd als een schakelkring. Elke kolom in de vermenigvuldigingstabel bevat partiële producten ( $p_i \land q_j$ ).
- Wanneer een kolom meer dan één entiteit bevat, worden deze samengevoegd (gecontracteerd) met half-adders. Dit genereert sommen (XOR) en carries (AND).
- De carries propageren naar de volgende kolommen, wat leidt tot een cascade-effect.
- De bits van het bekende product $N$ worden gebruikt om de uitkomsten van de kolommen te "pinnen" (vastzetten op True of False).
- Het resultaat is een Conjunctive Normal Form (CNF) formule waarbij de bevredigende toewijzingen overeenkomen met geldige factorisaties van $N$ .
Booleaanse Preprocessing:
- Voordat de formule naar DIMACS CNF wordt geconverteerd, ondergaat het systeem een iteratieve logische vereenvoudiging.
- Dit omvat het verspreiden van gepinde waarden, het vereenvoudigen van AND/XOR-clausules (bijv. $0 \land x = 0$ ), en het samenvoegen van equivalente variabelen.
- Dit reduceert het aantal variabelen en clausules aanzienlijk, vooral bij kleinere $d$ , maar behoudt de fundamentele structuur.
Ising-Compilatie:
- Voor klassieke en kwantume optimalisatie wordt het residu-systeem omgezet in een kwadratische Ising-Hamiltoniaan.
- Booleaanse variabelen worden gemapt naar spins ( $s_i \in \{-1, +1\}$ ).
- Logische constraints (AND en XOR) worden vertaald naar "energy gadgets" (straftermen) die nul zijn voor geldige oplossingen en positief voor onjuiste.
- XOR-constraints vereisen een extra hulp-spin om kwadratisch te blijven.

Belangrijkste Bijdragen en Theoretische Resultaten

Schaalbaarheid ( $\Theta(d^4)$ ):
De auteurs leiden exacte gesloten-vorm uitdrukkingen af voor de grootte van de instanties. Ze bewijzen dat het totale aantal contracties (en dus het aantal variabelen en clausules) schaalt als $O(d^4)$ .
- Oorzaak: Het cascade-effect van de carries. Elke contractie genereert een carry die naar de volgende kolom gaat, wat daar extra contracties vereist. Dit creëert een positieve feedback-lus. De populatie van entiteiten in een kolom groeit kwadratisch met de kolomindex, en het sommeren over $\sim d^2$ actieve kolommen resulteert in een quartische totale groei.
- Dit onderscheidt de instanties fundamenteel van willekeurige SAT-problemen.
Lange-afstands-correlaties:
Door de carry-propagatie zijn variabelen die ver uit elkaar liggen in de vermenigvuldigingstabel (tot op afstand $O(d^2)$ ) met elkaar verbonden. Dit creëert een complexe, niet-lokale interactiestructuur die moeilijk te ontwarren is voor standaard heuristieken.
Verifieerbare Ground Truth:
Omdat de constructie begint met de bekende priemgetallen $(p, q)$ , is de oplossing per definitie bekend. Dit maakt het mogelijk om de output van elke solver exact te verifiëren, wat essentieel is voor betrouwbare benchmarks.
Dual Representatie:
Dezelfde probleeminstantie kan direct worden gebruikt voor SAT-oplossers (via DIMACS CNF) én voor Ising-optimalisatoren (klassiek of kwantum), wat cross-platform vergelijkingen mogelijk maakt.

Empirische Resultaten

De auteurs hebben de benchmark getest met twee state-of-the-art SAT-oplossers (Kissat 3.0 en CaDiCaL 1.5) voor priemgetallen met bitlengtes $d$ van 8 tot 27.

Exponentiële Groei: De mediane runtime van de oplossers groeit exponentieel met de bitlengte $d$ $d$ .
- De relatie wordt beschreven als $T_{median} \sim 2^{\beta d}$ , waarbij $\beta \approx 1$ .
- Dit betekent dat elke extra bit de runtime ongeveer verdubbelt.
Structuur-gedreven Moeilijkheid: De twee oplossers vertonen bijna identieke schalingsgedragingen, wat suggereert dat de moeilijkheid wordt bepaald door de inherente structuur van de vermenigvuldigingskring (de lange-afstands-correlaties) en niet door solver-specifieke heuristieken.
Praktische Implicatie: Bij $d=27$ (waarbij $N \approx 10^{16}$ ) bereiken de runtimes al $\sim 10^4$ seconden. Dit suggereert dat instanties met $d \geq 35-40$ een zware test zullen vormen voor moderne CDCL-solvers.

Betekenis en Toekomstperspectief

Deze benchmark-familie vult een cruciale lacune in het onderzoeksveld:

Controleerbaarheid: Het biedt een manier om de prestaties van oplossers te testen op gestructureerde, niet-willekeurige problemen met een bekende oplossing.
Kwantum- en Klassieke Optimalisatie: De Ising-vertaling maakt het een ideale testbed voor quantum annealers en klassieke optimalisatie-algoritmen, waarbij de "ground state" exact bekend is.
Inzicht in Solver-gedrag: De resultaten tonen aan dat zelfs voor problemen die deterministisch zijn opgebouwd (zoals vermenigvuldiging), de carry-cascades leiden tot een complexiteit die voor huidige oplossers exponentieel schaalt.

De auteurs hebben de volledige generatie-software open-source beschikbaar gesteld, waardoor onderzoekers eenvoudig instanties kunnen genereren voor verschillende waarden van $d$ om de schaalbaarheid van nieuwe algoritmen te testen. Dit werk legt de basis voor een nieuwe standaard in het benchmarken van constraint satisfaction en optimalisatieproblemen.