QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Each language version is independently generated for its own context, not a direct translation.

De Quantum-Kookwedstrijd: Waarom AI nog steeds worstelt met verschillende keukens

Stel je voor dat je een enorme groep culinaire experts (de AI-modellen) hebt die fantastische recepten kunnen bedenken. Ze kunnen prachtige gerechten beschrijven voor de klassieke keuken (normale computercode). Maar nu willen we ze testen op het maken van quantum-recepten (code voor quantumcomputers).

Het probleem is dat quantumcomputers niet werken zoals normale computers. Ze zijn probabilistisch: als je een quantum-recept kookt, krijg je niet altijd exact hetzelfde resultaat, maar een kansverdeling van uitkomsten. Het is alsof je een gerecht kookt waarbij de smaak elke keer iets anders is, maar binnen een bepaald bereik moet vallen.

De auteurs van dit paper, QuanBench+, hebben een grote proef gehouden om te zien hoe goed deze AI-koks zijn. Hier is wat ze hebben ontdekt, vertaald naar alledaagse taal:

1. Het Probleem: Drie Verschillende Keukens

In de quantumwereld zijn er drie grote "keukens" (software-frameworks) waar je in kunt koken: Qiskit, Cirq en PennyLane.

Qiskit is als een moderne, goed georganiseerde keuken met duidelijke instructies.
Cirq is iets anders, met een eigen set potten en pannen.
PennyLane is de moeilijkste: het is alsof je moet koken in een keuken waar de messen aan de muur hangen en de instructies in een andere taal zijn.

Vroeger keek men alleen of een AI een goed recept kon maken in één van deze keukens. Maar dat vertelt je niet of de AI echt begrijpt hoe je een quantum-gerecht maakt, of dat hij gewoon de recepten van die ene keuken uit zijn hoofd kent.

QuanBench+ is een nieuwe test waarbij de AI hetzelfde recept moet maken in alle drie de keukens. Het doel: zien of ze het concept begrijpen of alleen maar de "taal" van de keuken beheersen.

2. De Test: 42 Recepten

De onderzoekers hebben 42 verschillende quantum-taken geselecteerd, variërend van simpele "snijwerk"-opdrachten (gaten deconstrueren) tot complexe "hoofdgerechten" (complexe algoritmes). Ze hebben gekeken of de code die de AI schrijft, daadwerkelijk werkt en het juiste resultaat geeft.

3. De Resultaten: Een Duidelijk Verschil

Wat bleek er?

De AI's worden beter: Ze kunnen steeds meer quantum-recepten maken.
Maar ze zijn afhankelijk van de keuken: De AI's presteerden het beste in Qiskit (ongeveer 60% succes) en het slechtste in PennyLane (ongeveer 43% succes).
De conclusie: De AI's lijken meer te vertrouwen op hun kennis van de specifieke "keukenspullen" (de API's) dan op een diep begrip van de quantum-wiskunde zelf. Als je ze in een nieuwe keuken zet, raken ze in paniek.

4. De "Terugkoppel"-Truc (Feedback Loop)

Dit is het meest interessante deel van het verhaal. Stel, de AI maakt een fout in het recept. In plaats van te zeggen "Je bent een slechte kok", geven de onderzoekers de AI de foutmelding en vragen: "Kijk, dit is fout gegaan. Probeer het opnieuw."

Dit noemen ze feedback-based repair.

Het resultaat: De scores schoten omhoog! In Qiskit ging het van 60% naar 83%.
Wat betekent dit? Veel fouten waren simpele "slordigheden" (vergeten ingrediënten, verkeerde volgorde). Als je de AI een kans geeft om het op te lossen, kan hij die simpele fouten vaak wel repareren.
De limiet: Maar zelfs na 5 pogingen om het op te lossen, bleven er nog fouten over. Die waren niet meer van het type "vergeten ingrediënt", maar van het type "ik begrijp niet hoe dit gerecht werkt". Dat zijn de echte, moeilijke quantum-reasoning problemen.

5. Waarom Fidelity (Trouw) Geen Rol Speelt

In de quantumwereld wordt vaak gekeken naar "fidelity" (hoeveel lijkt jouw circuit op het perfecte circuit?). De auteurs zeggen: "Nee, dat is niet belangrijk."

Analogie: Stel je wilt een taart bakken. Als je een andere vorm van de taart maakt, maar hij smaakt precies hetzelfde en heeft dezelfde ingrediënten, dan is het een geslaagde taart. Het maakt niet uit of de taart rond of vierkant is.
In hun test kijken ze alleen of de "smaak" (de uitkomst) klopt, niet of de "vorm" (de exacte code) identiek is aan het voorbeeld.

Samenvatting in één zin

De AI's worden steeds beter in het schrijven van quantum-code, maar ze zijn nog steeds te afhankelijk van de specifieke software die ze hebben geleerd; ze zijn nog geen echte "quantum-chefs" die in elke keuken kunnen koken, en hoewel ze veel simpele fouten kunnen oplossen als ze een tweede kans krijgen, blijft het begrijpen van de diepere quantum-wiskunde een uitdaging.

Kortom: We hebben een goede meetlat (QuanBench+) om te zien waar de AI's vastlopen, en we weten nu dat we ze niet alleen groter moeten maken, maar ze ook beter moeten leren omgaan met de verschillende "keukens" van de quantumwereld.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel Large Language Models (LLMs) steeds beter worden in het genereren van klassieke code, blijft de evaluatie van hun vermogen om kwantumcode te genereren beperkt tot één enkel softwarekader (framework) per keer, zoals Qiskit, PennyLane of Cirq. Dit creëert een fundamenteel probleem: het is moeilijk om te onderscheiden of een model faalt door gebrekkig kwantumredeneren (conceptuele fouten) of door onbekendheid met de specifieke API en syntaxis van dat ene framework. Bestaande benchmarks missen vaak de mogelijkheid om deze twee foutenbronnen te scheiden, wat de ontwikkeling van robuuste, framework-onafhankelijke kwantumprogrammeer-assistenten belemmert.

Methodologie

De auteurs introduceren QuanBench+, een unificerend benchmark dat 42 taken omvat die zijn vertaald naar drie populaire kwantumframeworks: Qiskit, PennyLane en Cirq.

Taakset: De taken zijn onderverdeeld in drie categorieën:
1. Kwantumalgoritmen (31 taken).
2. Poort-decompositie (5 taken).
3. State preparation (6 taken).
  De doelstellingen van de taken blijven identiek over de frameworks, maar de prompts worden aangepast aan de specifieke API's en bibliotheken van elk framework.
Evaluatiemetrics:
- Pass@k: De kans dat ten minste één van de $k$ gegenereerde oplossingen correct is. De paper rapporteert Pass@1 en Pass@5.
- Probabilistische Correctheid: Omdat kwantumuitkomsten probabilistisch zijn, wordt correctheid niet bepaald door een enkele waarde, maar door de overeenkomst van de meetdistributie. Hiervoor wordt de Kullback-Leibler (KL) divergentie gebruikt tussen de canonieke distributie en de gegenereerde distributie. Een oplossing wordt geaccepteerd als de divergentie onder een drempel van 0,05 ligt.
- Feedback-loop: Om het potentieel van iteratieve correctie te testen, wordt een feedback-mechanisme geïmplementeerd. Als een model faalt (runtime-fout of verkeerd antwoord), krijgt het de foutmelding en de originele prompt terug om de code te repareren. Dit wordt gemeten als Pass@1 (FB).
Experimenteel Opzet: Er zijn diverse state-of-the-art modellen getest (o.a. GPT-5.1, Gemini 3 Pro, Claude 3.7 Sonnet, DeepSeek-R1) in een gecontroleerde Python-omgeving met specifieke versies van de frameworks.

Belangrijkste Bijdragen

Unificatie: QuanBench+ is het eerste benchmark dat dezelfde taken evalueert over drie verschillende kwantumecosystemen, waardoor het mogelijk wordt om framework-specifieke kennis van universeel kwantumredeneren te scheiden.
Robuuste Evaluatie: In plaats van fideliteit (unitary overlap) te gebruiken, focust de benchmark op functionele correctheid (meetstatistieken). Dit voorkomt dat functioneel equivalente circuits die syntactisch verschillen, onterecht als fout worden bestempeld.
Feedback-analyse: De studie introduceert een gestandaardiseerde methode om de impact van automatische feedback (runtime-fouten en verkeerde uitkomsten) op de prestaties van LLMs te kwantificeren.
Openbare Dataset: De auteurs bieden een reproduceerbare set prompts, canonieke oplossingen en een evaluatie-harness.

Resultaten

De resultaten tonen duidelijke patronen op, maar ook beperkingen:

Framework-Asymmetrie: Er is een groot prestatieverschil tussen de frameworks.
- Qiskit is het makkelijkst (beste Pass@1: 59,5%).
- Cirq zit er middenin (beste Pass@1: 54,8%).
- PennyLane is het moeilijkst (beste Pass@1: 42,9%).
  Dit suggereert dat modellen sterk afhankelijk zijn van framework-specifieke familiariteit in plaats van puur kwantumlogica.
Invloed van "Prefill": Het vooraf invullen van imports en signatuur (boilerplate) verbetert de prestaties, vooral bij middelgrote modellen. Dit bevestigt dat veel fouten te maken hebben met interface-frictie en niet met de kernlogica.
Effect van Feedback: Feedback-based repair leidt tot aanzienlijke verbeteringen:
- Qiskit: stijgt naar 83,3%.
- Cirq: stijgt naar 76,2%.
- PannyLane: stijgt naar 66,7%.
  Hoewel dit veel fouten oplost, blijven de resterende fouten voornamelijk semantisch van aard (verkeerde logica of algoritme-structuur) in plaats van syntactisch.
Modelprestaties: Er is geen enkel model dat over alle frameworks dominant is. Gemini 3 Pro scoort het hoogst in Qiskit en Cirq, terwijl GPT-5.1 het beste presteert in PennyLane.

Betekenis en Conclusie

QuanBench+ toont aan dat moderne LLMs weliswaar veelbelovende kwantumcode kunnen genereren, maar dat betrouwbare, framework-onafhankelijke generatie nog niet opgelost is.

De belangrijkste conclusies zijn:

Kennis is nog niet portabel: Modellen vertrouwen te veel op specifieke API-kennis van één framework.
Feedback is cruciaal: Iteratieve correctie op basis van uitvoeringsfouten kan een groot deel van de initiële fouten herstellen, maar lost de diepere redeneringsfouten niet volledig op.
Toekomstige richting: Verdere vooruitgang vereist niet alleen schaalvergroting van modellen, maar ook betere training op kwantumsoftware-data, ondersteuning voor compositief redeneren en betere integratie met framework-specifieke uitvoeringspatronen.

De paper sluit af met de vaststelling dat QuanBench+ een praktische basis biedt voor de volgende fase van evaluatie in kwantum-LLM-onderzoek.

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

1. Het Probleem: Drie Verschillende Keukens

2. De Test: 42 Recepten

3. De Resultaten: Een Duidelijk Verschil

4. De "Terugkoppel"-Truc (Feedback Loop)

5. Waarom Fidelity (Trouw) Geen Rol Speelt

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Memory-Guided Trust-Region Bayesian Optimization (MG-TuRBO) for High Dimensions

Robust Reasoning Benchmark

Ranked Activation Shift for Post-Hoc Out-of-Distribution Detection

Silhouette Loss: Differentiable Global Structure Learning for Deep Representations