Qiskit QuantumKatas: Adapting Microsoft's Quantum Computing exercises for LLM evaluation
Dit artikel introduceert een op Qiskit gebaseerde aanpassing van Microsofts QuantumKatas als een uitgebreide benchmark voor het evalueren van LLM's op quantumcomputingtaken, waarbij wordt aangetoond dat modellen, hoewel ze uitblinken in het implementeren van bekende algoritmen, moeite hebben met probleemcodering en dat chain-of-thought prompting wisselende resultaten oplevert over verschillende modelarchitecturen heen.
Oorspronkelijke auteurs: Juan Cruz-Benito, Ismael Faro
Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer
Stel je voor dat je een gigantische bibliotheek hebt met 350 raadsels die zijn ontworpen om iemand te leren spreken "Quantum", een vreemde nieuwe taal die wordt gebruikt om quantumcomputers te programmeren. Jarenlang werden deze raadsels geschreven in een taal genaamd Q# (Microsoft's dialect).
Dit artikel gaat over twee hoofdonderwerpen:
Het vertalen van de bibliotheek: De auteurs namen die 350 raadsels en vertaalde ze naar Qiskit, het meest populaire "dialect" (kader) dat vandaag de dag door quantumprogrammeurs wordt gebruikt.
Het testen van de studenten: Ze gebruikten deze vertaalde bibliotheek als een gigantisch examen om 16 verschillende kunstmatige intelligentie (AI)-modellen te testen om te zien hoe goed ze zijn in het oplossen van deze quantumraadsels.
Hier is een uiteenzetting van wat ze vonden, met behulp van eenvoudige analogieën:
1. Het examen: "QuantumKatas"
Beschouw de QuantumKatas als een videospel met 26 verschillende levels, variërend van "Tutorial" (zeer makkelijk) tot "Boss Battle" (zeer moeilijk).
De levels: Sommige levels vragen de AI om simpele trucs uit te voeren, zoals het omdraaien van een muntstuk (een basispoort). Andere vragen de AI om complexe puzzels op te lossen, zoals het vinden van een verborgen naald in een hooiberg met een specifiek algoritme (Grover's search) of het repareren van een kapotte machine (error correction).
De vertaling: De auteurs bedachten geen nieuwe raadsels; ze vertaalden alleen de bestaande van Microsoft's Q#-taal naar IBM's Qiskit-taal. Dit zorgt ervoor dat de moeilijkheidsgraad eerlijk is en de concepten hetzelfde blijven.
De beoordeling: Ze vroegen de AI niet alleen om code te schrijven; ze draaiden de code in een simulator (een virtuele quantumcomputer) om te zien of het daadwerkelijk werkte. Als de wiskunde niet klopte, faalde de AI.
2. De studenten: 16 AI-modellen
Ze testten 16 verschillende AI-"studenten".
De "Elite"-studenten (Frontier-modellen): Dit zijn de grote, dure, propriëtaire modellen (zoals GPT-5.5, Claude Opus, Gemini 3.1).
De "Open"-studenten (Open-Source-modellen): Dit zijn gratis modellen die iedereen kan downloaden (zoals Llama, Mistral, Gemma).
De resultaten:
Het gat: De Elite-studenten scoorden veel hoger dan de Open-studenten. Gemiddeld haalden de Elite-studenten ongeveer 75% van de raadsels goed, terwijl de Open-studenten slechts ongeveer 49% goed haalden. Het is als het verschil tussen een eervolle student en een student die net slaagt.
Grootte wint niet altijd: Interessant genoeg garandeerde een "groter brein" (meer parameters) niet altijd een betere score. Sommige kleinere, slimmer afgestemde modellen presteerden beter dan enorme modellen. Het gaat niet alleen om hoe groot het brein is, maar hoe het is getraind.
3. De studietips (Prompting-strategieën)
De onderzoekers probeerden verschillende manieren om de vragen te stellen om te zien of het de AI hielp om beter te presteren.
De "Laat me zien"-methode (Few-Shot): Ze gaven de AI een paar voorbeelden van opgeloste raadsels voordat ze het vroegen om een nieuw op te lossen. Dit was de betrouwbaarste methode voor bijna iedereen. Het is als een student een opgelost wiskundeprobleem laten zien voordat je ze een toets geeft.
De "Denk hardop"-methode (Chain-of-Thought): Ze vroegen de AI om zijn redenering stap voor stap uit te leggen voordat het de code schreef.
De draai: Dit werkte uitstekend voor de "Reasoning-Tuned"-modellen (die specifiek zijn getraind om hard na te denken), wat hun scores verhoogde.
Het nadeel: Voor de meeste andere modellen maakte het hardop denken ze juist slechter. Het is als een student vragen om elke stap van een puzzel hardop te bespreken, en ze raken zo afgeleid door het praten dat ze de oplossing vergeten.
De "Gewoon doen"-methode (Zero-Shot): Gewoon de vraag stellen zonder voorbeelden. Dit werkte het beste voor de absoluut slimste modellen (zoals GPT-5.5), die geen hulp nodig hadden.
4. Waar hadden ze moeite mee?
De AI-studenten waren goed in sommige dingen en vreselijk in andere:
Het sterke punt: Ze waren geweldig in het opzeggen van bekende algoritmen. Als het raadsel vroeg: "Schrijf de code voor Simon's Algorithm", kregen ze het 82% van de tijd goed. Het is als een recept uit het hoofd leren en het perfect koken.
Het zwakke punt: Ze hadden moeite met probleemcodering. Als het raadsel zei: "Neem dit rommelige real-world probleem (zoals een logische puzzel) en zet het om in een quantumrecept", faalden ze vaak (slechts 34% succes). Het is als geweldig zijn in het volgen van een recept, maar vreselijk in het bedenken van een nieuw gerecht van scratch.
De "Metings"-valstrik: Ze hadden ook moeite met taken die te maken hadden met "meting" (het controleren van het resultaat van een quantumtoestand). Dit lijkt een specifiek blinde vlek te zijn voor huidige AI.
5. Het oordeel
AI wordt goed, maar niet perfect: De beste AI kan ongeveer 83% van deze quantumraadsels oplossen. Dat is indrukwekkend voor zo'n moeilijk onderwerp, maar het is nog niet perfect.
Het "vertaal"-probleem: De AI is beter in het kopiëren van bekende patronen dan in het vertalen van een nieuw, rommelig probleem naar quantumcode.
Eén maat past niet bij iedereen: Je zou niet dezelfde "studietip" (prompt) voor elke AI moeten gebruiken. Sommigen hebben voorbeelden nodig, sommigen moeten hardop denken, en sommigen moeten gewoon met rust worden gelaten.
Kortom: De auteurs bouwden een gestandaardiseerde "Quantumrijbewijstest" in de populairste taal. Ze ontdekten dat AI ondertussen heel goed is geworden in het rijden op bekende wegen (standaardalgoritmen), maar nog steeds moeite heeft om te navigeren wanneer de kaart ontbreekt (het oplossen van nieuwe problemen). De "Elite"-AI-modellen zijn momenteel de beste bestuurders, maar het gat tussen hen en de "Open"-modellen is aanzienlijk.
Technische Samenvatting: Qiskit QuantumKatas voor LLM-evaluatie
Probleemstelling
Hoewel Large Language Models (LLM's) sterke code-generatiecapaciteiten hebben aangetoond in algemene programmering en datawetenschap, blijft hun bekwaamheid in gespecialiseerd wetenschappelijk rekenen – specifiek kwantumcomputing – onderbelicht. Kwantumcomputing vormt een unieke uitdaging vanwege het niet-klassieke rekenparadigma, waarbij begrip vereist is van superpositie, verstrengeling en meting. Bestaande benchmarks voor kwantumaufgaven zijn vaak beperkt in schaal, missen een pedagogische structuur of richten zich op meerkeuzekennis in plaats van code-generatie. Er is behoefte aan een grote, gestructureerde benchmark die een fijnmazige analyse mogelijk maakt van het vermogen van LLM's om functionele kwantumcode te genereren binnen het meest gebruikte framework, Qiskit.
Methodologie
De auteurs introduceren Qiskit QuantumKatas, een benchmark die het gevestigde QuantumKatas-curriculum van Microsoft (oorspronkelijk in Q#) aanpast naar Qiskit. De methodologie omvat:
Datasetconstructie:
Vertaling: 350 verschillende programmeertaken zijn vertaald van Q# naar Qiskit, waarbij de oorspronkelijke pedagogische opbouw van basispoorten tot geavanceerde algoritmen behouden bleef.
Verificatie: Een deterministische evaluatiepijplijn is opgebouwd met behulp van klassieke circuitsimulatie (Qiskits AerSimulator en Statevector). Elke taak bevat een prompt in natuurlijke taal, een canonieke oplossing en een testfunctie die de correctheid verifieert via vergelijking van toestandvectoren of analyse van meetuitkomsten.
Categorisering: Taken zijn georganiseerd in 26 categorieën (bijv. BasicGates, Grover's Algorithm, Quantum Error Correction) en drie pedagogische niveaus: Introductie (95 taken), Intermediair (132 taken) en Geavanceerd (123 taken).
Evaluatiekader:
Modellen: 16 LLM's zijn geëvalueerd, bestaande uit 6 frontier (propriëtaire) modellen (bijv. GPT-5.5, Claude Opus 4.7) en 10 open-source modellen (variërend van 8B tot 675B parameters).
Prompt-configuraties: Elk model is getest met 7 prompt-strategieën: drie zero-shot varianten (standaard, minimaal, gedetailleerd), drie few-shot varianten (1-shot, 3-shot, 5-shot met voorbeelden uit introductiecategorieën) en één chain-of-thought (CoT)-configuratie.
Uitvoering: De studie omvatte 39.200 modelruns. Oplossingen werden geparseerd, op syntaxis gecontroleerd en uitgevoerd in geïsoleerde subprocessen met een time-out van 30 seconden. Pass@1-resultaten (enkele poging) werden gerapporteerd bij een temperatuur van 0 om reproduceerbaarheid te waarborgen.
Belangrijkste Bijdragen
Benchmark-aanpassing: Een volledige vertaling van het 350-taken tellende QuantumKatas-curriculum van Q# naar Qiskit, waardoor een bewezen pedagogische bron toegankelijk wordt voor de evaluatie van het dominante kwantumframework.
Evaluatie-infrastructuur: Een robuuste, deterministische evaluatiepijplijn met klassieke simulatie voor verificatie, ondersteuning voor meerdere providers en configureerbare prompt-strategieën.
Empirische analyse: De grootste systematische evaluatie van LLM's op kwantumcode-generatie tot nu toe, met basislijnen, foutentaxonomieën en fijnmazige prestatieprofielen over 26 categorieën.
Open release: De dataset, het evaluatiekader en de basislijnen zijn vrijgegeven om reproduceerbaar onderzoek te ondersteunen.
Resultaten
De evaluatie leverde enkele kritieke bevindingen op over de capaciteiten van LLM's in kwantumcomputing:
Prestatiekloof tussen modellen:
De beste configuratie-passpercentages varieerden van 32,3% (Granite 4.1 8B) tot 83,1% (GPT-5.5).
Er bestaat een aanhoudende kloof van 26,1 procentpunten tussen frontier-modellen (gemiddeld 75,3%) en open-source-modellen (gemiddeld 49,3%).
Modelgrootte is geen perfecte voorspeller van prestaties; bijvoorbeeld, de Mistral Large 3 met 675B parameters (48,6%) presteerde slechter dan de Gemma 4 met 31B parameters (68,0%).
Effecten van prompt-strategieën:
Few-shot prompting (specifiek 5-shot) was gemiddeld de meest betrouwbare strategie (57,8% gemiddeld), en presteerde beter dan zero-shot en chain-of-thought.
Chain-of-Thought (CoT) vertoonde een bimodaal effect: het was de beste strategie voor drie modellen (twee expliciet getraind voor redeneren: GPT-5.3-Codex en Gemini 3.1 Pro), maar verslechterde de prestaties voor de meerderheid van de andere modellen (bijv. een daling van 11,1 procentpunten voor Claude Sonnet 4.6). Dit suggereert dat CoT niet universeel gunstig is voor kwantumcode-generatie.
Taakmoeilijkheid en capaciteiten:
Implementatie van algoritmen versus codering van problemen: Modellen presteren goed bij het implementeren van bekende algoritmen (bijv. Simon's Algorithm: 82,1%, BasicGates: 81,6%), maar hebben aanzienlijke moeite met het coderen van klassieke problemen in kwantumprimitieven (bijv. SolveSATWithGrover: 34,4%, DistinguishUnitaries: 40,0%).
Foutanalyse: De dominante faalmodus zijn logische fouten (43,0%, voornamelijk AssertionError), waarbij de code draait maar onjuiste kwantumtoestanden produceert. Dit geeft aan dat kwantumredenering, en niet syntaxis of API-gebruik, de primaire bottleneck is.
Redeneren over metingen: Categorieën die betrekking hebben op meetuitkomsten en basisselectie (bijv. Measurements, Teleportation) vertoonden consistent lagere pass-percentages, wat wijst op een specifieke zwakte in redeneren over klassiek-kwantuminterfaces.
Betekenis
Het artikel stelt dat de Qiskit QuantumKatas-benchmark een rigoureuze, pedagogisch gestructureerde tool biedt voor het beoordelen van LLM's in een gespecialiseerd wetenschappelijk domein. De betekenis hiervan ligt in:
Differentiatie: De benchmark onderscheidt effectief modelcapaciteiten over een breed prestatiespectrum, waardoor plafond- of vloereffecten worden vermeden.
Granulariteit: De structuur met 26 categorieën maakt fijnmazige analyse mogelijk, en onthult dat LLM's gedocumenteerde algoritmische structuren makkelijker naar code kunnen vertalen dan dat ze nieuwe kwantumoplossingen kunnen formuleren voor klassieke problemen.
Pedagogische en ontwikkelingsnut: De resultaten suggereren dat frontier-modellen haalbaar worden voor geautomatiseerd tutoreren en code-aanvulling in introductieonderwerpen over kwantum, maar nog niet betrouwbaar zijn voor geavanceerde probleemformulering of complexe rekenkunde.
Toekomstige richting: De studie benadrukt dat schaling alleen de kloof in gespecialiseerde domeinen mogelijk niet zal overbruggen; gerichte training en verbeterde redeneercapaciteiten zijn waarschijnlijk noodzakelijk om de specifieke uitdagingen van probleemcodering en redeneren over metingen aan te pakken.
De auteurs benadrukken dat de benchmark dient als fundament voor toekomstig onderzoek, inclusief taken met rekening houdend met ruis, algoritmen op onderzoeksniveau en de ontwikkeling van domeinspecifieke trainingsdata om de prestatiekloof tussen frontier- en open-source-modellen te dichten.