QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Zhenxiao Fu, Lei Jiang, Fan Chen

Gepubliceerd 2026-06-01

📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Zhenxiao Fu, Lei Jiang, Fan Chen

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een briljante maar onervaren leerling probeert te onderwijzen in het bouwen van een zeer delicate, hoogtechnologische machine. Deze machine is een quantumcomputer.

Een lange tijd waren de instructies die we aan deze leerling gaven als een simpel recept: "Meng deze ingrediënten, bak gedurende 10 minuten." Dit werkte voor basisopdrachten, maar de machine gaat nu een ruisende, moeilijke fase in (de zogenaamde NISQ-era). Om dit betrouwbaar te laten werken, moeten de instructies veel specifieker worden. De leerling moet nu precies weten wanneer de temperatuur gecontroleerd moet worden, hoe de oven deur halverwege het bakken aangepast moet worden, en zelfs hoe de vorm van de hittegolven zelf aangepast moet worden.

De taal die wordt gebruikt voor deze uiterst precieze instructies heet OpenQASM 3. Dit is de "hardwarehandleiding" voor quantumcomputers.

Het Probleem: De Leerling is Verward

Hoewel Kunstmatige Intelligentie (AI) erg goed is geworden in het schrijven van code, was er een groot probleem: Niemand had een specifieke oefentoets gebouwd voor deze nieuwe, complexe taal.

Bestaande tests waren als het vragen aan de leerling om "een taart te bakken" (hoge-niveau logica) of "een kapotte broodrooster te reparen" (basiscircuits). Maar ze testten niet of de leerling de volgende vaardigheden bezat:

Pauzeren en nadenken: Het bakproces stoppen, een sensor controleren, en beslissen of er meer suiker toegevoegd moet worden op basis van die meting (Klassieke Logica).
Perfect timen: Precies 0,0000001 seconden wachten voordat de deur wordt geopend, of twee ovens perfect synchroniseren (Timing Scheduling).
De golven aanpassen: Handmatig de vorm van de hittegolven die het voedsel raken aanpassen om aanbranden te voorkomen (Pulse Control).

Zonder een oefentoets voor deze specifieke vaardigheden, waren de AI-modellen aan het gokken, en dat ging slecht.

De Oplossing: QASM-Eval (De Ultieme Proeftoets)

De auteurs van dit paper hebben QASM-Eval gecreëerd. Zie dit als een enorme, gespecialiseerde trainingsgym en een eindexamen voor AI, ontworpen specifiek voor OpenQASM 3.

De Trainingsset: Ze genereerden 4.000 oefenproblemen. Dit zijn niet zomaar willekeurige vragen; het zijn zorgvuldig samengestelde scenario's waarbij een AI de ontbrekende code moet invullen om de quantummachine correct te laten werken.
Het Examen: Ze creëerden een strikte test van 100 vragen.
Het Beoordelingssysteem: Ze bouwden een speciale "robotleraar" (een automatische verifieerder). Deze robot controleert niet alleen of de code er goed uitziet; de robot simuleert daadwerkelijk de quantummachine om te zien of de code het juiste resultaat produceert, de timingregels volgt en het systeem niet laat crashen.

Wat Ze Ontdekten

De onderzoekers lieten verschillende top-AI-modellen (zoals Llama en GPT) dit nieuwe examen maken. Dit is wat er gebeurde:

De "Zero-Shot" Strijd: Wanneer ze de AI vroegen het examen te maken zonder hulp (gewoon "hier is de vraag, los het op"), waren de resultaten verschrikkelijk. De AI's waren als studenten die algemene natuurkunde hadden gestudeerd maar nog nooit de specifieke blauwdruk van deze machine hadden gezien. Ze kregen de syntaxis niet goed, laat staan de timing.
De "Few-Shot" Boost: Wanneer de onderzoekers de AI eerst een paar voorbeelden gaven van hoe soortgelijke problemen opgelost moesten worden (zoals het tonen van een voorbeeld van een antwoordmodel), gingen de scores omhoog. Het was alsof je de student een spiekbriefje gaf met één voorbeeld.
De "Fine-Tuning" Doorbraak: Dit was de grote overwinning. De onderzoekers namen de AI-modellen en "trainen" ze specifiek op hun 4.000 oefenproblemen.
- Het Resultaat: Een middelgroot AI-model (Llama-8B) presteerde na deze specifieke training bijna net zo goed als het krachtigste, duurste AI-model (GPT-5.2) dat geen training had gehad.
- De Kampioen: Een groter AI-model (Llama-70B) werd na training een meester. Het scoorde 85% op het examen, waarmee het zelfs de krachtigste AI versloeg wanneer die laatste enkele voorbeelden kreeg aangeboden.

De Kernboodschap

Het paper concludeert dat de flessenhals niet is dat AI "dom" is in quantumfysica. De flessenhals is dat AI de specifieke grammatica en regels van OpenQASM 3 niet kent.

Door een toegewijde dataset (QASM-Eval) te creëren en de AI erop te trainen, bewezen ze dat je een algemene AI kunt transformeren tot een zeer betrouwbare quantumprogrammeur. Het is alsoals een slim persoon die weet hoe hij een auto moet besturen, een specifieke handleiding en een trainingscircuit voor een Formule 1-auto geven; plotseling kan hij de racewagen perfect besturen.

Deze dataset staat nu open voor iedereen om te gebruiken, wat helpt bij het bouwen van betere AI-assistenten die mensen kunnen helpen bij het programmeren van de volgende generatie quantumcomputers.

QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

Het Probleem: De Leerling is Verward

De Oplossing: QASM-Eval (De Ultieme Proeftoets)

Wat Ze Ontdekten

De Kernboodschap

Technische Samenvatting: QASM-Eval

Probleemstelling

Methodologie

Dataset Constructie (QASM-Eval)

Evaluatie Framework

Belangrijkste Bijdragen

Experimentele Resultaten

Betekenis en Claims

QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

Het Probleem: De Leerling is Verward

De Oplossing: QASM-Eval (De Ultieme Proeftoets)

Wat Ze Ontdekten

De Kernboodschap

Technische Samenvatting: QASM-Eval

Probleemstelling

Methodologie

Dataset Constructie (QASM-Eval)

Evaluatie Framework

Belangrijkste Bijdragen

Experimentele Resultaten

Betekenis en Claims

Meer zoals dit