Qiskit QuantumKatas: Adapting Microsoft's Quantum Computing exercises for LLM evaluation

Dit artikel introduceert een op Qiskit gebaseerde aanpassing van Microsofts QuantumKatas als een uitgebreide benchmark voor het evalueren van LLM's op quantumcomputingtaken, waarbij wordt aangetoond dat modellen, hoewel ze uitblinken in het implementeren van bekende algoritmen, moeite hebben met probleemcodering en dat chain-of-thought prompting wisselende resultaten oplevert over verschillende modelarchitecturen heen.

Oorspronkelijke auteurs: Juan Cruz-Benito, Ismael Faro

Gepubliceerd 2026-05-27
📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Juan Cruz-Benito, Ismael Faro

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een gigantische bibliotheek hebt met 350 raadsels die zijn ontworpen om iemand te leren spreken "Quantum", een vreemde nieuwe taal die wordt gebruikt om quantumcomputers te programmeren. Jarenlang werden deze raadsels geschreven in een taal genaamd Q# (Microsoft's dialect).

Dit artikel gaat over twee hoofdonderwerpen:

  1. Het vertalen van de bibliotheek: De auteurs namen die 350 raadsels en vertaalde ze naar Qiskit, het meest populaire "dialect" (kader) dat vandaag de dag door quantumprogrammeurs wordt gebruikt.
  2. Het testen van de studenten: Ze gebruikten deze vertaalde bibliotheek als een gigantisch examen om 16 verschillende kunstmatige intelligentie (AI)-modellen te testen om te zien hoe goed ze zijn in het oplossen van deze quantumraadsels.

Hier is een uiteenzetting van wat ze vonden, met behulp van eenvoudige analogieën:

1. Het examen: "QuantumKatas"

Beschouw de QuantumKatas als een videospel met 26 verschillende levels, variërend van "Tutorial" (zeer makkelijk) tot "Boss Battle" (zeer moeilijk).

  • De levels: Sommige levels vragen de AI om simpele trucs uit te voeren, zoals het omdraaien van een muntstuk (een basispoort). Andere vragen de AI om complexe puzzels op te lossen, zoals het vinden van een verborgen naald in een hooiberg met een specifiek algoritme (Grover's search) of het repareren van een kapotte machine (error correction).
  • De vertaling: De auteurs bedachten geen nieuwe raadsels; ze vertaalden alleen de bestaande van Microsoft's Q#-taal naar IBM's Qiskit-taal. Dit zorgt ervoor dat de moeilijkheidsgraad eerlijk is en de concepten hetzelfde blijven.
  • De beoordeling: Ze vroegen de AI niet alleen om code te schrijven; ze draaiden de code in een simulator (een virtuele quantumcomputer) om te zien of het daadwerkelijk werkte. Als de wiskunde niet klopte, faalde de AI.

2. De studenten: 16 AI-modellen

Ze testten 16 verschillende AI-"studenten".

  • De "Elite"-studenten (Frontier-modellen): Dit zijn de grote, dure, propriëtaire modellen (zoals GPT-5.5, Claude Opus, Gemini 3.1).
  • De "Open"-studenten (Open-Source-modellen): Dit zijn gratis modellen die iedereen kan downloaden (zoals Llama, Mistral, Gemma).

De resultaten:

  • Het gat: De Elite-studenten scoorden veel hoger dan de Open-studenten. Gemiddeld haalden de Elite-studenten ongeveer 75% van de raadsels goed, terwijl de Open-studenten slechts ongeveer 49% goed haalden. Het is als het verschil tussen een eervolle student en een student die net slaagt.
  • Grootte wint niet altijd: Interessant genoeg garandeerde een "groter brein" (meer parameters) niet altijd een betere score. Sommige kleinere, slimmer afgestemde modellen presteerden beter dan enorme modellen. Het gaat niet alleen om hoe groot het brein is, maar hoe het is getraind.

3. De studietips (Prompting-strategieën)

De onderzoekers probeerden verschillende manieren om de vragen te stellen om te zien of het de AI hielp om beter te presteren.

  • De "Laat me zien"-methode (Few-Shot): Ze gaven de AI een paar voorbeelden van opgeloste raadsels voordat ze het vroegen om een nieuw op te lossen. Dit was de betrouwbaarste methode voor bijna iedereen. Het is als een student een opgelost wiskundeprobleem laten zien voordat je ze een toets geeft.
  • De "Denk hardop"-methode (Chain-of-Thought): Ze vroegen de AI om zijn redenering stap voor stap uit te leggen voordat het de code schreef.
    • De draai: Dit werkte uitstekend voor de "Reasoning-Tuned"-modellen (die specifiek zijn getraind om hard na te denken), wat hun scores verhoogde.
    • Het nadeel: Voor de meeste andere modellen maakte het hardop denken ze juist slechter. Het is als een student vragen om elke stap van een puzzel hardop te bespreken, en ze raken zo afgeleid door het praten dat ze de oplossing vergeten.
  • De "Gewoon doen"-methode (Zero-Shot): Gewoon de vraag stellen zonder voorbeelden. Dit werkte het beste voor de absoluut slimste modellen (zoals GPT-5.5), die geen hulp nodig hadden.

4. Waar hadden ze moeite mee?

De AI-studenten waren goed in sommige dingen en vreselijk in andere:

  • Het sterke punt: Ze waren geweldig in het opzeggen van bekende algoritmen. Als het raadsel vroeg: "Schrijf de code voor Simon's Algorithm", kregen ze het 82% van de tijd goed. Het is als een recept uit het hoofd leren en het perfect koken.
  • Het zwakke punt: Ze hadden moeite met probleemcodering. Als het raadsel zei: "Neem dit rommelige real-world probleem (zoals een logische puzzel) en zet het om in een quantumrecept", faalden ze vaak (slechts 34% succes). Het is als geweldig zijn in het volgen van een recept, maar vreselijk in het bedenken van een nieuw gerecht van scratch.
  • De "Metings"-valstrik: Ze hadden ook moeite met taken die te maken hadden met "meting" (het controleren van het resultaat van een quantumtoestand). Dit lijkt een specifiek blinde vlek te zijn voor huidige AI.

5. Het oordeel

  • AI wordt goed, maar niet perfect: De beste AI kan ongeveer 83% van deze quantumraadsels oplossen. Dat is indrukwekkend voor zo'n moeilijk onderwerp, maar het is nog niet perfect.
  • Het "vertaal"-probleem: De AI is beter in het kopiëren van bekende patronen dan in het vertalen van een nieuw, rommelig probleem naar quantumcode.
  • Eén maat past niet bij iedereen: Je zou niet dezelfde "studietip" (prompt) voor elke AI moeten gebruiken. Sommigen hebben voorbeelden nodig, sommigen moeten hardop denken, en sommigen moeten gewoon met rust worden gelaten.

Kortom: De auteurs bouwden een gestandaardiseerde "Quantumrijbewijstest" in de populairste taal. Ze ontdekten dat AI ondertussen heel goed is geworden in het rijden op bekende wegen (standaardalgoritmen), maar nog steeds moeite heeft om te navigeren wanneer de kaart ontbreekt (het oplossen van nieuwe problemen). De "Elite"-AI-modellen zijn momenteel de beste bestuurders, maar het gat tussen hen en de "Open"-modellen is aanzienlijk.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →