Qiskit QuantumKatas: Adapting Microsoft's Quantum Computing exercises for LLM evaluation

Dieser Beitrag stellt eine auf Qiskit basierende Anpassung von Microsofts QuantumKatas als umfassenden Benchmark zur Evaluierung von LLMs bei Quantencomputing-Aufgaben vor und zeigt, dass Modelle zwar bei der Implementierung bekannter Algorithmen hervorragend sind, jedoch Schwierigkeiten bei der Problemkodierung haben und dass Chain-of-Thought-Prompting bei verschiedenen Modellarchitekturen zu uneinheitlichen Ergebnissen führt.

Ursprüngliche Autoren: Juan Cruz-Benito, Ismael Faro

Veröffentlicht 2026-05-27
📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Juan Cruz-Benito, Ismael Faro

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie besitzen eine riesige Bibliothek mit 350 Rätseln, die entwickelt wurden, um jemandem beizubringen, wie man „Quantum" spricht, eine seltsame neue Sprache zur Programmierung von Quantencomputern. Jahrelang wurden diese Rätsel in einer Sprache namens Q# (Microsofts Dialekt) verfasst.

Dieser Artikel handelt von zwei Hauptpunkten:

  1. Die Übersetzung der Bibliothek: Die Autoren haben diese 350 Rätsel genommen und sie in Qiskit übersetzt, den heute am weitesten verbreiteten „Dialekt" (Framework), den Quantenprogrammierer verwenden.
  2. Das Testen der Schüler: Sie nutzten diese übersetzte Bibliothek als riesige Prüfung, um 16 verschiedene Künstliche Intelligenz (KI)-Modelle zu testen und zu sehen, wie gut sie darin sind, diese Quantenrätsel zu lösen.

Hier ist eine Aufschlüsselung ihrer Erkenntnisse, unter Verwendung einfacher Analogien:

1. Die Prüfung: „QuantumKatas"

Stellen Sie sich die QuantumKatas wie ein Videospiel mit 26 verschiedenen Levels vor, die von „Tutorial" (sehr einfach) bis „Bosskampf" (sehr schwer) reichen.

  • Die Levels: Manche Levels fordern die KI auf, einfache Tricks auszuführen, wie das Umkehren einer Münze (ein grundlegendes Gatter). Andere fordern die KI auf, komplexe Rätsel zu lösen, wie das Finden einer versteckten Nadel im Heuhaufen unter Verwendung eines spezifischen Algorithmus (Grovers Suche) oder das Reparieren einer defekten Maschine (Fehlerkorrektur).
  • Die Übersetzung: Die Autoren haben keine neuen Rätsel erfunden; sie haben lediglich die bestehenden von Microsofts Q#-Sprache in IBMs Qiskit-Sprache übersetzt. Dies stellt sicher, dass die Schwierigkeit fair ist und die Konzepte identisch bleiben.
  • Die Benotung: Sie forderten die KI nicht nur auf, Code zu schreiben; sie führten den Code in einem Simulator (einem virtuellen Quantencomputer) aus, um zu sehen, ob er tatsächlich funktionierte. Wenn die Mathematik nicht stimmte, bestand die KI die Prüfung nicht.

2. Die Schüler: 16 KI-Modelle

Sie testeten 16 verschiedene KI-„Schüler".

  • Die „Elite"-Schüler (Frontier-Modelle): Dies sind die großen, teuren, proprietären Modelle (wie GPT-5.5, Claude Opus, Gemini 3.1).
  • Die „Offenen" Schüler (Open-Source-Modelle): Dies sind kostenlose Modelle, die jeder herunterladen kann (wie Llama, Mistral, Gemma).

Die Ergebnisse:

  • Die Lücke: Die Elite-Schüler erzielten deutlich höhere Punktzahlen als die offenen Schüler. Im Durchschnitt bekamen die Elite-Schüler etwa 75 % der Rätsel richtig, während die offenen Schüler nur etwa 49 % richtig hatten. Es ist wie der Unterschied zwischen einem Schüler mit Auszeichnung und einem bestandenen Schüler.
  • Größe gewinnt nicht immer: Interessanterweise garantierte ein „größeres Gehirn" (mehr Parameter) nicht unbedingt eine bessere Punktzahl. Einige kleinere, besser abgestimmte Modelle schnitten besser ab als riesige. Es geht nicht nur darum, wie groß das Gehirn ist, sondern wie es trainiert wurde.

3. Die Lernhinweise (Prompting-Strategien)

Die Forscher versuchten verschiedene Arten, die Fragen zu stellen, um zu sehen, ob dies der KI half, besser zu performen.

  • Die „Zeig es mir"-Methode (Few-Shot): Sie gaben der KI ein paar Beispiele gelöster Rätsel, bevor sie sie aufforderten, ein neues zu lösen. Dies war die zuverlässigste Methode für fast alle. Es ist wie einem Schüler ein gelöstes Matheproblem zu zeigen, bevor man ihm eine Prüfung gibt.
  • Die „Denk laut"-Methode (Chain-of-Thought): Sie forderten die KI auf, ihre Argumentation schrittweise zu erklären, bevor sie den Code schrieb.
    • Die Wendung: Dies funktionierte hervorragend für die „Reasoning-Tuned"-Modelle (diejenigen, die speziell darauf trainiert wurden, intensiv nachzudenken) und steigerte ihre Punktzahlen.
    • Der Nachteil: Für die meisten anderen Modelle machte das laute Nachdenken sie tatsächlich schlechter. Es ist wie einen Schüler zu bitten, jeden Schritt eines Rätsels laut durchzusprechen, und er wird durch das Sprechen so abgelenkt, dass er die Lösung vergisst.
  • Die „Mach es einfach"-Methode (Zero-Shot): Einfach die Frage ohne Beispiele zu stellen. Dies funktionierte am besten für die absolut intelligentesten Modelle (wie GPT-5.5), die keine Hilfe benötigten.

4. Wo hatten sie Schwierigkeiten?

Die KI-Schüler waren in einigen Dingen gut und in anderen schrecklich:

  • Die Stärke: Sie waren großartig im Aufzählen bekannter Algorithmen. Wenn das Rätsel lautete: „Schreibe den Code für Simons Algorithmus", bekamen sie es in 82 % der Fälle richtig. Es ist wie das Auswendiglernen eines Rezepts und das perfekte Kochen davon.
  • Die Schwachstelle: Sie hatten Schwierigkeiten mit der Problemkodierung. Wenn das Rätsel sagte: „Nimm dieses unordentliche reale Problem (wie ein Logikrätsel) und verwandle es in ein Quantenrezept", versagten sie oft (nur 34 % Erfolg). Es ist wie darin, einem Rezept perfekt zu folgen, aber darin, ein neues Gericht von Grund auf neu zu erfinden, schlecht zu sein.
  • Die „Messungs"-Falle: Sie hatten auch Schwierigkeiten mit Aufgaben, die eine „Messung" beinhalteten (das Überprüfen des Ergebnisses eines Quantenzustands). Dies scheint eine spezifische Blindstelle für aktuelle KI zu sein.

5. Das Urteil

  • KI wird gut, aber nicht perfekt: Die beste KI kann etwa 83 % dieser Quantenrätsel lösen. Das ist beeindruckend für ein so schwieriges Fach, aber es ist noch nicht perfekt.
  • Das „Übersetzungs"-Problem: Die KI ist besser darin, bekannte Muster zu kopieren, als ein neues, unordentliches Problem in Quantencode zu übersetzen.
  • Ein Ansatz passt nicht für alle: Sie sollten nicht denselben „Lernhinweis" (Prompt) für jede KI verwenden. Manche brauchen Beispiele, manche müssen laut nachdenken, und manche müssen einfach in Ruhe gelassen werden.

Kurz gesagt: Die Autoren haben einen standardisierten „Quanten-Führerschein-Test" in der beliebtesten Sprache erstellt. Sie stellten fest, dass KI zwar sehr gut darin wird, auf bekannten Straßen zu fahren (Standardalgorithmen), aber immer noch Schwierigkeiten hat, sich zu orientieren, wenn die Karte fehlt (neue Probleme lösen). Die „Elite"-KI-Modelle sind derzeit die besten Fahrer, aber die Lücke zwischen ihnen und den „offenen" Modellen ist signifikant.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →