QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der „Quanten-Koch" und seine drei verschiedenen Küchen

Stellen Sie sich vor, Sie haben einen genialen Koch (das ist die Künstliche Intelligenz, genauer gesagt ein „Large Language Model" oder LLM). Dieser Koch kann fantastische Gerichte kochen, wenn man ihm eine klassische Rezeptur gibt (z. B. eine Pizza oder ein Steak).

Aber jetzt wollen wir, dass er Quanten-Gerichte kocht. Das ist kompliziert, weil Quanten-Physik anders funktioniert als normale Physik. Und das Tückische ist: Es gibt drei verschiedene Küchen (die drei Quanten-Software-Frameworks Qiskit, PennyLane und Cirq).

In der Qiskit-Küche sind die Töpfe rot und die Messer liegen links.
In der PennyLane-Küche sind die Töpfe blau und die Messer liegen rechts.
In der Cirq-Küche ist alles wieder anders.

Bisher haben Forscher den Koch nur in einer Küche getestet. Das Problem war: Wenn der Koch in der blauen Küche einen Fehler macht, wussten wir nicht, ob er das Kochen (die Quanten-Logik) nicht versteht oder ob er einfach nur die blauen Töpfe nicht kennt.

Die Lösung: Der „QuanBench+"-Wettbewerb

Die Autoren dieses Papers haben einen neuen Wettbewerb erfunden, den sie QuanBench+ nennen.

Stellen Sie sich vor, sie geben dem Koch exakt dasselbe Rezept (z. B. „Backe einen Quanten-Kuchen") und schicken ihn nacheinander in alle drei Küchen.

Aufgabe: Der Koch muss das Gericht in der roten Küche kochen.
Dann: Dasselbe Gericht in der blauen Küche.
Dann: Dasselbe Gericht in der grünen Küche.

Das Ziel ist es zu sehen: Kann der Koch das Prinzip des Quanten-Kuchens verstehen, oder ist er nur gut darin, die spezifischen Töpfe einer einzigen Küche zu bedienen?

Wie wird gemessen? (Der Geschmacks-Test)

In der normalen Welt schmeckt ein Kuchen entweder gut oder schlecht. In der Quanten-Welt ist es etwas verrückter: Ein Quanten-Kuchen ist oft ein Wahrscheinlichkeits-Kuchen. Wenn Sie ihn probieren, kommt manchmal ein Stück Schokolade heraus, manchmal ein Stück Vanille – aber im Durchschnitt muss das Verhältnis stimmen.

Der Test prüft also nicht nur, ob der Code läuft, sondern ob das Ergebnis (die Verteilung der „Geschmacksrichtungen") mathematisch korrekt ist.

Was haben sie herausgefunden?

Die Ergebnisse sind wie eine Mischung aus „Gute Nachrichten" und „Noch viel zu tun".

1. Der Koch ist noch nicht perfekt (Die Küchen sind unterschiedlich schwer)
Der Koch (die KI) schafft es in der Qiskit-Küche am besten (ca. 60 % der Gerichte sind perfekt). In der Cirq-Küche ist es etwas schwieriger (ca. 55 %), und in der PennyLane-Küche scheitert er am häufigsten (ca. 43 %).

Die Lehre: Die KI ist nicht unbedingt „dumm" in Quanten-Logik, aber sie ist sehr abhängig davon, welche Küche sie gerade betritt. Sie kennt die blauen Töpfe einfach noch nicht so gut wie die roten.

2. Der „Koch-Assistent" hilft (Feedback-Schleife)
Das Paper hat auch getestet, was passiert, wenn man dem Koch sagt: „Hey, dein Kuchen ist verbrannt, versuch es nochmal!"

Wenn die KI einen Fehler macht (z. B. ein Programm-Absturz oder ein falsches Ergebnis), bekommt sie eine Rückmeldung und darf es reparieren.
Ergebnis: Das hilft enorm! In der Qiskit-Küche steigen die Erfolgsraten von 60 % auf über 80 %.
Aber: Auch mit Hilfe bleibt die PennyLane-Küche die schwierigste. Die KI kann die kleinen Fehler (wie vergessene Zutaten) beheben, aber wenn sie die Grundidee des Rezepts nicht verstanden hat, hilft auch kein Nachbessern.

3. Der Unterschied zwischen „Rezeptwissen" und „Kochwissen"
Manchmal half es dem Koch, wenn man ihm schon die ersten Sätze des Rezepts vorgegeben hat (z. B. „Importiere die roten Töpfe"). Das hat die Ergebnisse verbessert, aber nur bei den kleineren, weniger intelligenten KIs. Die großen, schlauen KIs brauchten das weniger. Das zeigt: Die KI kann die Logik des Kochens, aber sie braucht manchmal Hilfe bei den technischen Details der Küche.

Das Fazit in einem Satz

Die Künstliche Intelligenz wird immer besser darin, Quanten-Code zu schreiben, aber sie ist noch kein echter „Quanten-Meister". Sie ist wie ein sehr talentierter Koch, der in einer Küche ein Weltklasse-Gericht hinbekommt, aber in einer anderen Küche, nur weil die Töpfe anders liegen, ins Stolpern gerät.

Damit wir wirklich verlässliche Quanten-Software mit KI erstellen können, müssen die KIs nicht nur mehr Daten lernen, sondern auch verstehen, wie man das gleiche Quanten-Rezept in verschiedenen Küchen kocht, ohne sich von den Werkzeugen verwirren zu lassen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Nutzung von Large Language Models (LLMs) zur Code-Generierung hat in der klassischen Programmierung große Fortschritte gemacht. Im Bereich des Quantencomputings bleibt die Evaluierung jedoch oft auf einzelne Software-Frameworks beschränkt (z. B. nur Qiskit oder nur PennyLane). Dies erschwert die Unterscheidung zwischen zwei Arten von Fehlern:

Konzeptionelle Fehler: Mängel im quantenmechanischen Denken (z. B. falsche Algorithmen-Struktur oder Messlogik).
Framework-spezifische Fehler: Unkenntnis der spezifischen APIs, Bibliotheken oder Simulations-Einstellungen eines bestimmten Frameworks.

Da Quantenprogramme probabilistische Ausgaben (Messwahrscheinlichkeiten) statt deterministischer Werte produzieren, ist die Definition von „Korrektheit" komplexer als bei klassischem Code. Bisherige Benchmarks konnten nicht klar trennen, ob ein Modell das Quantenproblem nicht versteht oder lediglich die Syntax des jeweiligen Frameworks nicht beherrscht.

2. Methodik und Aufbau von QuanBench+

Die Autoren stellen QuanBench+ vor, ein einheitliches Benchmark-System, das Aufgaben über drei führende Quanten-Frameworks hinweg abdeckt: Qiskit, PennyLane und Cirq.

Datensatz: Der Benchmark basiert auf 42 adaptierten Aufgaben aus dem ursprünglichen QuanBench, kategorisiert in:
- Quantenalgorithmen (31 Aufgaben)
- Gatter-Decomposition (5 Aufgaben)
- Zustandspräparation (6 Aufgaben)
- Die Aufgaben wurden so angepasst, dass sie über alle Frameworks hinweg dieselbe funktionale Zielsetzung haben, sich aber in der API-Implementierung unterscheiden.
Evaluierungs-Metriken:
- Pass@k: Die Wahrscheinlichkeit, dass mindestens eine von $k$ generierten Lösungen korrekt ist (berichtet für $k=1$ und $k=5$ ).
- Probabilistische Korrektheit: Da Quantenmessungen statistisch sind, wird die Korrektheit nicht durch einen exakten Wert, sondern durch die Übereinstimmung der Ausgabe-Wahrscheinlichkeitsverteilung mit einer kanonischen Referenzlösung gemessen.
- KL-Divergenz: Zur Bewertung der Verteilungsähnlichkeit wird die Kullback-Leibler-Divergenz ( $D_{KL}$ ) verwendet. Eine Lösung wird als akzeptiert gewertet, wenn die Divergenz einen Schwellenwert von 0,05 unterschreitet.
- Ausschluss der Fidelity: Im Gegensatz zu früheren Arbeiten wird die Prozess-Fidelity (Unitary Overlap) nicht als Hauptmetrik verwendet, da sie syntaktisch unterschiedliche, aber funktionell äquivalente Schaltkreise fälschlicherweise als falsch bewerten kann.
Feedback-Schleife (Repair): Ein wesentlicher Teil der Studie ist die Evaluierung von Modellen nach einem Feedback-Loop. Wenn ein Modell einen Laufzeitfehler (Exception) oder ein falsches Ergebnis liefert, erhält es die Fehlermeldung und den ursprünglichen Prompt und darf den Code einmalig korrigieren. Dies wird als Pass@1 (FB) berichtet.

3. Wichtige Beiträge

Unified Multi-Framework Benchmark: Einführung von QuanBench+ als erster Benchmark, der dieselben Aufgaben über Qiskit, PennyLane und Cirq hinweg evaluiert, um Framework-Bias von echter Quanten-Reasoning-Fähigkeit zu trennen.
Standardisierte Evaluierung: Entwicklung einer automatisierten Pipeline mit ausführbaren Tests und probabilistischen Metriken (KL-Divergenz), die eine faire Vergleichbarkeit über verschiedene Ökosysteme hinweg ermöglicht.
Analyse von Reparaturmechanismen: Systematische Untersuchung, wie stark Feedback-Schleifen (Runtime-Errors und falsche Antworten) die Leistung von LLMs verbessern können.
Umfassende Modell-Evaluierung: Testung einer Vielzahl von State-of-the-Art-Modellen (sowohl proprietär als auch Open-Weight), darunter GPT-5.1, Gemini 3 Pro, Claude 3.7 Sonnet und DeepSeek-R1.

4. Ergebnisse

Die Studie liefert folgende zentrale Erkenntnisse:

Framework-Asymmetrie: Die Leistung ist stark vom Framework abhängig.
- Qiskit ist am einfachsten (beste Pass@1: 59,5 %).
- Cirq liegt dazwischen (beste Pass@1: 54,8 %).
- PennyLane ist am schwierigsten (beste Pass@1: 42,9 %).
- Dies deutet darauf hin, dass die Modelle stark von der Vertrautheit mit spezifischen APIs abhängen und nicht nur von universellem Quantenwissen.
Einfluss von Prefill: Das Vorgeben von Imports und Signatur-Boilerplate (Prefill) verbessert die Ergebnisse, insbesondere bei kleineren Modellen, indem es Interface-Fehler reduziert. Es löst jedoch keine tiefgreifenden semantischen Fehler.
Effekt des Feedback-Loops: Die Fähigkeit, Code nach Fehlern zu reparieren, führt zu signifikanten Verbesserungen:
- Qiskit: Steigerung auf 83,3 % (Pass@1 FB).
- Cirq: Steigerung auf 76,2 %.
- PennyLane: Steigerung auf 66,7 %.
Art der verbleibenden Fehler: Während Feedback-Schleifen viele syntaktische und Laufzeitfehler beheben können, bleiben die verbleibenden Fehler überwiegend semantischer Natur (falsche Logik, falsche Algorithmen-Struktur). Nach der Reparatur machen semantische Fehler den Großteil der verbleibenden Ausfälle aus.

5. Bedeutung und Fazit

QuanBench+ zeigt, dass moderne LLMs zwar plausible Quanten-Code generieren können, eine zuverlässige, framework-übergreifende Generierung jedoch noch nicht erreicht ist. Die Ergebnisse belegen, dass:

Die aktuellen Fortschritte stark von der spezifischen Erfahrung mit einem Framework abhängen.
Iterative Reparatur (Feedback-Loops) ein effektives Mittel ist, um Oberflächenfehler zu korrigieren, aber die tiefere Herausforderung des korrekten quantenmechanischen Denkens bestehen bleibt.
Zukünftige Fortschritte nicht allein durch Skalierung der Modelle erreicht werden, sondern durch bessere Integration von Quanten-Software-Daten, Unterstützung für compositional reasoning und engere Anpassung an framework-spezifische APIs.

Das Paper liefert somit eine praktische und reproduzierbare Basis für die nächste Stufe der Evaluierung von LLMs im Quantencomputing-Bereich.

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Das große Problem: Der „Quanten-Koch" und seine drei verschiedenen Küchen

Die Lösung: Der „QuanBench+"-Wettbewerb

Wie wird gemessen? (Der Geschmacks-Test)

Was haben sie herausgefunden?

Das Fazit in einem Satz

1. Problemstellung

2. Methodik und Aufbau von QuanBench+

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Memory-Guided Trust-Region Bayesian Optimization (MG-TuRBO) for High Dimensions

Robust Reasoning Benchmark

Ranked Activation Shift for Post-Hoc Out-of-Distribution Detection

Silhouette Loss: Differentiable Global Structure Learning for Deep Representations