QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Each language version is independently generated for its own context, not a direct translation.

🌌 Le Grand Défi : Faire parler les IA avec le langage des "Qubits"

Imaginez que vous avez un chef cuisinier très doué (une Intelligence Artificielle ou IA) capable de préparer des plats classiques (du code informatique normal) avec brio. Mais aujourd'hui, on veut lui apprendre à cuisiner dans une cuisine entièrement nouvelle et étrange : la cuisine quantique.

Le problème ? Il existe trois écoles de cuisine quantique très différentes :

Qiskit (comme une cuisine italienne bien rodée).
Cirq (comme une cuisine japonaise très précise).
PennyLane (comme une cuisine fusion très complexe).

Jusqu'à présent, on testait ces chefs cuisiniers dans une seule école à la fois. Résultat ? On ne savait pas vraiment s'ils étaient de bons chefs (compréhension des concepts quantiques) ou s'ils étaient juste de bons copistes qui connaissaient par cœur les recettes d'une seule école.

C'est là qu'intervient QuanBench+.

🧪 Qu'est-ce que QuanBench+ ? (Le "Grand Concours")

Les auteurs de l'article ont créé un examen unique pour tester ces IA. Au lieu de leur donner un seul sujet, ils leur donnent 42 défis identiques (comme "préparer un gâteau aux amandes" ou "construire un pont"), mais ils exigent que le résultat soit écrit dans les trois langages différents (Qiskit, Cirq, PennyLane).

C'est comme demander à un architecte de dessiner le même bâtiment trois fois : une fois en utilisant les règles de l'architecture française, une fois avec les règles allemandes, et une fois avec les règles japonaises.

Le but ? Voir si l'IA comprend vraiment l'architecture (le raisonnement quantique) ou si elle se contente de copier les règles d'une seule école.

📊 Les Résultats : Ce qui se passe dans la cuisine

Les chercheurs ont fait passer l'examen à plusieurs IA de pointe (comme les modèles de Google, OpenAI, etc.). Voici ce qu'ils ont découvert, avec des analogies simples :

1. La difficulté dépend de l'école (Le biais de familiarité)

Qiskit est l'école la plus facile pour les IA. C'est comme si l'IA avait beaucoup lu de livres sur la cuisine italienne. Elle réussit environ 60 % des défis du premier coup.
Cirq est un peu plus dur, comme une cuisine japonaise avec des règles strictes. Score : environ 55 %.
PennyLane est le cauchemar. C'est une cuisine très abstraite. Les IA échouent beaucoup plus souvent, avec un score d'environ 43 %.

Leçon : Les IA ne sont pas encore de véritables "maîtres cuisiniers universels". Elles sont encore très dépendantes de l'école où elles ont le plus étudié. Si elles ne connaissent pas les règles spécifiques d'une école, elles échouent, même si le concept de base est le même.

2. L'astuce du "Pré-remplissage" (Le guide de cuisine)

Les chercheurs ont testé une astuce : donner à l'IA les premières lignes du code (les ingrédients de base, les outils nécessaires) avant qu'elle ne commence à cuisiner.

Résultat : Ça aide un peu, surtout pour les petites IA. C'est comme donner une liste de courses à un débutant. Ça évite les erreurs bêtes (oublier le sel), mais ça ne l'aide pas à comprendre comment mélanger les ingrédients pour que le gâteau réussisse. Le vrai problème (la logique complexe) reste là.

3. La magie de la "Correction" (Le chef qui se reprend)

C'est la partie la plus intéressante ! Les chercheurs ont laissé les IA voir leurs erreurs. Si le code plantait ou donnait un mauvais résultat, ils disaient à l'IA : "Eh, ça a raté, essaie encore !".

Résultat incroyable : Les scores ont bondi !
- En Qiskit, on passe de 60 % à 83 %.
- En PennyLane, on passe de 43 % à 67 %.

Analogie : Imaginez un élève qui rate un examen, mais qui a le droit de voir ses erreurs, de réfléchir, et de rendre une copie corrigée. Il réussit beaucoup mieux ! Cela montre que les IA savent souvent trouver la solution, mais elles ont du mal à la trouver du premier coup sans se tromper.

🚨 Le Verdict Final

Malgré ces progrès, l'article tire une conclusion claire : Nous ne sommes pas encore prêts à faire confiance aux IA pour écrire du code quantique complexe sans surveillance.

Ce qui va bien : Les IA deviennent de plus en plus intelligentes et peuvent corriger leurs propres erreurs si on les laisse essayer plusieurs fois.
Ce qui ne va pas : Elles sont encore trop dépendantes de la "façon" dont on leur demande les choses (le langage utilisé). Si on change d'école de cuisine, elles se perdent.

💡 En résumé

QuanBench+ est comme un test de conduite à travers trois pays différents avec des règles de circulation différentes.

Les voitures (les IA) conduisent bien sur l'autoroute (Qiskit).
Elles se débrouillent moyennement sur les routes de montagne (Cirq).
Et elles ont du mal sur les routes de terre battue (PennyLane).

Le message principal est : Les IA apprennent vite, mais elles ont encore besoin d'un instructeur humain pour les guider, surtout quand on change de terrain. Le futur ne dépendra pas seulement de rendre les IA plus "intelligentes", mais de mieux les entraîner à comprendre la logique quantique, peu importe le langage utilisé.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'utilisation des Grands Modèles de Langage (LLM) pour la génération de code classique est bien établie (via des benchmarks comme HumanEval). Cependant, la génération de code quantique présente des défis uniques :

Nature probabiliste : Contrairement au code classique, les programmes quantiques produisent des statistiques de mesure probabilistes plutôt que des valeurs déterministes. La correction doit donc être évaluée sur la base de distributions de sortie.
Fragmentation des écosystèmes : La recherche actuelle évalue principalement les LLMs sur un seul framework (ex: Qiskit, PennyLane ou Cirq). Cela rend difficile la distinction entre un échec dû à un raisonnement quantique faible (erreur conceptuelle) et un échec dû à une mauvaise maîtrise de l'API spécifique d'un framework (erreur de syntaxe ou de bibliothèque).
Manque de comparabilité : Il est impossible de savoir si un modèle excelle parce qu'il comprend l'algorithmique quantique ou simplement parce qu'il a mémorisé les conventions d'un framework spécifique.

2. Méthodologie et Proposition : QuanBench+

Les auteurs introduisent QuanBench+, un benchmark unifié et multi-framework conçu pour isoler le raisonnement quantique des compétences spécifiques à un framework.

A. Structure du Benchmark

Tâches : 42 tâches alignées couvrant trois catégories :
1. Algorithmes quantiques.
2. Décomposition de portes.
3. Préparation d'états.
Frameworks : Les mêmes tâches sont adaptées pour Qiskit, PennyLane et Cirq. L'intention de la tâche reste constante, seul le framework cible change.
Prompts : Standardisés pour inclure les imports et signatures spécifiques à chaque framework, avec une exigence de sortie de code uniquement (sans explication textuelle).

B. Métriques d'Évaluation

Pour gérer la nature probabiliste des sorties quantiques, le benchmark utilise :

Pass@k : La probabilité qu'au moins une solution parmi $k$ générées soit correcte. Les auteurs rapportent Pass@1 et Pass@5.
Divergence KL (Kullback-Leibler) : Pour les tâches probabilistes, la correction n'est pas binaire. Une solution est acceptée si la divergence KL entre la distribution de référence (canonique) et la distribution générée par le modèle est inférieure à un seuil global (calibré à 0.05).
Exclusion de la Fidélité : Contrairement à d'autres travaux, QuanBench+ ne mesure pas la fidélité de la matrice unitaire (overlap), car des circuits structurellement différents peuvent produire les mêmes statistiques de mesure (équivalence fonctionnelle). L'évaluation se base sur le succès fonctionnel de la tâche.

C. Protocole Expérimental

Modèles : Évaluation d'une gamme de LLMs (propriétaires et open-weight) incluant Gemini 3 Pro, GPT-5.1, Claude 3.7, DeepSeek, etc.
Boucle de Rétroaction (Feedback Loop) : Au-delà de la génération "one-shot", les auteurs testent une capacité de réparation. Si le code échoue (exception d'exécution ou sortie incorrecte), le modèle reçoit la trace d'erreur et le prompt original pour générer une correction. Cela permet de calculer le Pass@1 (FB).

3. Contributions Clés

Premier benchmark multi-framework unifié : QuanBench+ est la première évaluation comparant systématiquement Qiskit, PennyLane et Cirq sur le même ensemble de tâches.
Méthodologie d'évaluation robuste : Intégration de tests fonctionnels exécutables et de la divergence KL pour les sorties probabilistes, évitant les pièges de la fidélité unitaire.
Analyse des modes d'échec : Distinction claire entre les erreurs de "boilerplate" (imports, API) et les erreurs sémantiques profondes (logique quantique).
Étude de la réparation itérative : Quantification de l'amélioration des performances grâce à une boucle de rétroaction automatique.

4. Résultats Principaux

A. Performance One-Shot (Pass@1)

Les résultats montrent une asymétrie marquée selon le framework :

Qiskit : Le plus facile (Score max : 59.5% avec Gemini 3 Pro).
Cirq : Intermédiaire (Score max : 54.8%).
PennyLane : Le plus difficile (Score max : 42.9% avec GPT-5.1).
Conclusion RQ1 : Les modèles actuels montrent des progrès, mais la fiabilité multi-framework est faible. La performance dépend fortement de la familiarité avec le framework spécifique plutôt que d'une compétence quantique portable.

B. Impact du "Prefill" (RQ2)

L'ajout d'imports et de signatures dans le prompt (prefill) améliore les scores, surtout pour les modèles de taille moyenne.

Conclusion : Le prefill réduit principalement la friction d'interface et les erreurs de "boilerplate", mais n'élimine pas les échecs sémantiques difficiles.

C. Impact de la Réparation par Rétroaction (RQ3)

L'utilisation d'une boucle de rétroaction (correction basée sur les erreurs d'exécution) améliore considérablement les performances :

Qiskit : Passe de 59.5% à 83.3%.
Cirq : Passe de 54.8% à 76.2%.
PennyLane : Passe de 42.9% à 66.7%.
Analyse des erreurs : La rétroaction corrige efficacement les erreurs d'exécution (syntaxe, imports, erreurs d'exécution runtime). Cependant, les erreurs résiduelles sont dominées par des erreurs sémantiques profondes (logique algorithmique incorrecte), qui ne sont pas résolues par la simple correction de code.

5. Signification et Conclusion

L'article conclut que si les LLMs modernes peuvent produire du code quantique plausible, la génération de code quantique fiable et multi-framework reste un problème non résolu.

Dépendance aux frameworks : Les performances actuelles reposent davantage sur la mémorisation des API spécifiques que sur une compréhension profonde et portable de l'informatique quantique.
Limites de la réparation : Bien que la rétroaction automatique résolve une grande partie des erreurs de surface, elle ne comble pas le fossé des erreurs de raisonnement logique.
Perspectives futures : Pour progresser, il ne suffira pas d'augmenter l'échelle des modèles. Il faudra :
- Une exposition accrue aux données de logiciels quantiques.
- Un meilleur support pour le raisonnement compositionnel.
- Une alignement plus étroit avec les schémas d'exécution spécifiques à chaque framework.

QuanBench+ fournit une base pratique et reproductible pour évaluer ces prochaines étapes de développement, en offrant une vision plus nuancée des capacités réelles des LLMs dans le domaine quantique.