LLM4Cov: Execution-Aware Agentic Learning for High-coverage Testbench Generation

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Concept : L'Ingénieur de Vérification qui Apprend par l'Erreur

Imaginez que vous devez construire un pont géant (c'est le circuit électronique). Avant de le construire réellement, vous devez simuler son comportement avec un logiciel très complexe pour vous assurer qu'il ne s'effondrera pas. C'est ce qu'on appelle la vérification.

Le problème ? Ces simulations sont lentes et coûteuses. Si vous demandez à un robot (une Intelligence Artificielle) de créer des tests pour vérifier le pont, il risque de faire des milliers d'essais inutiles avant de trouver une faille. De plus, le robot ne peut pas "sentir" s'il a raison ou tort comme un humain ; il doit attendre que le simulateur lui dise : "Échec" ou "Réussite".

LLM4Cov est une nouvelle méthode pour entraîner un petit robot (une IA de 4 milliards de paramètres) à devenir un expert en vérification, même s'il est beaucoup plus petit que les "géants" (les IA de 50 ou 100 milliards de paramètres).

🧠 L'Analogie Principale : Le Coach de Football et le Joueur

Pour comprendre comment cela fonctionne, imaginons un entraîneur de football (l'IA) et un joueur (le modèle d'apprentissage).

1. Le Problème : L'Entraînement en "Vrai" est Trop Cher

Dans le monde réel, faire jouer un match complet (la simulation) prend du temps et de l'énergie. On ne peut pas faire jouer l'équipe 100 fois par jour pour qu'elle apprenne. C'est ce que les chercheurs appellent le coût de l'exécution.

L'ancienne méthode : Essayer d'apprendre en direct (Online RL). C'est comme essayer d'apprendre à nager en sautant dans l'océan sans bouée, en attendant que la vague vous pousse. Trop lent, trop risqué, trop cher.

2. La Solution : L'Apprentissage "Hors Ligne" (Offline)

LLM4Cov propose de créer un entraînement virtuel intelligent. Au lieu de faire jouer l'équipe en direct tout le temps, on analyse les vidéos des matchs précédents pour créer un manuel d'apprentissage parfait.

Voici les trois ingrédients magiques de leur recette :

🥣 Les 3 Ingrédients Magiques de la Recette

A. La "Curation de Données par Rejet" (Le Filtre Intelligent)

Imaginez que vous demandez à un élève d'écrire un test pour le pont.

Si l'élève écrit un test qui ne trouve aucune faille (c'est un échec), on ne jette pas le papier.
Au contraire, on garde ce papier ! Mais on le compare à une version améliorée par un expert.
L'analogie : C'est comme regarder un film de sport où l'équipe a perdu. Au lieu de regarder le score final, on regarde exactement quel moment précis ils ont fait une erreur, et comment l'entraîneur a corrigé le tir pour la prochaine fois.
Le but : Apprendre spécifiquement à récupérer après une erreur, car c'est là que se trouve la vraie valeur.

B. L'Échantillonnage "Pire État" (Chercher le Trou dans le Mur)

Souvent, les robots essaient de tester des choses faciles qui fonctionnent déjà bien. C'est ennuyeux et inutile.

La méthode LLM4Cov : Ils forcent le robot à regarder uniquement les situations où le test a le plus échoué (le "pire état").
L'analogie : Imaginez un plombier qui cherche une fuite. Au lieu d'inspecter les tuyaux qui fonctionnent bien, il va directement là où l'eau coule le plus fort. C'est là qu'il apprendra le plus vite à réparer.
En se concentrant sur les pires échecs, l'IA apprend à résoudre les problèmes les plus difficiles.

C. L'Apprentissage Progressif (L'Escalier)

On ne demande pas à un débutant de résoudre un problème de niveau expert dès le premier jour.

Étape 1 : L'élève regarde les erreurs d'un débutant et apprend à les corriger avec l'aide d'un expert.
Étape 2 : L'élève commence à faire ses propres erreurs, et on l'aide à les corriger.
Étape 3 : L'élève devient si fort qu'il peut trouver ses propres erreurs et se corriger tout seul.
Le secret : On ne mélange pas tout d'un coup. On construit l'apprentissage étage par étage, en s'assurant que le robot est prêt pour le niveau suivant avant de passer au suivant.

🏆 Le Résultat : Le Petit Géant

Le résultat le plus surprenant de ce papier ?
Ils ont pris un modèle d'IA petit (4 milliards de paramètres, comme un smartphone puissant) et l'ont entraîné avec cette méthode.

Le résultat : Ce petit modèle a battu des modèles géants (30 à 100 fois plus gros) dans la tâche de vérifier les circuits électroniques.
Pourquoi ? Parce que la qualité de l'entraînement (savoir où et comment apprendre de ses erreurs) est plus importante que la simple taille du cerveau.

💡 En Résumé

LLM4Cov, c'est comme dire : "Ne faites pas juste travailler votre IA plus dur. Apprenez-lui à regarder intelligemment ses échecs, concentrez-vous sur ses pires erreurs, et faites-lui monter les marches de l'apprentissage une par une."

Grâce à cette méthode, un petit robot peut devenir un expert en vérification de circuits, économisant ainsi des millions de dollars et des mois de travail pour les ingénieurs qui conçoivent nos puces électroniques.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le domaine de la vérification matérielle (hardware verification) repose sur la génération de bancs d'essai (testbenches) pour simuler des conceptions matérielles et mesurer la couverture des signaux et des branches logiques avant la fabrication. Ce processus est critique car les erreurs matérielles ne peuvent pas être corrigées après déploiement.

Les défis majeurs identifiés dans l'article sont :

Coût de l'inférence : L'obtention de retours d'exécution (feedback) via des simulateurs matériels précis est extrêmement coûteuse en temps de calcul (de quelques secondes à plusieurs heures) et en ressources. Cela rend l'apprentissage par renforcement en ligne (Online RL) impraticable.
Décalage de distribution (Distribution Shift) : Les modèles d'agents apprenant à partir de données statiques (ensembles de données fixes) échouent souvent car les états intermédiaires et les échecs rencontrés par un modèle étudiant (student) diffèrent considérablement de ceux générés par un modèle expert (teacher).
Limites du fine-tuning classique : Les approches existantes ne parviennent pas à exploiter efficacement les signaux de couverture denses mais coûteux dans un cadre d'apprentissage hors ligne (offline), en particulier face à l'évolution de la distribution des états du modèle étudiant.

2. Méthodologie : LLM4Cov

L'article propose LLM4Cov, un cadre d'apprentissage d'agents exécutant une vérification guidée par l'exécution, conçu pour fonctionner entièrement hors ligne.

A. Formalisation : Transitions d'état sans mémoire

Le processus de vérification est modélisé comme une séquence de transitions d'état sans mémoire (memoryless).

État ( $s_t$ ) : Défini par le dépôt de conception matériel ( $R$ ), le banc d'essai actuel ( $x_t$ ) et l'observation du simulateur ( $o_t$ : statut, couverture, logs).
Hypothèse : L'agent ne dépend pas de l'historique complet des interactions, mais uniquement de l'état courant. Cela réduit la longueur des prompts et concentre l'apprentissage sur le signal d'exécution le plus récent.
Transition : Le modèle génère un nouveau banc d'essai ( $x_{t+1}$ ) basé sur l'état courant, qui est ensuite évalué par le simulateur.

B. Trois piliers méthodologiques clés

Raffinement par Rejet Agentic Guidé par la Couverture (Coverage-Guided Agentic Rejection Fine-Tuning) :
- Au lieu de rejeter les tentatives échouées, le système conserve les ébauches à faible couverture et leurs révisions les plus efficaces.
- Sélection de l'état le plus critique (Worst-State Selection) : Parmi plusieurs états intermédiaires générés, le système sélectionne celui ayant la couverture la plus faible pour générer des transitions correctives. Cela concentre l'apprentissage sur les modes d'échec les plus difficiles.
- Rejet basé sur l'exécution : Seules les transitions qui améliorent significativement la couverture par rapport à l'état précédent sont conservées pour l'entraînement.
Synthèse de Données Agentic Consciente de la Politique (Policy-Aware Agentic Data Synthesis) :
- Le cadre distingue trois types de traces d'agents pour gérer le décalage de distribution :
  - Traces Full-Teacher : Générées entièrement par le modèle expert (risque de biais).
  - Traces de type Imitation : États intermédiaires générés par l'étudiant, transitions correctives par le professeur.
  - Traces Auto-échantillonnées (Self-Sampling) : Tout généré par l'étudiant.
- Cette taxonomie permet de découpler la distribution des états visités de la qualité des transitions correctives.
Apprentissage Progressif Conditionné par la Vérification (Verification-Conditioned Progressive Learning) :
- L'entraînement se déroule en plusieurs étapes (stages) alignées sur l'évolution du modèle étudiant.
- Stage 0 : Warm-up avec des traces guidées par un professeur fort pour assurer la validité syntaxique.
- Stage 1 : Utilisation de traces de type "imitation" (étudiant génère les états, professeur corrige) pour apprendre à récupérer des échecs courants.
- Stage 2 : Utilisation de traces "auto-échantillonnées" où l'étudiant génère ses propres corrections, permettant d'apprendre des stratégies de récupération au-delà des capacités fixes d'un professeur statique.
- Contrairement à l'augmentation de données naïve (mélanger toutes les données), cette approche progressive maintient l'alignement entre la distribution des données synthétisées et les capacités actuelles du modèle.

3. Résultats Expérimentaux

Les expériences ont été menées sur le benchmark CVDP-ECov (une adaptation du benchmark CVDP incluant l'accès au code matériel complet).

Performance du modèle : Un modèle compact de 4 milliards de paramètres (Qwen3-4B) entraîné avec LLM4Cov atteint un taux de réussite de couverture (Coverage Pass Rate) de 69,2 %.
Comparaison avec les modèles plus grands :
- Il surpasse son modèle professeur de 30 milliards de paramètres (+5,3 %).
- Il rivalise avec des modèles de 50 à 100 fois plus grands (ex: modèles de 300B+ ou 72B), démontrant que l'apprentissage agentic spécialisé est plus efficace que le simple passage à l'échelle (scaling).
Efficacité : Le modèle atteint des performances compétitives avec une fraction infime des paramètres des modèles généralistes ou spécialisés les plus grands, prouvant que la qualité des données d'entraînement (alignées sur l'exécution) prime sur la taille brute du modèle.

4. Contributions Clés

LLM4Cov : Le premier cadre d'apprentissage d'agents exécutant une vérification de haute couverture, convertissant systématiquement les retours de couverture coûteux en supervision hors ligne stable.
Formulation sans mémoire : Démonstration que la modélisation de la vérification comme des transitions d'état sans mémoire améliore la performance et l'efficacité par rapport aux approches basées sur l'historique complet.
Stratégies de synthèse de données : Introduction de la sélection d'états critiques (worst-state) et de l'apprentissage progressif conditionné pour résoudre le problème du décalage de distribution dans l'apprentissage d'agents hors ligne.
Benchmark Réaliste : Création d'un protocole d'évaluation adapté (CVDP-ECov) qui reflète mieux les flux de travail industriels en fournissant l'ensemble du dépôt de conception au modèle, et non seulement la spécification textuelle.

5. Signification et Impact

Ce travail marque une avancée significative pour l'application des LLMs à la conception matérielle. Il démontre que :

L'apprentissage par renforcement en ligne n'est pas nécessaire pour les tâches coûteuses en simulation ; une approche hors ligne bien conçue suffit.
La qualité de la supervision (alignée sur les échecs réels du modèle étudiant et les retours d'exécution) est plus déterminante que la taille du modèle.
Les modèles compacts peuvent acquérir des capacités de récupération et d'exploration robustes pour la vérification matérielle, rendant cette technologie plus accessible et économiquement viable pour l'industrie.

En résumé, LLM4Cov transforme la vérification matérielle d'un processus itératif coûteux en un cycle d'apprentissage efficace, permettant à des modèles de petite taille de surpasser des géants du secteur grâce à une ingénierie de données agentic sophistiquée.