Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'apprendre à un enfant à reconnaître des voitures. Pour cela, vous avez besoin de milliers de photos. Mais il y a un problème : les photos de vraies voitures sont protégées par des droits d'auteur (comme des secrets industriels) et sont très rares. De plus, les annoter (dire "c'est une Ferrari", "c'est une Toyota") coûte une fortune.

C'est exactement le problème que rencontrent les ingénieurs en électronique aujourd'hui : ils ont besoin de beaucoup de données pour entraîner des intelligences artificielies à comprendre les circuits électroniques, mais ces données sont introuvables.

Voici comment les auteurs de cette recherche, Siyang Cai et son équipe, ont résolu le problème avec une idée géniale : "Une mauvaise recette, mais une belle structure."

1. Le Problème : L'IA qui fait des bêtises (mais pas n'importe lesquelles)

Les chercheurs ont utilisé des LLM (de grandes intelligences artificielles comme celle qui écrit ce texte) pour générer des codes de circuits électroniques.

Le souci : Ces IA sont excellentes pour écrire du code, mais elles font souvent des erreurs de logique. Si vous construisez le circuit tel quel, il ne fonctionnera pas (la voiture ne démarrera pas).
L'observation magique : Même si le code est "cassé" et que la voiture ne roule pas, la forme de la voiture est toujours là ! Le châssis, les roues et le moteur sont disposés exactement comme sur une vraie voiture. L'IA a raté la fonction, mais elle a parfaitement copié la structure.

2. La Solution : Construire une "Salle de Gym" avec des mannequins imparfaits

Au lieu de jeter ces codes imparfaits, les chercheurs ont eu l'idée de les utiliser comme mannequins d'entraînement.

Imaginez que vous voulez entraîner un détective à reconnaître un suspect.

L'ancienne méthode : Vous montrez au détective 10 photos de suspects réels (très rares et chères).
La nouvelle méthode : Vous demandez à un dessinateur (l'IA) de dessiner 10 000 croquis du suspect. Le dessinateur se trompe souvent sur les couleurs des yeux ou la forme du nez (c'est le "code cassé"), mais il dessine toujours la bonne silhouette et la bonne posture (c'est la "structure").

Le détective apprend à reconnaître la silhouette (la structure du circuit) plutôt que les détails parfaits. Une fois entraîné sur ces milliers de croquis imparfaits, il devient si fort qu'il reconnaît le vrai suspect (le circuit réel) instantanément, même s'il ne l'a jamais vu avant.

3. Comment ça marche concrètement ? (Le processus en 3 étapes)

La Génération (Le Dessinateur) : L'IA crée des milliers de versions différentes d'un même circuit. Certaines sont bizarres, d'autres sont un peu fausses, mais elles ont toutes la même "âme" structurelle.
Le Tri (Le Filtre) : Ils ne gardent pas tout. Ils utilisent un petit système pour vérifier : "Est-ce que ce dessin ressemble assez à la forme originale ?". S'il ressemble trop à un chat au lieu d'une voiture, on le jette. S'il ressemble à une voiture (même si les roues sont carrées), on le garde.
L'Entraînement (Le Coach) : Ils entraînent leur IA sur ces milliers de dessins triés. L'IA apprend à voir les motifs cachés qui définissent un circuit, peu importe les erreurs de détail.

4. Les Résultats : Plus fort que les experts

Les chercheurs ont testé leur méthode sur deux niveaux :

Niveau "Pièce détachée" : Identifier un petit composant (comme un adder) dans un circuit.
Niveau "Système complet" : Identifier un gros bloc (comme un processeur entier) dans un système complexe.

Résultat ? L'IA entraînée sur ces "fausses" données a été aussi bonne, voire meilleure, que celles entraînées sur les rares données réelles et parfaites. Elle a même réussi à reconnaître un processeur qu'elle n'avait jamais vu, simplement parce qu'elle avait appris à reconnaître sa "forme" générale grâce aux milliers de croquis imparfaits.

En résumé

Cette recherche nous dit : Ne soyez pas trop exigeants sur la perfection des données.

Parfois, avoir une grande quantité de données "brouillonnes" mais structurellement correctes est bien plus puissant que d'avoir quelques données parfaites mais rares. C'est comme apprendre à nager : il vaut mieux s'entraîner dans une piscine avec des vagues artificielles (les données LLM) que de ne jamais pratiquer parce qu'on attend la mer parfaite. Une fois à l'entraînement, le nageur (l'IA) sera prêt pour n'importe quelle vague réelle.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL" (Code erroné, structure correcte : Apprentissage de représentations de listes de connexions à partir de RTL généré imparfaitement par des LLM).

1. Problématique

L'apprentissage de représentations de listes de connexions (netlists) est crucial pour des tâches en aval telles que la détection de piratage de propriété intellectuelle (IP), la compréhension fonctionnelle, l'ingénierie inverse et l'audit de sécurité matérielle. Cependant, ce domaine fait face à un goulot d'étranglement majeur : la rareté des données étiquetées de haute qualité.

Contraintes : Les conceptions réelles sont protégées par la propriété intellectuelle (IP) et l'annotation manuelle est coûteuse et complexe.
Limites actuelles : Les méthodes existantes (apprentissage supervisé ou auto-supervisé) sont souvent limitées à de petits circuits (niveau opérateur) avec des données propres, ce qui empêche leur généralisation à des designs complexes de niveau IP.
Opportunité manquée : Les Grands Modèles de Langage (LLM) peuvent générer du code RTL à grande échelle, mais leur incorrectitude fonctionnelle (bugs logiques) a jusqu'ici empêché leur utilisation pour l'analyse de circuits, car les filtres de vérification fonctionnelle sont trop coûteux à appliquer massivement.

2. Observation Clé et Hypothèse

Les auteurs font une observation contre-intuitive mais fondamentale : même lorsque le RTL généré par un LLM est fonctionnellement incorrect, les listes de connexions (netlists) synthétisées conservent des motifs structurels fortement indicatifs de la fonctionnalité visée.
En d'autres termes, la structure de la liste de connexions est partiellement découplée de la fonctionnalité exacte. Cela permet d'utiliser des données "bruitées" (fonctionnellement imparfaites) pour apprendre des représentations structurelles robustes.

3. Méthodologie

L'article propose un cadre d'apprentissage de bout en bout (end-to-end) qui transforme les LLM en générateurs de données évolutifs et peu coûteux. Le processus se divise en trois étapes principales (illustrées dans la Figure 2 du papier) :

A. Augmentation de Données par Circuit (Circuit Data Augmentation)

Cette étape vise à générer un vaste ensemble de données à partir de spécifications fonctionnelles ou de RTL existants.

Génération RTL par LLM : Le LLM génère du code RTL à partir de spécifications fonctionnelles (extraites du RTL original ou fournies par l'utilisateur). Une approche "bottom-up" est utilisée pour les designs hiérarchiques.
Boucle de rétroaction de synthèse : Un agent de débogage analyse les logs d'erreur de l'outil de synthèse (Synopsys Design Compiler) pour corriger le code et garantir que le RTL est synthétisable, même s'il contient des erreurs fonctionnelles.
Mécanismes de filtrage et de sélection :
- Filtrage au niveau de la liste de connexions (Netlist-level) : Pour les designs visant à répliquer une architecture de référence, un filtre de similarité structurelle est appliqué. La similarité entre le graphe de la liste générée et le graphe "golden" (référence) est calculée via des embeddings de graphes (moyenne + max pooling). Seuls les designs avec une similarité supérieure à un seuil $\tau$ sont conservés.
- Vote d'Architecture au niveau RTL (RTL-level Architecture Voting) : Pour encourager la diversité architecturale (ex: adder à propagation de retenue vs adder à anticipation de retenue), un sous-ensemble de designs est sélectionné par le LLM lui-même, agissant comme évaluateur pour choisir les implémentations les plus diverses et complexes parmi un lot généré.

B. Apprentissage de Représentation de Liste de Connexions

Transformation Graphique : Les listes de connexions sont converties en graphes non orientés où les nœuds sont des portes logiques et les arêtes sont les fils.
Extraction de Caractéristiques : Chaque nœud reçoit un vecteur de caractéristiques incluant la connectivité (entrées/sorties primaires), la fonction logique (encodage one-hot) et les propriétés structurelles locales (degrés).
Entraînement GNN : Un Réseau de Neurones à Graphes (GNN), spécifiquement basé sur GraphSAINT pour la scalabilité, est entraîné pour apprendre des embeddings robustes. L'architecture de base reprend celle de GNN-RE pour assurer une comparaison équitable.

C. Tâches de Classification

Les embeddings appris sont utilisés pour deux types de tâches :

Classification au niveau nœud : Identification des limites des sous-circuits (sub-circuit boundary identification).
Classification au niveau graphe : Classification de la fonction globale du composant (IP-level classification).

4. Résultats Expérimentaux

Les évaluations ont été menées sur des benchmarks allant du niveau opérateur au niveau IP (SoC complets comme PicoRV32 et NEORV32).

Identification de sous-circuits (Niveau Opérateur) :
- Un modèle entraîné sur les données augmentées par LLM (LLM-Aug-t2) a atteint un F1-Macro de 93,79 %, surpassant la ligne de base (Baseline) entraînée sur des données réelles limitées (90,15 %).
- Cela démontre que les données synthétiques de haute qualité peuvent enrichir l'espace des caractéristiques mieux que les données réelles rares.
Généralisation Architecturale :
- L'ajout du mécanisme de Vote d'Architecture a permis d'obtenir les meilleures performances (F1-Micro 94,45 %), prouvant que la diversité architecturale introduite par le LLM améliore la généralisation sur des architectures non vues.
Étude de Cas Niveau IP (SoC) :
- Dans une expérience stricte de séparation de domaine (entraînement sur PicoRV32, test sur NEORV32), le modèle a dû identifier la frontière du cœur CPU.
- LLM-Filtered (avec filtrage structurel) a obtenu un F1 de 68,35 %, contre 58,28 % pour une augmentation basée sur des règles (FGNN2) et 60,44 % pour les données LLM brutes.
- Le filtrage structurel a considérablement amélioré la précision (de 58,90 % à 71,02 %) en éliminant les composants non pertinents structurellement.

5. Contributions Clés

Réévaluation de la valeur du RTL imparfait : Démonstration que les caractéristiques structurelles des listes de connexions sont robustes aux erreurs fonctionnelles du code source, validant l'utilisation de données bruitées pour l'apprentissage matériel.
Cadre d'apprentissage rentable : Proposition du premier cadre exploitant systématiquement le RTL généré par LLM (même imparfait) pour l'apprentissage de représentations. Cela réduit les coûts de préparation des données de plusieurs ordres de grandeur par rapport à l'annotation manuelle.
Scalabilité vers des scénarios réels : Extension réussie des tâches de partitionnement de sous-circuits du niveau opérateur au niveau IP, prouvant que les modèles entraînés sur des données synthétiques massives peuvent rivaliser avec ou surpasser ceux entraînés sur des données de haute qualité rares.

6. Signification

Ce travail résout le problème fondamental de la pénurie de données dans l'analyse de circuits matériels. En prouvant que la "structure" prime sur la "fonctionnalité parfaite" pour l'apprentissage de représentations, les auteurs ouvrent la voie à l'utilisation massive de données générées par IA. Cela permet de former des modèles capables de généraliser à des designs complexes et protégés par la propriété intellectuelle, offrant une solution pratique aux limites actuelles de l'ingénierie inverse et de la sécurité matérielle.