QiMeng-CodeV-SVA: Training Specialized LLMs for Hardware Assertion Generation via RTL-Grounded Bidirectional Data Synthesis

Each language version is independently generated for its own context, not a direct translation.

🏗️ De Grote Uitdaging: Bouwen zonder Blauwdrukken

Stel je voor dat je een enorme, complexe machine bouwt (zoals een supercomputer-chip). Om ervoor te zorgen dat deze machine niet kapot gaat of fouten maakt, moet je controle-regels schrijven. In de wereld van computerchips heten deze regels SVAs (SystemVerilog Assertions).

Het probleem is dat het schrijven van deze regels heel moeilijk is. Het is als het schrijven van een juridisch contract in een vreemde taal die alleen ingenieurs begrijpen. Mensen moeten dit handmatig doen, wat veel tijd kost en vaak fouten oplevert.

Recentelijk hebben wetenschappers geprobeerd om AI (zoals ChatGPT) te gebruiken om deze regels automatisch te schrijven. Maar de AI's die we nu hebben, zijn als algemene universitairs: ze weten veel over geschiedenis, poëzie en wiskunde, maar ze zijn niet gespecialiseerd in het bouwen van computerchips. Als je ze vraagt om chip-regels te schrijven, maken ze vaak domme fouten of schrijven ze regels die technisch kloppen, maar betekenisloos zijn.

🧪 De Oplossing: Een AI die "Chipsprake" leert

De auteurs van dit paper (QiMeng-CodeV-SVA) hebben een slimme manier bedacht om een AI te trainen die écht goed is in het schrijven van chip-regels. Ze hebben drie grote obstakels opgelost:

1. Het probleem van de "Lege Bibliotheek"

Om een AI goed te leren, heb je duizenden voorbeelden nodig. Maar er zijn heel weinig goede voorbeelden van chip-regels beschikbaar.

De Analogie: Stel je voor dat je een kok wilt leren koken, maar je hebt alleen maar 5 recepten uit een oud kookboek. Je kunt er geen meesterkok van maken.
De Oplossing: In plaats van te wachten op recepten, hebben de onderzoekers de AI laten kijken naar de ingrediënten (de chip-ontwerpen, ofwel "RTL-code") die er al in overvloed zijn. Ze lieten de AI zelf nieuwe regels bedenken op basis van deze ontwerpen. Het is alsof je de kok duizenden ingrediënten geeft en vraagt: "Wat voor gerecht kun jij hiermee maken?"

2. Het probleem van de "Valse Vriend"

Soms denkt de AI dat hij een goede regel heeft bedacht, maar is het eigenlijk een zinloze zinnetje dat altijd waar is (bijvoorbeeld: "Het is altijd dag of het is altijd nacht"). Een simpele test zou zeggen: "Ja, dat klopt!" maar het zegt niets over de chip.

De Analogie: Stel je voor dat je een vertaler vraagt om een zin te vertalen. Hij vertaalt "Ik heb honger" naar "De zon schijnt". Als je de vertaler vraagt: "Is dit een zin?", zegt hij "Ja". Maar de betekenis is verloren gegaan.
De Oplossing (De "Terug-vertaal"-truc): Ze gebruiken een slimme truc genaamd Bidirectionele Vertaling.
1. De AI schrijft een regel (van mensentaal naar chip-taal).
2. De AI vertaalt die regel terug naar mensentaal.
3. Dan vertaalt hij het weer terug naar chip-taal.
- Als de eindresultaat precies hetzelfde is als het begin, is de vertaling goed.
- Als de eindresultaat anders is, betekent dit dat de AI iets verkeerd heeft begrepen of verzonnen. Die "valse" regels worden weggegooid.
- Vergelijking: Het is alsof je een boodschap fluistert in het oor van iemand, die het doorgeeft aan een derde, die het weer terugflustert. Als de boodschap aan het einde niet meer klopt, wist je dat er iets tussendoor is verdraaid.

3. Het probleem van de "Slechte Docent"

Vaak gebruiken onderzoekers andere AI's om te controleren of de regels goed zijn. Maar die andere AI's zijn ook niet perfect.

De Oplossing: Ze gebruiken een formele verificatietool (een soort super-precieze rekenmachine) om te checken of de regel echt werkt in de chip. Alleen de regels die deze rekenmachine 100% goedkeurt, worden gebruikt om de AI te trainen.

🚀 Het Resultaat: De "Meesterkok" van Chips

Na het trainen met deze slimme methode (het verzamelen van ingrediënten, de terug-vertaal-truc en de super-keuring), hebben ze een nieuwe AI gemaakt: CodeV-SVA.

Hoe goed is hij? Hij is beter dan de duurste, beroemdste AI's ter wereld (zoals GPT-5 en DeepSeek-R1) als het gaat om het schrijven van chip-regels.
Is hij duur? Nee! De onderzoekers hebben een model gemaakt dat klein en snel is (14 miljard parameters), maar presteert als een gigant. Het is alsof ze een slimme, goedkope robot hebben gebouwd die net zo goed werkt als een dure, enorme fabriek.

🌟 Samenvatting in één zin

De onderzoekers hebben een manier bedacht om een AI te trainen die computerchips controleert, door de AI te laten oefenen met echte chip-ontwerpen en een slimme "terug-vertaal-test" te gebruiken om alle fouten eruit te filteren, waardoor ze een goedkope, super-snelle AI hebben die beter is dan de duurste concurrenten.

Het is een prachtige voorbeeld van hoe je niet alleen meer data nodig hebt, maar slimmere data nodig hebt om AI echt slim te maken.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

De paper adresseert de kritieke uitdaging bij het automatiseren van hardwareverificatie, specifiek het genereren van SystemVerilog Assertions (SVA). SVAs zijn essentieel om te garanderen dat hardware-ontwerpen (RTL-code) voldoen aan de gespecificeerde functionele eisen.

De huidige aanpakken hebben twee fundamentele tekortkomingen:

Schaarste aan hoogwaardige trainingsdata: Er is een gebrek aan grote, kwalitatief goede corpora van menselijke NL-SVA-paren (Natuurlijke Taal naar SVA). Bestaande datasets (zoals uit handboeken of open-source repositories) zijn te klein en vaak niet representatief voor complexe real-world scenario's.
Moeilijkheid om semantische equivalentie te valideren: Het is lastig om automatisch te bepalen of een door een LLM gegenereerde SVA semantisch overeenkomt met de oorspronkelijke natuurlijke taalbeschrijving.
- Formele verificatietools kunnen "triviale" of "vacuue" assertions (bijv. assert property (1'b1)) als geldig bestempelen, zelfs als ze niets zeggen over de specificatie.
- LLMs als "rechter" (LLM-as-a-judge) hebben moeite met de subtiele syntaxis van SVA (zoals operator-prioriteit), wat leidt tot foutieve validaties.

Dit resulteert in dat algemene LLMs (zoals GPT-5 of DeepSeek-R1) vaak falen bij deze gespecialiseerde taak, terwijl het trainen van gespecialiseerde modellen wordt gehinderd door de datakwaliteit.

2. Methodologie

De auteurs introduceren CodeV-SVA, een pipeline die bestaat uit een innovatief data-syntheseframework en het trainen van gespecialiseerde modellen. Het proces verloopt in vier fasen:

A. SVA-synthese op basis van real-world RTL

In plaats van te vertrouwen op bestaande SVA-datasets, gebruiken de auteurs grote hoeveelheden open-source RTL-code als "Design Under Test" (DUT).

Ze nemen open-source RTL-projecten (uit de CodeV-dataset) en gebruiken een algemene LLM om natuurlijke taal-eigenschappen (NL) en bijbehorende SVAs te genereren.
Deze gegenereerde SVAs worden gefilterd met een formele verificatietool (JasperGold). Alleen SVAs die formeel geldig zijn onder de gegeven RTL-code worden behouden als "seed data". Dit levert een dataset van 159K instances op.

B. Bidirectionele Data Selectie (De kerninnovatie)

Om de semantische kloof tussen NL en SVA te dichten, gebruiken ze een bidirectionele vertaalstrategie:

SVA $\rightarrow$ NL $\rightarrow$ SVA: Een gegenereerde SVA wordt vertaald naar natuurlijke taal door een LLM, en vervolgens weer terugvertaald naar een nieuwe SVA.
Equivalentie-check: De originele SVA en de opnieuw gegenereerde SVA worden formeel vergeleken.
Selectie: Alleen paren waarbij de opnieuw gegenereerde SVA logisch equivalent is aan de originele, worden behouden.
- Redenering: Als de SVA na een heen-en-weer vertaling nog steeds equivalent is, is er waarschijnlijk geen informatie verloren gegaan en is de semantische uitlijning correct. Dit filtert foutieve of triviale assertions effectief weg (zoals getoond in de case study over operator-prioriteit).
- Dit reduceert de dataset naar 105K hoogwaardige paren.

C. Verdere Data Kwaliteitsverbetering

Om de dataset verder te verfijnen, passen ze drie technieken toe:

LLM-as-a-judge met expertkennis: Menselijke experts categoriseren fouten (logische misalignement, signaal-inconsistentie, etc.), waarna een LLM wordt getraind om deze fouten te detecteren en te verwijderen.
Moeilijkheidsfiltering: Een zwakker LLM probeert SVAs te genereren; als het de taak te makkelijk vindt (alle generaties zijn equivalent), wordt het datapunt verwijderd om triviale voorbeelden te elimineren.
Redeneringstrajectie Augmentatie: Een krachtig redenerend model (DeepSeek-R1) genereert lange redeneringspaden (Chain-of-Thought) voor de juiste SVAs. Alleen data met een correct eindantwoord wordt behouden, wat de redeneercapaciteit van het eindmodel versterkt.
- Eindresultaat: Een dataset van 83K hoogwaardige, geredeneerde NL-SVA-paren.

D. Supervised Fine-Tuning (SFT)

De gegenereerde dataset wordt gebruikt om open-source modellen (Qwen3-8B en Qwen3-14B) te fine-tunen tot CodeV-SVA. Het trainingsdoel omvat het voorspellen van zowel het redeneringstraject als het uiteindelijke SVA-antwoord.

3. Belangrijkste Bijdragen

RTL-Grounded Data Synthesis: Een nieuwe aanpak om schaarste aan SVA-data op te lossen door gebruik te maken van de overvloed aan open-source RTL-code als basis voor generatie, in plaats van te vertrouwen op bestaande SVA-repositories.
Bidirectionele Selectie: Een robuuste methode om de semantische equivalentie tussen natuurlijke taal en formele assertions te valideren zonder menselijke tussenkomst, wat leidt tot een drastische verbetering in datakwaliteit (van 68% naar 96% nauwkeurigheid in tests).
CodeV-SVA Modellen: De ontwikkeling van gespecialiseerde LLMs (8B en 14B parameters) die specifiek zijn getraind voor hardwareverificatie.
Open Source Commitment: De auteurs plannen om de dataset, de modellen en de trainingspipeline open source te maken.

4. Resultaten

De modellen zijn geëvalueerd op de FVEval-NL2SVA benchmark (bestaande uit NL2SVA-Human en NL2SVA-Machine).

Prestaties: CodeV-SVA-14B behaalde 75.8% op NL2SVA-Human en 84.0% op NL2SVA-Machine (Func.@1).
Vergelijking: Deze resultaten zijn gelijk aan of beter dan die van geavanceerde, gesloten modellen zoals GPT-5 en DeepSeek-R1, en overtreffen ze aanzienlijk.
Efficiëntie: CodeV-SVA-14B presteert beter dan zijn "leraar" (DeepSeek-R1-671B) en de dure GPT-5, maar vereist veel minder rekenkracht en is lichter te deployen.
Ablatie-studies: De studies tonen aan dat de bidirectionele selectie de grootste bijdrage levert aan de prestatieverbetering (+12.3% op Func.@1 voor Human) en dat het gebruik van redeneringstrajecties essentieel is voor succes.
End-to-End Verificatie: In een volledig geautomatiseerd verificatiewerkstroom (gebaseerd op AssertionForge) genereerde CodeV-SVA aanzienlijk meer syntactisch correcte en formeel verifieerbare SVAs dan GPT-4o en DeepSeek-R1, met name op complexe ontwerpen zoals OPENMSP430.

5. Significantie

Deze paper is van groot belang voor de EDA (Electronic Design Automation) industrie en het onderzoek naar AI voor hardware:

Oplossing voor Data-schaarste: Het biedt een bewezen methode om grote, hoogwaardige datasets te genereren voor domeinspecifieke taken waar menselijke data ontbreekt.
Kostenefficiëntie: Het demonstreert dat gespecialiseerde, kleinere modellen (14B parameters), getraind op synthetische data van hoge kwaliteit, kunnen concurreren met of zelfs beter kunnen presteren dan enorme, dure gesloten modellen. Dit maakt geavanceerde hardwareverificatie toegankelijker voor bedrijven.
Betrouwbaarheid: Door de bidirectionele validatie en formele verificatie in de trainingspipeline te integreren, wordt de betrouwbaarheid van gegenereerde assertions drastisch verhoogd, wat cruciaal is voor het voorkomen van hardwarefouten.

Samenvattend introduceert CodeV-SVA een nieuwe state-of-the-art voor het automatiseren van hardwareverificatie, waarbij synthetische data en gespecialiseerde training de barrières van datakwaliteit en modelkosten doorbreken.