LLM4Cov: Execution-Aware Agentic Learning for High-coverage Testbench Generation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein junger, talentierter Ingenieur, der gerade lernt, wie man einen extrem komplexen Motor baut. Aber es gibt ein riesiges Problem: Du darfst den Motor nicht einfach auf die Straße stellen und testen. Ein Testlauf dauert Stunden, kostet eine kleine Vermögen an Energie und wenn etwas schiefgeht, ist der Motor vielleicht kaputt.

Das ist genau das Problem, mit dem Ingenieure bei der Entwicklung von Computer-Chips (Hardware) kämpfen. Bevor ein Chip produziert wird, muss er in einer Simulation getestet werden. Diese Tests sind teuer, langsam und oft kompliziert.

Die Forscher in diesem Papier haben eine Lösung namens LLM4Cov entwickelt. Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar Bildern im Kopf:

1. Das Problem: Der teure Lehrer

Normalerweise würden KI-Modelle (wie ein sehr schlauer Assistent) lernen, indem sie Fehler machen, korrigiert werden und es nochmal versuchen. Das nennt man "Online-Lernen".

Das Problem: Bei Chip-Tests ist jeder Versuch wie ein teurer Testlauf im echten Leben. Wenn die KI 1000 Fehler macht, um zu lernen, kostet das so viel Zeit und Geld, dass es unmöglich ist. Man kann sich keinen "Live-Test" leisten.

2. Die Lösung: Der "Offline-Trainings-Plan"

Statt die KI live testen zu lassen, haben die Forscher einen cleveren Trick angewendet. Sie haben die KI so trainiert, als würde sie in einem Videogame üben, das die Realität perfekt nachahmt, aber keine echten Kosten verursacht.

Hier sind die drei genialen Zutaten ihres Rezepts:

A. Der "Schlimmste-Fall"-Trainer (Worst-State Prioritization)

Stell dir vor, du lernst Klavierspielen.

Der dumme Weg: Du spielst immer nur die einfachen Lieder, die du schon kannst. Du wirst nie besser.
Der LLM4Cov-Weg: Der Trainer sucht sich gezielt die schlimmsten Stellen aus, an denen du hängen bleibst (die "schlechtesten Zustände"). Er sagt: "Okay, hier hast du den Fehler gemacht. Versuchen wir jetzt nur, diese eine Stelle zu reparieren."
Warum das hilft: Die KI lernt nicht aus den einfachen Dingen, sondern aus den schwierigen Pannen. Sie wird zum Meister im Reparieren von Fehlern, genau dort, wo es am meisten zählt.

B. Der "Stufen-Plan" (Progressive Learning)

Man kann nicht sofort den schwierigsten Level spielen.

Stufe 1: Die KI lernt von einem sehr erfahrenen Meister (einem großen KI-Modell), wie man Fehler repariert. Sie schaut sich an: "Wie würde der Profi das lösen?"
Stufe 2: Die KI wird schon etwas besser. Jetzt darf sie selbst raten, wie man Fehler repariert, aber der Meister gibt ihr noch Feedback.
Stufe 3: Die KI ist so gut, dass sie sich selbst trainiert. Sie macht Fehler, findet ihre eigenen Lösungen und verbessert sich selbst.
Der Clou: Wenn man alles auf einmal mischt, wird die KI verwirrt. Aber Schritt für Schritt (wie beim Lernen eines Sports) wird sie immer stabiler und stärker.

C. Der "Gedächtnis-Reset" (Memoryless State)

Normalerweise erinnern sich KIs an alles, was sie je gesagt haben. Das macht die Nachrichten so lang und unübersichtlich, dass sie den Faden verlieren.

Der Trick: Die Forscher sagen der KI: "Vergiss die ganze Geschichte. Schau nur auf den jetzigen Zustand."
Die Analogie: Stell dir vor, du bist in einem Labyrinth. Anstatt dir zu merken, wie viele Schritte du gemacht hast und wo du schon warst (was den Kopf vollmacht), schaust du nur auf die Wände direkt vor dir und den Boden unter deinen Füßen. Das macht die Entscheidung viel schneller und effizienter.

Das Ergebnis: Ein kleiner Riese

Das Beeindruckendste an dieser Arbeit ist das Ergebnis:
Sie haben ein kleines KI-Modell (nur 4 Milliarden Parameter – vergleichbar mit einem kompakten, aber schlauen Studenten) trainiert.

Dieses kleine Modell hat es geschafft, besser zu sein als riesige, 30-mal größere Modelle (die "Super-Profis").
Es hat sogar mit Modellen konkurriert, die 50- bis 100-mal so groß sind.

Zusammenfassung in einem Satz:
LLM4Cov ist wie ein genialer Trainer, der einem kleinen Schüler beibringt, wie man teure Fehler in der Chip-Welt repariert, indem er ihn gezielt an den schwierigsten Stellen üben lässt, Schritt für Schritt voranschreitet und ihn lehren, den Moment im Fokus zu behalten, anstatt sich in der Vergangenheit zu verlieren.

Dadurch können jetzt auch kleinere, günstigere Computer-Chips schneller und sicherer entwickelt werden, ohne dass man dafür Supercomputer braucht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert die Herausforderung der automatisierten Hardware-Verifikation mittels Large Language Models (LLMs).

Hintergrund: Bevor Hardware-Chips gefertigt werden, müssen sie durch Testbänke (Verifikationsprogramme) simuliert werden, um die Abdeckung (Coverage) von Logikpfaden und Signalen zu maximieren. Dieser Prozess ist rechenintensiv und erfordert oft Stunden oder Tage an Simulationszeit.
Das Dilemma: LLM-Agenten, die aus Feedback von Ausführungstools lernen (Execution-Aware Learning), sind vielversprechend, aber das Training ist extrem schwierig:
- Hohe Kosten: Jede Rückmeldung (Feedback) erfordert eine teure Simulation. Ein Online-Reinforcement-Learning (RL) ist aufgrund der hohen Latenz und Kosten unpraktisch.
- Offline-Limitierung: Modelle müssen daher primär auf Offline-Daten trainieren.
- Verteilungsverschiebung (Distribution Shift): Ein statisches Trainingsdatenset passt nicht zum sich entwickelnden „Schüler"-Modell. Fehler, die ein fortgeschritteneres Modell macht, unterscheiden sich stark von denen, die in einem statischen Datensatz (z. B. von einem Lehrer-Modell generiert) enthalten sind.
Ziel: Ein Framework zu entwickeln, das teure Simulations-Feedback-Signale effizient in stabiles, offline-basiertes Supervision für Agenten umwandelt, ohne auf Online-RL angewiesen zu sein.

2. Methodik: LLM4Cov Framework

Das vorgeschlagene Framework, LLM4Cov, modelliert die Verifikation als eine Abfolge von gedächtnislosen Zustandsübergängen (memoryless state transitions), die durch deterministische Evaluatoren (Simulatoren) gesteuert werden.

Kernkomponenten:

Gedächtnislose Zustandsrepräsentation:
- Der Zustand $s_t$ besteht aus dem Hardware-Design-Repository, dem aktuellen Testbench-Code $x_t$ und dem Simulations-Feedback $o_t$ (Status, Coverage, Logs).
- Im Gegensatz zu herkömmlichen Ansätzen, die die gesamte Historie speichern, wird nur der aktuelle Zustand betrachtet. Dies reduziert die Prompt-Länge und zwingt das Modell, sich auf das aktuellste Ausführungssignal zu konzentrieren.
Coverage-Guided Agentic Rejection Fine-Tuning (CGRFT):
- Prinzip: Anstatt nur erfolgreiche Pfade zu lernen, werden gezielt Fehlerzustände (niedrige Abdeckung) und deren Wiederherstellungsversuche (Recovery) gelernt.
- Worst-State-Prioritized Sampling: Aus einer Menge von generierten Zwischenschritten wird der Zustand mit der schlechtesten Abdeckung ausgewählt.
- Rejection Sampling: Für diesen schlechten Zustand werden neue Testbench-Varianten generiert. Nur diejenigen, die eine signifikante Verbesserung der Abdeckung ( $\Delta Cov \ge \tau$ ) erzielen, werden als Trainingsdaten behalten. Dies konzentriert das Lernen auf kritische Reparatur-Szenarien.
Verifikations-konditioniertes progressives Lernen (Verification-Conditioned Progressive Learning):
- Da sich die Fehlerverteilung des Schülermodells während des Trainings ändert, wird das Training in Stufen unterteilt, um die Daten synthese an den aktuellen Modellzustand anzupassen.
- Stufe 0 (Warm-up): Nutzung von „Full-Teacher"-Spuren (Lehrer generiert alles), um Basis-Korrektheit zu gewährleisten.
- Stufe 1 (Imitation): Der Schüler generiert die Zwischenzustände (Fehler), der Lehrer generiert die Reparatur. Dies gleicht die Verteilung der Fehlerzustände an den Schüler an.
- Stufe 2 (Self-Sampling): Sowohl Fehlerzustände als auch Reparaturen werden vom Schüler generiert. Dies ermöglicht das Lernen von Strategien, die über die Fähigkeiten eines statischen Lehrers hinausgehen.

3. Wichtige Beiträge

Neues Paradigma: LLM4Cov ist das erste Framework für Execution-Aware Agentic Learning im Hardware-Verifikationskontext, das teure Online-Feedback-Schleifen durch eine systematische Offline-Strategie ersetzt.
Formalisierung: Die Umformulierung der Verifikation als gedächtnislose Zustandsübergänge, die explizit den Verteilungsverschiebungs-Problem (Distribution Shift) adressieren.
Datenkuratierung: Einführung von „Execution-Validated Data Curation" und „Worst-State-Prioritized Sampling", um maximale Lernsignale aus jeder einzelnen Simulationsausführung zu extrahieren.
Benchmark: Erstellung eines realitätsnahen Benchmarks (CVDP-ECov), der auf einem bestehenden Verifikations-Suite basiert, aber den gesamten Hardware-Repository für das LLM sichtbar macht (anstatt nur die Spezifikation), was den industriellen Workflow besser widerspiegelt.

4. Ergebnisse

Die Experimente wurden auf dem CVDP-ECov-Benchmark mit 83 Hardware-Repositories durchgeführt.

Leistungsüberschreitung: Ein kompaktes 4B-Parameter-Modell (Qwen3-4B), das mit LLM4Cov trainiert wurde, erreicht eine Coverage-Pass-Rate von 69,2% unter agenter Bewertung.
Vergleich mit größeren Modellen:
- Das 4B-Modell übertrifft seinen 30B-Parameter-Lehrer um 5,3%.
- Es ist wettbewerbsfähig mit Modellen, die 50- bis 100-mal größer sind (z. B. 30B- und 72B-Modelle sowie spezialisierte Hardware-LLMs).
- Es schlägt auch allgemeine Coding-Modelle (wie Llama-4-Maverick 400B) in diesem spezifischen agenten Setting signifikant.
Effizienz: Die Ergebnisse zeigen, dass spezialisiertes agentes Lernen durch gezielte Datenkurierung und Verteilungsanpassung effizienter ist als reines Skalieren der Modellgröße (Scaling Laws).

5. Bedeutung und Fazit

Das Paper demonstriert, dass für komplexe, kostenintensive Aufgaben wie die Hardware-Verifikation nicht einfach größere Modelle die Lösung sind. Stattdessen ist eine systematische Anpassung des Trainingsprozesses an die Realität der Ausführung (Execution-Grounding) entscheidend.

Praktische Relevanz: Durch die Fähigkeit, mit kleinen Modellen hohe Abdeckungsraten zu erreichen, wird die Hardware-Verifikation kosteneffizienter und schneller.
Wissenschaftlicher Beitrag: Die Arbeit liefert einen systematischen Rahmen, um teure, nicht-differenzierbare Feedback-Signale (wie Simulations-Coverage) in stabiles, offline-basiertes Supervised Learning zu übersetzen. Sie löst das Problem der Verteilungsverschiebung zwischen Lehrer und Schüler durch progressive, zustandsabhängige Daten synthese.

Zusammenfassend beweist LLM4Cov, dass Execution-Aware Agentic Learning in Kombination mit intelligenten Offline-Strategien (Worst-State-Sampling, Progressive Learning) die Grenzen der Hardware-Verifikation verschieben kann, ohne auf massive Rechenressourcen für Online-Training angewiesen zu sein.

LLM4Cov: Execution-Aware Agentic Learning for High-coverage Testbench Generation

1. Das Problem: Der teure Lehrer

2. Die Lösung: Der "Offline-Trainings-Plan"

A. Der "Schlimmste-Fall"-Trainer (Worst-State Prioritization)

B. Der "Stufen-Plan" (Progressive Learning)

C. Der "Gedächtnis-Reset" (Memoryless State)

Das Ergebnis: Ein kleiner Riese

1. Problemstellung

2. Methodik: LLM4Cov Framework

Kernkomponenten:

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks