Each language version is independently generated for its own context, not a direct translation.

HDLFORGE：賢い「2 段階式」Verilog コード生成の秘密

この論文は、**「HDLFORGE（エッチディーエル・フォーグ）」**という新しいシステムを紹介しています。これは、人工知能（AI）を使って、電子回路を設計するための「Verilog（ベリログ）」というプログラミング言語を自動で作るための仕組みです。

一言で言うと、**「安くて速い AI をまず使い、ダメなときはだけ、高価で賢い AI に頼む」**という、とても効率的な「2 段階のチームワーク」を実現したものです。

以下に、専門用語を使わず、日常の例え話で解説します。

1. 従来の問題：「全員が超一流」だと高すぎる

以前までの AI による回路設計では、どんな小さな仕事でも「超一流の天才 AI（巨大なモデル）」を使っていたり、逆に「安価な AI」だけを使って失敗したりしていました。

天才 AI だけを使うと： すごく正確ですが、お金も時間（計算リソース）もかかりすぎて、小さな仕事には不向きです。
安価な AI だけを使うと： 速いですが、ミスが多く、結局やり直しで時間がかかってしまいます。

2. HDLFORGE のアイデア：「見習い」から「職人」へのエスカレーション

HDLFORGE は、このジレンマを解決するために、**「2 段階のチーム」**を作りました。

【第 1 段階：見習い職人（ステージ A）】

役割： まず、**「中くらいの AI（7B モデルなど）」**が、指示された回路設計を一生懸命作ります。
特徴： 安くて速いです。
チェック体制： 作られたコードは、すぐに「簡易検査（コンパイルや簡易テスト）」を受けます。
- もし「文法ミス」があれば即座に直します。
- もし「小さなテスト」で失敗すれば、その失敗原因をメモして、次の回に活かします。
成功すれば： ここで終了です。安くて速く終わります。

【第 2 段階：超一流の職人（ステージ B）】

いつ呼ぶか？ 見習い職人が何度やっても失敗し続けたり、難しすぎる問題だと判断されたときだけ呼び出します。
役割： **「超巨大な AI（Claude 3.5 など）」**が、見習いが失敗した「失敗ノート」と「簡易テスト」を見ながら、最終的に完璧なコードを作ります。
特徴： 高価ですが、一度きりしか使いません。

🍳 料理の例え：
夕食を作る際、まず**「安くて速い料理人（見習い）」**に頼みます。

彼が「卵焼き」を作れれば、それで OK。
もし「難しいフレンチ料理」を頼んで失敗しそうになったら、**「ミシュラン星付きの天才シェフ（超一流）」**に「失敗した理由と材料」を渡して、最後に仕上げを頼みます。
こうすれば、安くて速い料理は安く作れ、難しい料理だけ高価なシェフを使えばいいので、トータルのコストと時間を節約できます。

3. このシステムの「魔法」の 3 つの秘密

HDLFORGE が優れているのは、単に AI を 2 段階にしたことだけではありません。3 つの工夫があります。

① 「失敗の証拠」を「練習問題」に変える（マイクロテスト）

AI が回路設計でミスをしたとき、単に「直して」と言うだけでは、AI は同じミスを繰り返します。
HDLFORGE は、「なぜ失敗したか」を分析し、その失敗パターンを「小さな練習問題（マイクロテスト）」として作ります。

例え： 料理人が「卵を焼きすぎた」失敗をしたとします。HDLFORGE は「次は 3 分間だけ加熱して、焦げないか確認する」という**「小さなチェックルール」**を作ります。
次回から、見習い職人はこのルールに従って作るので、同じ失敗を繰り返さなくなります。これを「反例に基づく学習」と呼びます。

② 「診断スコア」で判断する

「いつ、天才シェフを呼ぶべきか？」を AI が直感で決めるのではなく、**「診断スコア」**という数値で判断します。

コンパイルは通ったか？
警告は少ないか？
簡易テストは合格したか？
これらを総合して「この問題は自分たちで解決できるか？」を計算し、無理ならすぐに天才シェフに頼みます。

③ 既存のシステムにも乗せられる（ポータブル）

HDLFORGE の「判断システム（コントローラー）」は、他の AI システムの上に乗せられるように作られています。

例え： 既存の料理店（他の AI システム）が「失敗しやすい」としても、HDLFORGE の「判断システム」をその店の前に置くだけで、**「失敗しそうなら天才シェフを呼ぶ」**というルールを適用できます。中身を変える必要はありません。

4. 結果：どう変わった？

実験結果は素晴らしいものでした。

精度： 小さな AI を使っても、大きな AI を使うシステムに負けない、あるいはそれ以上の正解率を達成しました。
速度： 多くの簡単な問題では、安価な AI で済むため、待ち時間が半分以下になりました。
バグ発見： 回路の「バグ（欠陥）」を見つけ、直すまでの時間が大幅に短縮されました。

まとめ

HDLFORGE は、**「安くて速い AI を基本にしつつ、本当に難しいときだけ高価な AI を呼ぶ」**という、賢いリソース配分の仕組みです。

さらに、**「失敗を練習問題に変えて、AI が同じミスを繰り返さないようにする」**という工夫を加えることで、より正確で、より速い回路設計を実現しました。これは、AI を使う際の「コストと性能のバランス」を完璧に取った新しいアプローチと言えます。

Each language version is independently generated for its own context, not a direct translation.

HDLFORGE: 適応型モデルエスカレーションによる効率的な Verilog コード生成のための 2 段階マルチエージェントフレームワーク

本論文は、Verilog コード生成における「生成速度」と「精度」のトレードオフを最適化する新しいフレームワークHDLFORGEを提案しています。大規模言語モデル（LLM）を用いたハードウェア記述言語（HDL）の自動生成は進歩していますが、依然として構文エラーや機能的なバグ、ハルシネーション（幻覚）が発生する課題があります。既存のシステムは、すべてのタスクに対して高コストな超大規模モデルを使用するか、軽量モデルのみを使用するかのどちらかであり、リソース効率と精度のバランスが取れていない傾向がありました。HDLFORGE は、この課題に対して、タスクの難易度に応じてモデルを適応的にエスカレーション（昇格）させる 2 段階のアプローチを導入することで、このジレンマを解決します。

以下に、論文の技術的要点を詳述します。

1. 問題設定と目的

課題: LLM による Verilog 生成において、すべてのタスクに高価な超大規模モデル（Ultra-large LLM）を使用するのは非効率的ですが、軽量モデルのみを使用するとコードの正確性が損なわれます。
目的: 壁時計時間（Wall-clock time）を最小化しつつ、公式テストベンチをパスする正確な Verilog 実装を生成すること。特に、精度と遅延の最適なバランス（Accuracy-Latency Trade-off）を達成することを目指します。

2. 手法：HDLFORGE アーキテクチャ

HDLFORGE は、7 つの協調エージェントからなる 2 段階のカスケード（連鎖）フレームワークです。

2.1 2 段階構造

システムは常に軽量なステージ Aから開始し、必要に応じてのみ高価なステージ Bへエスカレーションします。

ステージ A（プライマリソルバー）:
- モデル: 中規模 LLM（例：Qwen2.5-Coder-7B）を使用。
- プロセス: 仕様に基づき複数の実装戦略（プラン）を生成し、候補コードを作成します。
- フィードバックループ: 安価なツール（コンパイル、リンター、スモークテスト）によるフィードバックを用いて、コードを反復的に修正・改善します。
- マイクロテスト: 形式検証（BMC: 有界モデルチェッキング）で得られた失敗のトレースを、再利用可能な「マイクロテスト」に変換し、バグ検出を加速します。
ステージ B（最終試行）:
- モデル: 超大規模クラウドベースモデル（例：Claude 3.5 Sonnet）を使用。
- トリガー: ステージ A の診断スコアが閾値を下回った場合、または最大試行回数に達した場合にのみ発動します。
- 役割: ステージ A の失敗情報、疑わしいコード部分（Suspect Cone）、および蓄積されたマイクロテストをコンテキストとして利用し、高品質な単一の候補コードを生成します。

2.2 適応型エスカレーション制御

ステージ A と B の間を移動するかどうかを決定する「エスカレーションコントローラ」が重要な役割を果たします。

診断信号: 5 つの指標（コンパイル成功、リンティング警告数、スモークテストの一致率、失敗パターンの安定性、残りの予算）を収集します。
スコアリング: これらの信号を重み付けして統合スコア $Z$ を計算し、閾値 $\tau$ と比較します。
ポータビリティ: このコントローラは既存の Verilog 生成パイプライン（AutoVCoder や VerilogCoder など）を内部構造を変更せずに「ブラックボックス」としてラップし、適用可能です。

2.3 形式検証とマイクロテストの活用（CEGIS 风格）

形式増幅エージェント: 有界モデルチェッカー（BMC）を使用して、仕様違反のトレース（カウンターエグザンプル）を生成します。
マイクロテスト化: このトレースを、短時間で実行可能な決定論的なマイクロテストベンチに変換し、補助テストセットに追加します。
効果: 将来的に同じバグが再発した場合、公式テストベンチを実行する前にマイクロテストで即座に検出・拒絶でき、修復イテレーションと時間を大幅に削減します。

3. 主要な貢献

HDLFORGE フレームワークの提案: 軽量モデルをデフォルトとし、診断スコアに基づいて高機能モデルへエスカレーションする 2 段階マルチエージェントシステム。
ポータブルなエスカレーションコントローラ: 既存の Verilog LLM パイプラインを改造せずに、速度と精度のトレードオフを改善するラッパーとして機能します。
CEGIS 风格のマイクロテスト生成: 形式検証の失敗トレースを再利用可能なテストケースに変換し、バグ検出率を向上させ、修復ループを短縮する「形式増幅エージェント」の実装。
ツールレベル信号による閉ループ設計: エージェント間の相互作用をスコア、トレース、テストといったツールレベルの信号のみに限定し、プロンプトや内部ロジックに依存しない設計を実現。

4. 実験結果

ベンチマーク（VerilogEval Human, VerilogEval V2, RTLLM）およびバグ注入ベンチマークでの評価結果は以下の通りです。

精度と速度のトレードオフ:
- HDLFORGE-Qwen（中規模モデルベース）は、VerilogEval Human で91.2%、V2 で91.8%の Pass@1 を達成しました。これは、他の 7B モデルベースのシステム（AutoVCoder: 48.5% など）を大幅に上回り、かつ中央値のレイテンシが約 50% 削減されています。
- HDLFORGE-GPT4o（大規模モデルベース）は、VerilogEval Human で95.5%、RTLLM で99.8%（Pass@5）の最高精度を達成し、既存のマルチエージェントシステム（CoopetitiveV, MAGE）を上回りました。
ポータビリティ:
- AutoVCoder や VerilogCoder などの既存システムに HDLFORGE コントローラを適用したところ、モデルやプロンプトを変更せずとも、Pass@1 が 3〜5 ポイント向上し、平均実行時間は 10% 未満の増加で済みました。
バグ検出と修復:
- バグ注入ベンチマークでは、マイクロテスト機能を含む HDLFORGE は、バグ検出率を**95.0%**まで向上させ、修復に必要なイテレーション数を 3.0 回（ベースラインは 7.0 回）に削減しました。特にリセットバグや FSM（有限状態機械）バグの検出において顕著な効果がありました。
アブレーション研究:
- 各エージェント（ジャッジ、トレーサー、リフレクション、マイクロテスト）を除去すると、精度が 4〜5 ポイント低下し、修復に要する時間が 15〜20 秒増加することが確認されました。これにより、各コンポーネントが冗長ではなく、システム効率に不可欠であることが示されました。

5. 意義と結論

HDLFORGE は、ハードウェア設計における AI 活用において、単に「より大きなモデルを使う」ことではなく、「適切なタイミングで適切なリソースを割り当てる」ことの重要性を証明しました。

経済性: 高価なモデルの使用を最小限に抑えつつ、高い精度を維持することで、計算コストを削減します。
汎用性: 既存の生成パイプラインを容易に強化できるポータブルな設計は、業界への導入障壁を下げます。
信頼性: 形式検証とマイクロテストを統合することで、単なるテストベースの検証を超えた、より堅牢なバグ検出と修復を実現しています。

この研究は、リソース制約下での高精度なコード生成を実現するための新しいパラダイムを示しており、大規模モデルの時代における効率的なハードウェア設計ワークフローの確立に貢献します。

HDLFORGE: A Two-Stage Multi-Agent Framework for Efficient Verilog Code Generation with Adaptive Model Escalation