Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 HDLFORGE 的新系统，它的任务是帮人类“写”硬件代码（Verilog）。

想象一下，写硬件代码就像是在建造一座精密的摩天大楼。以前，我们要么请一个普通建筑师（小模型），他写得快但容易出错；要么请一个顶级大师（大模型），他写得准但收费昂贵且速度慢。

HDLFORGE 的聪明之处在于，它设计了一套**“双阶段智能施工队”**，既想省钱（省时间），又想保证大楼不塌（代码准确）。

以下是用通俗语言和比喻对这篇论文的解读：

1. 核心策略：先派“学徒”，再请“大师”

HDLFORGE 的工作流程分为两个阶段，就像是一个**“先试后买”**的购物策略：

第一阶段（Stage A）：快速学徒队
- 角色：由一个中等规模的 AI 模型（比如 Qwen-7B）担任。它就像是一个勤奋的初级工程师。
- 任务：它先尝试写代码。为了保险，它会先画出几个不同的“施工草图”（多方案生成），然后快速检查。
- 检查工具：它不会等大楼盖好再验收，而是用一些**“快速安检”**（编译检查、代码风格检查、简单的模拟测试）。如果代码连门都打不开（编译失败），或者窗户装反了（语法错误），它立刻知道要改。
- 特点：速度快，成本低，但偶尔会漏掉一些隐蔽的结构性问题。
第二阶段（Stage B）：终极大师
- 角色：只有当“学徒”搞不定，或者系统觉得“这活儿太难了，学徒可能搞砸”时，才会启动。
- 任务：调用一个超强大的云端大模型（比如 Claude 3.5）。这就像请来了世界顶级的建筑大师。
- 触发机制：系统有一个**“智能警报器”**。它会计算一个分数，如果分数太低（说明代码问题多、修改太多次还没修好），警报器就会响，立刻把任务转交给大师。
- 特点：极其精准，但非常“烧钱”（耗时）。

比喻：这就像你去医院看病。先挂普通号（Stage A）让医生快速诊断，开点药试试。如果吃了药没好，或者病情复杂，系统会自动判断，让你转去挂专家号（Stage B）。这样既避免了所有病人都去挤专家号（浪费资源），又保证了疑难杂症能被治好。

2. 独家秘籍：把“错误”变成“错题本”

这是 HDLFORGE 最创新的地方。

传统做法：代码错了，AI 就瞎猜怎么改，或者重新写一遍，效率很低。
HDLFORGE 的做法：它有一个**“错题本生成器”**（形式化代理）。
- 当代码出错时，系统不仅会告诉你“这里错了”，还会像侦探一样，把导致错误的具体过程（比如：在第 5 秒，信号 A 变成了 1，导致系统崩溃）记录下来。
- 然后，它把这个具体的错误过程，变成一个微型测试题（Micro-test）。
- 效果：下次 AI 再写代码时，这个“错题本”会立刻提醒它：“嘿！上次你在这里栽跟头了，这次千万别再犯同样的错！”
- 比喻：就像学生考试做错了题，老师不仅告诉他答案，还帮他整理了一本**“专属错题集”**。下次做题前，先复习错题集，就能避免重复犯错，大大缩短了复习（修复）的时间。

3. 为什么它很厉害？（实验结果）

论文在几个著名的硬件代码测试集上做了实验，结果非常惊人：

又快又准：HDLFORGE 用中等模型（学徒）就能达到很高的准确率，比那些只用中等模型的系统强很多。
省钱：因为它大部分时间只用“学徒”，只有在必要时才请“大师”，所以整体花费的时间（延迟）比那些全程用“大师”的系统少了约 50%。
通用性强：这个“智能警报器”和“双阶段策略”就像一个通用的插件。你可以把它套在任何现有的写代码 AI 系统上，不需要改动它们内部的核心，就能让它们变得更快、更准。

4. 总结

HDLFORGE 就像是一个精明的项目经理：

它懂得因材施教，简单任务让新手做，难任务才请专家。
它懂得复盘，把每一次失败都变成具体的“错题本”，防止团队重蹈覆辙。
它最终实现了**“花小钱办大事”**，在硬件设计这个高难度领域，用更少的计算资源，写出了更高质量的代码。

对于普通大众来说，这意味着未来我们设计芯片、电子设备的速度会更快，而且出错更少，因为 AI 助手变得更“聪明”、更“懂行”了。

Each language version is independently generated for its own context, not a direct translation.

HDLFORGE 技术总结

1. 研究背景与问题定义

随着大语言模型（LLM）在硬件描述语言（HDL）代码生成中的应用日益广泛，现有的 Verilog 生成系统面临两个主要挑战：

准确性与效率的权衡：使用大型模型（如 Claude 3.5）能保证较高的代码正确性，但推理延迟高、成本昂贵；而使用中型模型（如 Qwen-7B）速度快，但容易产生语法错误、功能缺陷或幻觉。
现有系统的局限性：当前的 Verilog-LLM 系统通常固定使用单一规模的模型，缺乏根据任务难度动态调整计算资源的机制。此外，现有的多智能体系统虽然提升了鲁棒性，但往往未显式地解决“何时升级模型”的决策问题，且缺乏高效的错误检测与修复循环。

核心目标：设计一个两阶段多智能体框架，在最小化墙钟时间（Wall-clock time）的同时，最大化 Verilog 代码生成的准确性（Pass@k），通过自适应模型升级机制实现最佳的“准确性 - 延迟”权衡。

2. 方法论：HDLFORGE 架构

HDLFORGE 是一个两阶段级联框架，包含七个协调工作的智能体（Agents），分为阶段 A（主求解器）和阶段 B（最终尝试）。

2.1 两阶段级联架构

阶段 A (Stage A - Primary Solver)：
- 模型：使用中型 LLM（如 Qwen-2.5-Coder-7B）。
- 流程：
  1. 多计划生成：规划器（Planner）生成多种高层实现策略。
  2. 候选实现：编码器（Coder）并行生成多个候选代码。
  3. 快速筛选：裁判与烟雾测试智能体（Judge & Smoke）利用低成本工具（编译、Lint、短周期烟雾测试）筛选出最有希望的候选者。
  4. 全测试与失败分析：对最佳候选进行官方测试。若失败，**追踪器（Tracer）**构建抽象语法树（AST）定位错误范围，**反思智能体（Reflexion）**提出针对性修复建议。
  5. 微测试积累（核心创新）：形式化放大智能体（Formal Amplifier）利用有界模型检查（BMC）生成反例轨迹，并将其转化为可复用的确定性微测试（Micro-tests）。这些微测试被加入辅助测试集，用于后续迭代中的快速反馈，避免重复运行昂贵的正式检查。
  6. 迭代修复：基于微测试反馈进行局部修复。
阶段 B (Stage B - Final Attempt)：
- 触发条件：当阶段 A 的**升级评分（Escalation Score）**低于阈值，或达到最大尝试次数时触发。
- 模型：调用超大型云模型（如 Claude 3.5 Sonnet）。
- 输入：原始规范、阶段 A 的失败摘要、怀疑区域（Suspect Cone）及当前微测试集。
- 输出：生成单一高质量候选代码。

2.2 自适应升级决策机制

系统计算五个诊断信号来评估成功的可能性，并加权得到升级分数 $Z$ ：

编译信号 ( $s_{comp}$ )：是否编译成功。
Lint 信号 ( $s_{lint}$ )：代码警告数量归一化分数。
烟雾测试一致性 ( $s_{smoke}$ )：短周期模拟输出匹配率。
轨迹稳定性 ( $s_{trace}$ )：连续尝试中失败信号和时间的一致性（判断是否收敛）。
预算信号 ( $s_{budget}$ )：剩余尝试次数。

升级逻辑：若 $Z < \tau$ （阈值）或尝试次数耗尽，则升级至阶段 B。该控制器可独立于底层生成器，作为“包装层”存在。

2.3 可移植性设计

HDLFORGE 的升级逻辑被设计为一个独立的决策层。它可以包裹现有的 Verilog LLM 管道（如 AutoVCoder, VerilogCoder），无需修改其内部提示词、检索机制或工具链，即可提升其速度 - 准确性权衡。

3. 关键贡献

HDLFORGE 框架：提出了首个显式优化“准确性 - 延迟”权衡的两阶段多智能体 Verilog 生成系统，默认使用小模型，仅在必要时升级到大模型。
可移植升级控制器：设计了一个通用的决策层，可无缝集成到现有 Verilog 生成管道中，无需重新训练或调整内部参数。
CEGIS 风格的微测试放大器：将形式化验证中的反例轨迹转化为可复用的微测试。这显著减少了 Bug 检测时间和修复迭代次数，特别是在处理复位（Reset）和有限状态机（FSM）错误时效果显著。
闭环多智能体系统：构建了由紧凑编码器、大型专家、工具驱动裁判和形式化放大器组成的闭环系统，各智能体仅通过工具级信号（分数、轨迹、测试）交互，这种设计在 Verilog 多智能体文献中尚属首创。

4. 实验结果

实验在 VerilogEval Human, VerilogEval V2, 和 RTLLM 基准上进行。

4.1 准确性与延迟权衡

HDLFORGE-Qwen (7B + 3.5)：
- 在 VerilogEval Human 和 V2 上分别达到 91.2% 和 91.8% 的 Pass@1。
- 相比其他基于 7B 模型的系统（如 AutoVCoder, CodeV），准确率大幅提升（后者通常在 50%-60% 左右）。
- 延迟优势：中位延迟比单一大模型系统降低约 50%。
HDLFORGE-GPT4o (GPT-4o + 3.5)：
- 达到 95.5% / 96.8% (Human/V2) 和 99.8% (RTLLM Pass@5) 的顶尖成绩。
- 优于依赖重复调用大模型的竞品（如 CoopetitiveV, MAGE）。

4.2 可移植性验证

将 HDLFORGE 控制器应用于 AutoVCoder 和 VerilogCoder：

在不改变原有模型和提示词的情况下，Pass@1 提升了 3-5 个百分点。
平均通过时间仅增加 <10%。
升级触发率较低（≤15%），说明大部分任务可由原管道解决，大模型仅用于困难案例。

4.3 微测试放大器效果（Bug 注入实验）

在注入 Bug 的基准测试中：

检测率：启用微测试的 HDLFORGE 检测率达到 95.0%，显著高于无微测试版本（82.5%）和基线系统（64-72%）。
修复效率：中位修复迭代次数从 7.0 降至 3.0，墙钟时间从 ~40 秒降至 33.1 秒。
特定 Bug 类型：在复位错误和 FSM 错误上提升最为明显，因为微测试能有效捕捉这些违反安全属性的短轨迹。

4.4 消融实验

移除任何关键智能体（裁判、追踪器、反思、微测试）都会导致 Pass@1 下降 3.7-5.0 个百分点，并显著增加中位延迟（增加 12-20 秒），证明了每个组件的必要性。

5. 意义与结论

HDLFORGE 证明了在硬件设计自动化中，**“小模型 + 智能升级 + 形式化反馈”**的策略优于单纯依赖单一巨型模型。

效率：通过自适应升级，避免了为简单任务浪费昂贵的计算资源。
准确性：通过微测试积累和形式化引导，解决了 LLM 常见的幻觉和逻辑错误问题。
通用性：其模块化设计使其能够作为“插件”提升现有任何 Verilog 生成系统的性能，为未来的硬件设计 AI 工作流提供了新的范式。

该研究不仅提升了 Verilog 生成的 SOTA 水平，也为资源受限场景下的多智能体协作和模型升级策略提供了重要的理论依据和工程实践参考。

HDLFORGE: A Two-Stage Multi-Agent Framework for Efficient Verilog Code Generation with Adaptive Model Escalation