CktEvo: Repository-Level RTL Code Benchmark for Design Evolution

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CktEvo 的新项目，它的核心目标是教人工智能（AI）如何像一位经验丰富的“芯片老手”一样，去优化复杂的电子电路设计。

为了让你更容易理解，我们可以把芯片设计想象成装修一套巨大的、由成千上万个房间组成的摩天大楼。

1. 背景：现在的 AI 能做什么？不能做什么？

以前的 AI（像只会写单句的实习生）：
目前的 AI 擅长根据你的一句话指令（比如“写一个闹钟的代码”），生成一段独立的、功能正确的代码。这就像让实习生写一个完美的“单句标语”或者“单个房间的设计图”。
- 问题： 如果让 AI 去装修整栋大楼，它往往会“幻觉”（胡编乱造），或者只关注局部，忽略了整栋楼的水电管网是否通畅。它不知道改了厨房的墙，会不会导致客厅的承重出问题。
工业界的现状（像住在拥挤的老房子里）：
真实的芯片设计（RTL 代码）就像一套已经建好的、非常复杂的摩天大楼。工程师们为了省电、省空间、跑得快（也就是论文里说的 PPA：功耗、性能、面积），已经在这套设计里反复打磨了很久。虽然它现在能住人（功能正常），但可能还有很多“死角”没利用好，或者走廊太宽浪费了面积。

2. CktEvo 是什么？（一个“装修优化”的竞技场）

CktEvo 就是为了解决这个问题而建立的基准测试（Benchmark）。

它的任务： 不是让 AI 从零开始盖楼（生成新代码），而是给 AI 一套已经建好但不够完美的旧大楼（现有的芯片代码库），要求 AI 在不改变大楼功能（不能把卧室改成厕所）的前提下，通过微调，让大楼更省电、跑得更快、占地更小。
它的规模： 以前测试 AI 只给一个小房间（单个模块），CktEvo 直接给 AI 11 套完整的、包含几十个房间的“大楼”（从简单的 CPU 到复杂的网络处理器）。这就像让 AI 去优化整个社区的管网，而不是只修一个水龙头。

3. CktEvo 是怎么工作的？（一个“闭环装修队”）

论文设计了一套自动化的“装修流程”，让 AI 和专业的“装修监理”（EDA 工具）配合工作：

体检（EDA 工具链）： 先让专业的“监理”（电子设计自动化工具）给大楼做全面体检，找出哪里漏水（延迟高）、哪里墙砌得太厚（面积大）。
找痛点（图分析器）： 系统把这些体检报告翻译成 AI 能看懂的“地图”，标出哪些具体的房间（代码片段）是瓶颈。
出方案（AI 设计师）： AI 看着地图，提出修改方案。比如：“把走廊的墙拆掉一点”或者“把两个小房间合并”。
试装修（代码修改）： AI 真的动手改代码。
严检（形式化验证）： 这是最关键的一步！改完后，必须用严格的数学方法证明：大楼的功能完全没变（比如闹钟还是能响，不会变成微波炉）。如果功能变了，方案直接作废。
再体检（迭代）： 如果功能没问题，再看新大楼是不是真的更省空间了。如果是，就保留这个方案，继续下一轮优化。

这个过程就像一个不知疲倦的装修队，在“修改 -> 检查 -> 再修改”的循环中，一点点把大楼打磨得完美。

4. 实验结果：AI 真的行吗？

论文用这套方法测试了不同的 AI 模型（比如 DeepSeek-v3, GPT-4o 等），结果令人惊喜：

真金白银的优化： 在开源工具链下，AI 自动优化后的芯片，整体效率（面积×延迟）平均提升了 10.5%。这意味着芯片可以做得更小、更快，或者更省电。
擅长“微调”： AI 特别擅长发现那些人类工程师容易忽略的“小细节”。比如把一些啰嗦的写法改成更简洁的写法，或者把串行的操作改成并行的。
商业工具的挑战： 当使用工业界顶级的商业工具（像最贵的装修队）时，提升幅度变小了（约 1.7%）。这是因为商业工具本身就很强，把能优化的都优化了。但即便如此，AI 依然能在一些特定设计（如音频处理）上再挤出 10% 的性能，这在芯片行业已经是巨大的胜利了。

5. 总结与意义

CktEvo 的核心贡献在于：

从“写代码”转向“改代码”： 它证明了 AI 不仅能生成新代码，更能像资深工程师一样，对现有的复杂系统进行迭代式优化。
跨文件协作： 它解决了 AI 以前“只见树木不见森林”的问题，让 AI 能理解整个代码库（整栋大楼）的依赖关系。
未来的方向： 虽然现在的 AI 还只能做“局部装修”，但 CktEvo 为未来 AI 成为“首席架构师”（能进行整体结构改造）打下了坚实的基础。

一句话总结：
CktEvo 就像给 AI 发了一套复杂的旧房子图纸，并配上了严格的监理，教它如何在不破坏房子结构的前提下，通过反复微调，把房子装修得更省钱、更宽敞、更舒适。这是迈向“全自动芯片设计”的重要一步。

Each language version is independently generated for its own context, not a direct translation.

以下是关于论文 CktEvo: Repository-Level RTL Code Benchmark for Design Evolution 的详细技术总结：

1. 研究背景与问题定义 (Problem)

背景：寄存器传输级（RTL）设计是一个迭代过程，涉及多文件交互和下游工具链，最终的性能、功耗和面积（PPA）是跨文件依赖和工具链优化的涌现属性。虽然大语言模型（LLM）已应用于硬件设计，但现有工作主要集中在：
1. 从零生成或调试：基于自然语言提示生成代码，存在歧义和幻觉，仍需专家审查，难以闭环。
2. 高层综合（HLS）或单模块优化：从形式化输入（如 C/C++）优化，或仅针对孤立模块，忽略了跨文件依赖和整个仓库的 PPA 涌现特性。
核心问题：现有的 LLM 硬件编码研究与工业界需求脱节。工业界需要的是在保持功能正确性的前提下，对**现有的、多文件的、未优化的黄金设计（Golden Design）进行仓库级（Repo-level）**的迭代优化，以改善 PPA 指标。
任务定义：给定一个初始的 RTL 代码仓库 $D_0$ $D_{0}$ ，通过迭代编辑生成新设计 $D_{i}$ $D_{i}$ ，要求：
1. 功能等价：新设计必须通过形式化验证，确保与原始设计功能一致。
2. PPA 优化：在保持功能不变的前提下，优化面积（Area）和延迟（Delay）。

2. 方法论 (Methodology)

2.1 CktEvo 基准测试构建

数据集：收集并整理了 11 个 高质量的开源多文件 Verilog 设计仓库，涵盖处理器（RISC, simple_cpu）、控制器（mem_ctrl, sdc_ctrl）、高速接口（ethmac, usb, spi）、编码器/解码器（audio, vga_enh）及新兴领域（NN engine, HSM）。
特点：
- 仓库级与模块化：每个实例都是完整的分层仓库，包含跨文件依赖。
- 工具链无关的稳定性：所有设计均验证可在开源（Yosys）和商用工具链中综合。
- 生产级基线：设计来自成熟项目，通常处于传统 EDA 工具优化的局部最优解，难以通过常规手段进一步优化。

2.2 闭环进化框架 (Close-loop Evolution Framework)

提出了一种基于 LLM 的自动化闭环框架，模拟人类专家的迭代流程：

EDA 工具链评估：运行逻辑综合（LS）和静态时序分析（STA），生成 PPA 报告和时序路径。
基于图的代码分析器 (Graph-based Code Analyzer)：
- 将 RTL 代码解析为控制数据流图（CDFG）。
- 解析 EDA 报告，识别关键时序路径和面积瓶颈模块。
- 将瓶颈信息映射回具体的代码行和数据路径，为 LLM 提供精确的上下文。
提示生成器 (Prompt Generator)：结合代码分析器的标注信息、相关代码片段和上下文，构建富含信息的 Prompt，扮演“专家 IC 设计师”角色。
LLM 查询与修改：LLM 根据 Prompt 提出代码修改（Diff 格式）。
修正与验证：
- 快速修正：LLM 自动修复语法错误和基础综合错误。
- 形式化验证：使用形式化检查工具（如 Synopsys Formality）严格验证修改后的代码是否与原始设计功能等价。
进化算法与数据库：
- 采用双循环策略：快速评估（过滤明显错误）与全量评估（运行完整工具链）。
- 种群与选择：基于“岛屿模型”（Island-based）维护多个独立种群，采样父代和“灵感”设计（高质量历史案例）以增强搜索多样性。
- 档案更新 (MAP-Elites)：使用 MAP-Elites 算法管理进化档案，根据设计的行为描述符（如模块数、寄存器数）和成本（Area-Delay Product, ADP）更新最佳设计。

3. 主要贡献 (Key Contributions)

任务形式化：首次将“仓库级 RTL 进化”形式化为一个多目标优化问题，强调功能保持与 PPA 优化的平衡。
首个基准测试 (CktEvo)：发布了首个面向设计进化的仓库级 RTL 基准，包含 11 个经过人工审查的多文件 Verilog 设计，填补了从单模块生成到全系统优化的空白。
参考框架：提供了一个闭环进化框架，集成了工具链反馈、跨文件编辑和迭代修复能力，证明了 LLM 在无人类干预下可优化仓库级 RTL 代码。

4. 实验结果 (Results)

4.1 开源工具链结果 (Yosys)

整体表现：框架在 11 个设计实例上均实现了 PPA 指标的提升。
具体数据：使用 DeepSeek-v3 模型，平均 ADP（面积×延迟）降低了 10.50%。
- 延迟优化显著：几何平均延迟降低 7.92%，而面积降低 2.80%。
- 典型案例：HSM 设计的时序路径优化了 34.97%。
优化策略分析：LLM 主要采用了三种策略：
1. 编码风格调整：利用综合工具友好的语法（如阻塞/非阻塞赋值转换）。
2. 逻辑扁平化与剪枝：将串行逻辑链改为并行，移除冗余流水线寄存器。
3. 状态机优化：合并状态标志，简化状态转换逻辑。

4.2 商用工具链结果 (Synopsys Design Compiler)

挑战：由于商用工具（如 compile_ultra）具有极强的优化能力，LLM 的优化空间被压缩。
结果：整体提升幅度较小（几何平均 ADP 降低 1.77%），但在特定设计上仍有突破：
- Audio 设计：关键路径延迟降低了 10.61%。
- HSM 设计：面积减少了 536.77 $\mu m^2$ 。
意义：在商用工具已接近极限的情况下，仍能获得额外优化，证明了 RTL 级进化的工程价值。

5. 意义与未来展望 (Significance & Future Work)

工程价值：CktEvo 证明了 LLM 可以作为“设计专家”而非仅仅是“代码生成器”，在工业级流程中实现自主的、功能保持的 PPA 优化。
局限性：
- 对于高度成熟、逻辑冗余极少的标准化接口设计（如 USB, ETHMAC），LLM 难以进行高层架构重构。
- 当前 LLM 缺乏针对特定 PDK 和工具链的深层优化规则知识。
未来方向：
- 从局部优化转向高层架构重构（如全局数据流分析）。
- 通过挖掘高质量进化轨迹，利用检索增强生成（RAG）或领域自适应微调，让 LLM 掌握特定工艺库和工具链的优化规则。

总结：CktEvo 为研究 LLM 辅助的硬件工程实践建立了一个严谨、可执行的基准，标志着硬件设计自动化从“生成代码”向“进化设计”的重要转变。