LLM4Cov: Execution-Aware Agentic Learning for High-coverage Testbench Generation

本文提出了 LLM4Cov,一种面向高覆盖率测试用例生成的执行感知代理学习框架,通过离线数据策展、策略感知合成及最坏状态优先采样等机制,使小参数模型在无需昂贵在线强化学习的情况下,实现了超越其教师模型及更大规模模型的硬件验证覆盖率表现。

Hejia Zhang, Zhongming Yu, Chia-Tung Ho, Haoxing Ren, Brucek Khailany, Jishen Zhao

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 LLM4Cov 的新系统,它的目标是教人工智能(AI)如何像资深工程师一样,编写出能全面检测硬件芯片缺陷的“测试剧本”(Testbench)。

为了让你轻松理解,我们可以把整个过程想象成教一个新手厨师(AI)做一道极其复杂的“满汉全席”(硬件芯片),并让他学会如何发现菜品里的所有问题。

1. 核心难题:为什么教 AI 这么难?

在传统的软件世界里,AI 写代码错了,电脑马上会报错,AI 能立刻知道“这里错了,那里错了”。但在硬件芯片的世界里,情况完全不同:

  • 昂贵的“试错”成本:要测试芯片设计对不对,不能直接在电脑上跑,必须用超级昂贵的工业模拟器(就像一台巨大的、耗时的“味觉测试仪”)。跑一次测试可能需要几分钟甚至几小时,而且非常耗电。
  • 无法“在线”学习:因为太慢太贵,AI 不能像玩游戏那样“试错 - 反馈 - 再试错”地在线学习(就像你不能让厨师每天把整桌菜倒掉重来几百次来练习)。
  • 数据偏差:如果让 AI 只看专家(老师)写的完美剧本,它学不会如何处理自己遇到的“翻车”现场。

比喻:这就好比你想教一个新手厨师做满汉全席。

  • 传统方法:你让他看着大师的菜谱(静态数据)背。结果他真刀真枪做菜时,发现火候不对、食材不新鲜,但他不知道该怎么补救,因为菜谱里没写“如果盐放多了怎么办”。
  • 在线学习:你让他每天做 100 次菜,每次做坏了就让他尝一口再改。但这太费钱、太费时间了,老板(工业界)根本等不起。

2. LLM4Cov 的解决方案:聪明的“离线特训营”

LLM4Cov 提出了一套**“离线特训”**的方法,让 AI 在不需要频繁调用昂贵模拟器的情况下,也能学会如何“救场”。

核心策略一:只盯着“最烂”的剧本练(Worst-State-Prioritized Sampling)

  • 普通做法:随机挑一些剧本让 AI 修改。但这就像让厨师只练“把盐放得刚好”的菜,没练过“盐放多了”的情况。
  • LLM4Cov 做法:系统会专门找出那些覆盖率最低、问题最多的“烂剧本”(最差的中间状态)。
  • 比喻:教练不让你练“怎么把菜炒香”,而是专门挑出那些“炒糊了”或“没熟”的失败案例,让你重点练习如何把糊了的菜救回来。因为只有学会救场,你才能应对各种突发状况。

核心策略二:分阶段“师徒带教”(Progressive Learning)

  • 第一阶段(模仿期):新手 AI 能力弱,容易犯错。这时候,系统让**超级专家(大模型老师)**来修改新手写的烂剧本。新手只看:“哦,原来这里错了,老师是这么改的。”
  • 第二阶段(进阶期):新手变强了,能写出一些像样的剧本,但遇到深层问题还是会卡住。这时候,系统让新手自己去尝试修改,然后由专家来打分和筛选出最好的修改方案。
  • 比喻
    • 初期:新手厨师切菜切到手,大师手把手教他怎么包扎并继续切。
    • 后期:新手厨师已经能切菜了,但遇到硬骨头切不动。大师不再手把手教,而是让他自己想办法,然后大师只挑出他“最聪明的自救方案”让他记住。
    • 这样,AI 既学到了专家的逻辑,又适应了自己遇到的真实困难。

核心策略三:只看“结果”不看“过程”(Memoryless State Transitions)

  • 系统假设 AI 不需要记住过去几百次失败的细节,只需要关注当前的状态(现在的代码 + 现在的报错信息)就能做出正确的修改。
  • 比喻:就像下棋,你不需要记住昨天输掉的那局棋的每一步,你只需要看现在的棋盘局势,就能决定下一步怎么走。这让 AI 的“大脑”更轻快,学得更专注。

3. 惊人的成果:小模型打败大模型

论文中最酷的一点是:

  • 他们训练了一个只有 40 亿参数的小模型(相当于一个精干的“特种部队”)。
  • 结果发现,这个小模型在解决硬件测试问题上,打败了 300 亿甚至更大参数的“巨无霸”模型,甚至表现接近那些大 50 到 100 倍的模型。

比喻
这就好比,一个经过针对性特训特种兵(4B 小模型),在“寻找芯片漏洞”这个特定任务上,比那些**只会死记硬背百科全书的普通大学生(大模型)**要厉害得多。

总结

LLM4Cov 的核心思想就是:
不要试图让 AI 记住所有知识,也不要让它盲目地反复试错。而是利用昂贵的测试反馈,专门挑选出最困难、最失败的案例,分阶段地教 AI 如何从失败中恢复

通过这种“抓重点、分阶段、重实战”的方法,他们让一个小巧的 AI 模型,拥有了像资深硬件工程师一样,能写出高覆盖率测试剧本的能力,极大地降低了芯片设计的成本和风险。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →