QiMeng-CodeV-SVA: Training Specialized LLMs for Hardware Assertion Generation via RTL-Grounded Bidirectional Data Synthesis

该论文提出了一种基于 RTL 引导和双向翻译数据合成的框架,以解决硬件断言生成中数据稀缺与语义等价性验证难题,并据此训练出在自然语言转 SystemVerilog 断言任务上表现卓越甚至超越 GPT-5 和 DeepSeek-R1 的专用模型 CodeV-SVA。

Yutong Wu, Chenrui Cao, Pengwei Jin, Di Huang, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Xing Hu

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 QiMeng-CodeV-SVA 的新项目,它的核心目标是教人工智能(AI)像经验丰富的硬件工程师一样,自动写出“硬件安全守则”

为了让你更容易理解,我们可以把整个硬件设计过程想象成建造一座巨大的、复杂的摩天大楼

1. 背景:为什么要写“安全守则”?

在建造大楼(设计芯片/硬件)时,工程师必须确保大楼不会塌,电梯不会乱跑,火灾时警报会响。在芯片设计里,这些规则叫做 SVA(系统验证断言)

  • SVA 是什么? 就像是大楼的“安全说明书”。比如:“如果电梯门开着,电梯绝对不能动”或者“如果按下火警按钮,所有灯必须闪烁”。
  • 痛点: 以前,这些规则全靠人类工程师手写。这非常累,而且容易出错。一旦漏写一条规则,大楼(芯片)造好后可能就会出大问题,甚至导致数亿美元的损失。

2. 问题:AI 为什么以前学不会?

最近,大家想用通用的 AI(比如 ChatGPT 这类大模型)来自动写这些规则。但是,通用的 AI 就像是一个读过很多书但没干过活的“书呆子”

  • 缺乏实战经验: 它们读过很多书,但没见过真实的“大楼图纸”(RTL 代码),所以写出来的规则要么太简单(像“电梯永远不动”这种废话),要么逻辑混乱。
  • 数据太少: 想要教 AI 写规则,需要大量的“真实案例”(高质量的 SVA 数据)。但现实是,这些珍贵的案例就像失传的秘籍,市面上很少,而且很难判断 AI 写出来的规则到底对不对。

3. 解决方案:CodeV-SVA 的“特训营”

为了解决这个问题,作者们设计了一套**“数据合成与特训”的框架,就像给 AI 建了一个超级特训营**。

第一步:找“工地”练手(RTL 接地合成)

  • 以前的做法: 在图书馆里找几本旧书(教科书)里的例子,让 AI 模仿。
  • CodeV-SVA 的做法: 直接带 AI 去真实的建筑工地(开源的 RTL 代码库)。
    • 他们让 AI 看着真实的“大楼图纸”(RTL 代码),然后问 AI:“你觉得这里需要什么安全规则?”
    • AI 试着写出来,然后交给**“监理工具”**(形式化验证工具,像 JasperGold)检查。如果规则能通过监理的严格测试,就保留下来。
    • 比喻: 这就像让 AI 在真实的工地上实习,而不是只在教室里背理论。

第二步:双向翻译“照镜子”(双向数据合成)

这是论文最精彩的部分,用来解决“怎么判断 AI 写的规则对不对”的问题。

  • 问题: 有时候 AI 写的规则虽然通过了监理检查,但它可能写得太简单,或者根本没理解人类的需求(比如人类说“电梯不能动”,AI 写了“电梯永远不动”,虽然逻辑上没错,但没意义)。
  • 方法(双向翻译):
    1. 让 AI 把写好的规则(SVA)翻译回人类语言(自然语言)。
    2. 再让 AI 把翻译回的人类语言,重新翻译成新的规则。
    3. 核心逻辑: 如果新的规则和原来的规则逻辑完全一样,说明 AI 真的理解了意思,没有“传话传丢了”。如果不一样,说明 AI 在瞎编,直接扔掉。
    • 比喻: 就像玩“传声筒”游戏。如果第一个人说的话,经过两个人转述后,意思还完全一样,说明这两个人都听懂了。如果意思变了,说明中间有人没听清,就把这个“传话员”(数据)淘汰掉。

第三步:精英筛选与“思考过程”增强

  • 去粗取精: 用更聪明的 AI 当“考官”,把那些太简单、太无聊的规则删掉,只留下有挑战性的。
  • 加入“思考链”: 就像教学生做题,不仅给答案,还要让 AI 写出解题思路(Reasoning Trajectory)。这样 AI 在写规则时,会先像工程师一样“思考”一遍,再下笔,准确率更高。

4. 成果:小模型打败大模型

经过这套“特训”,作者训练出了 CodeV-SVA 模型(有 8B 和 14B 两个版本,指参数量大小)。

  • 惊人的表现: 这个专门训练的小模型,在写“安全守则”的任务上,打败了像 GPT-5 和 DeepSeek-R1 这样昂贵且巨大的通用 AI 模型。
  • 性价比: 它不需要像那些大模型那样消耗巨大的算力和金钱,就能干得更好。
  • 实际应用: 在真实的端到端验证流程中(从看图纸到生成规则),CodeV-SVA 生成的有效规则数量是通用 AI 的 2 到 3.5 倍

总结

这篇论文就像是在说:

“与其让一个博学的‘书呆子’去猜怎么盖大楼,不如让它去真实的工地实习,通过**‘翻译 - 回译’的镜子照出它的真本事,再让它学会‘先思考后行动’。最后,我们得到了一个懂行、靠谱且便宜**的 AI 工程师,能自动帮人类写出完美的硬件安全规则。”

这不仅解决了芯片设计中的痛点,也为如何训练专用 AI 提供了一个非常聪明的新思路。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →