QiMeng-CodeV-SVA: Training Specialized LLMs for Hardware Assertion Generation via RTL-Grounded Bidirectional Data Synthesis

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um arquiteto construindo um arranha-céu gigante (o Hardware). Antes de colocar o primeiro tijolo, você precisa escrever um manual de instruções muito detalhado, dizendo exatamente como o prédio deve se comportar em cada situação: "Se o elevador estiver cheio, ele não pode subir", "Se houver um terremoto, as portas devem travar", etc.

No mundo dos chips de computador, esse manual é escrito em uma linguagem chamada RTL (o código do chip) e as regras de segurança são chamadas de SVA (Aserções em SystemVerilog).

O problema é que escrever essas regras de segurança é como tentar adivinhar todos os cenários de um filme de ação antes de filmá-lo. É chato, difícil e exige especialistas caríssimos. Se você errar uma regra, o chip pode falhar catastróficamente depois de fabricado.

Recentemente, tentamos usar Inteligência Artificial (LLMs) para escrever essas regras automaticamente. Mas, até agora, essas IAs eram como "generalistas": elas sabiam um pouco de tudo (literatura, culinária, programação), mas não eram especialistas em hardware. Elas cometiam erros sutis e perigosos.

Aqui entra o QiMeng-CodeV-SVA, o novo método apresentado neste artigo. Vamos entender como eles fizeram isso usando uma analogia simples:

1. O Problema: Falta de "Livros de Receitas" de Qualidade

Para ensinar uma IA a escrever regras de segurança, você precisa de milhares de exemplos de "Regra de Segurança + Código do Chip" que sejam perfeitos.

O Desafio: Não existem muitos desses exemplos prontos na internet. Os que existem são poucos, antigos ou escritos por humanos de forma inconsistente.
A Solução Criativa: Em vez de esperar os livros, eles criaram os livros. Eles pegaram milhares de projetos de chips de código aberto (como se fossem plantas de casas prontas) e pediram para uma IA inteligente analisar essas plantas e inventar as regras de segurança para elas.

2. O Truque do Espelho (Tradução Bidirecional)

Aqui está a parte mais genial do método. Como saber se a regra que a IA inventou está realmente correta e não é apenas "encheção de linguiça"?

Eles usaram uma técnica chamada Tradução Bidirecional, que funciona como um espelho de verdade:

O Espelho da Esquerda (Código para Texto): A IA pega a regra técnica (SVA) e a traduz para uma linguagem humana simples (ex: "O elevador não sobe se estiver cheio").
O Espelho da Direita (Texto de volta para Código): A IA pega essa explicação simples e tenta reescrever a regra técnica original.
O Teste do Espelho: Se a regra que saiu do "Espelho da Direita" for idêntica (ou logicamente equivalente) à regra original que entrou no "Espelho da Esquerda", então a IA entendeu perfeitamente o significado.
- Se elas forem diferentes: Significa que a IA "alucinou" ou perdeu algum detalhe importante no meio do caminho. A regra é descartada.

Isso é como pedir para um tradutor traduzir um poema do português para o inglês e depois de volta para o português. Se o poema final for o mesmo que o original, o tradutor é bom. Se mudar o sentido, o tradutor precisa ser trocado.

3. O Treinamento do "Especialista"

Com milhões de exemplos filtrados por esse "espelho de verdade", eles treinaram um modelo de IA específico (o CodeV-SVA).

Eles não usaram apenas qualquer IA; eles pegaram modelos de código aberto (como o Qwen) e os "especializaram" apenas nessa tarefa de hardware.
Eles também ensinaram a IA a "pensar antes de falar" (adicionando um rascunho de raciocínio), assim como um engenheiro faz cálculos no papel antes de desenhar o projeto final.

4. O Resultado: O Mestre da Segurança

Quando testaram esse novo especialista:

Ele superou gigantes da tecnologia como o GPT-5 e o DeepSeek-R1 (que são IAs muito caras e poderosas, mas generalistas).
Ele conseguiu gerar regras de segurança corretas em 75,8% dos casos (em testes humanos), enquanto as IAs gerais ficavam atrás.
O melhor de tudo: É um modelo menor e mais barato de rodar do que os gigantes proprietários.

Resumo da Ópera

Os pesquisadores perceberam que, para ensinar uma IA a ser um especialista em hardware, não adianta apenas jogar mais dados na mesa. É preciso garantir a qualidade desses dados.

Eles criaram uma fábrica de dados onde:

Pegam projetos reais de chips.
Pedem para a IA inventar regras.
Usam o "Teste do Espelho" (tradução ida e volta) para garantir que a regra faz sentido.
Descartam qualquer coisa que não passe no teste.
Treinam um "super-engenheiro" de IA com esses dados limpos.

O resultado é uma ferramenta que ajuda a garantir que os chips do futuro (seus celulares, carros e computadores) não tenham falhas de segurança, tudo feito de forma mais rápida, barata e precisa do que nunca.

QiMeng-CodeV-SVA: Training Specialized LLMs for Hardware Assertion Generation via RTL-Grounded Bidirectional Data Synthesis

1. O Problema: Falta de "Livros de Receitas" de Qualidade

2. O Truque do Espelho (Tradução Bidirecional)

3. O Treinamento do "Especialista"

4. O Resultado: O Mestre da Segurança

Resumo da Ópera

Resumo Técnico: QiMeng-CodeV-SVA

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados

5. Significância

QiMeng-CodeV-SVA: Training Specialized LLMs for Hardware Assertion Generation via RTL-Grounded Bidirectional Data Synthesis

1. O Problema: Falta de "Livros de Receitas" de Qualidade

2. O Truque do Espelho (Tradução Bidirecional)

3. O Treinamento do "Especialista"

4. O Resultado: O Mestre da Segurança

Resumo da Ópera

Resumo Técnico: QiMeng-CodeV-SVA

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados

5. Significância

Mais como este

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration