Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation: Quality, Reliability, and Failure Modes

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (LLM) 이 반도체 설계 언어 (RTL) 를 얼마나 잘 만들어내는가?"**를 평가한 연구입니다.

기존의 평가 방식은 "코드가 문법적으로 맞고, 시뮬레이션에서 오류가 없는지"만 확인했습니다. 하지만 이 논문은 **"그 코드가 실제로 칩을 만들 수 있는 공장에서 (Synthesis) 제대로 작동하고, 효율적인지"**까지 검증했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드리겠습니다.

🏗️ 비유: "건축 설계도"와 "현실적인 시공"

반도체 설계 (RTL) 는 고층 빌딩의 설계도를 그리는 것과 같습니다.

기존 평가 (시뮬레이션만 확인):
- 건축가가 그린 설계도를 컴퓨터로 보니 "벽이 있고, 문이 있고, 창문이 있네요. 문법상 틀린 게 없어요!"라고 합니다.
- 하지만 실제로는 벽이 너무 두꺼워서 자재비가 10 배 더 들거나, 구조가 불안정해서 건물이 무너질 수 있는 치명적인 문제가 있을 수 있습니다.
- 기존 연구들은 이 '실제 시공 가능성'을 무시하고, "설계도가 잘 그려졌나요?"만 확인했습니다.
이 논문의 평가 (Synthesis-in-the-Loop):
- 연구진은 인공지능이 그린 설계도를 **실제 건축 현장 (합성 도구, Synthesis)**에 가져가서 테스트했습니다.
- "이 설계도로 실제로 건물을 지을 수 있나요? (Synthesizable)"
- "지으면 비용이 얼마나 들까요? (Area)"
- "건물이 무너지지 않고 빠르게 지어질까요? (Delay)"
- 이 모든 것을 점수화하여 **하드웨어 품질 지수 (HQI)**를 매겼습니다.

🔍 주요 발견 사항 3 가지

1. 세 가지 등급으로 나뉜 '건축가'들 (3 Tiers)

32 개의 인공지능 모델을 평가했더니, 실력에 따라 명확하게 3 개의 등급으로 나뉘었습니다.

1 등급 (최상위권): "마스터 건축가"들입니다. 설계도를 보면 바로 시공이 가능하고, 비용도 적게 들며, 구조도 튼튼합니다. (예: Gemini-3-Pro, GPT-5.4-Pro 등)
2 등급 (중간층): "수준 좋은 건축가"들입니다. 대부분의 건물을 지을 수 있지만, 가끔 비효율적인 설계나 약간의 결함이 있습니다.
3 등급 (하위권): "초보 건축가"들입니다. 설계도만 보면 그럴듯해 보이지만, 실제 시공 단계에서 "이건 못 짓습니다"라는 오류가 터지거나, 건물이 무너집니다.

재미있는 사실: 소프트웨어 코딩 실력 (일반적인 벤치마크) 이 좋은 모델이 반도체 설계에서도 무조건 좋은 것은 아닙니다. 오히려 모델의 크기나 후속 학습 (Fine-tuning) 여부가 훨씬 중요했습니다.

2. "한 번에 맞추기" vs "여러 번 시도하기" (Reliability Gap)

인공지능에게 한 번만 설계도를 그리게 하면 실패할 확률이 높습니다. 하지만 5 번 시도해서 가장 좋은 것만 고르면 (Best-of-5) 실력이 훨씬 좋아집니다.

비유: 한 번에 완벽한 집을 지으려다 실패하는 건축가도, 5 번 시도해서 가장 좋은 설계도를 고르면 훌륭한 집을 지을 수 있습니다.
결론: 실제 업무에서는 인공지능에게 한 번만 시키지 말고, 여러 번 만들어서 가장 좋은 것을 고르는 전략이 필수적입니다.

3. 실패하는 이유도 달랐습니다 (Proprietary vs Open-Weight)

모델의 종류에 따라 실패하는 패턴이 완전히 달랐습니다.

상용 모델 (Proprietary, 예: GPT, Claude, Gemini):
- 실패 패턴: "설계도는 완벽하게 그렸는데, 시공 단계에서 너무 복잡해서 공장이 멈췄습니다." (Late failure)
- 원인: 실제 시공 가능한 데이터를 많이 배워서 기본기는 좋지만, 너무 과하게 복잡한 설계를 만들어내는 경향이 있습니다.
오픈 소스 모델 (Open-Weight, 예: LLaMA, Qwen 등):
- 실패 패턴: "설계도부터 기본적인 규칙을 어겼습니다. (예: 문이 없는 방, 벽이 없는 기둥)" (Early failure)
- 원인: 실제 시공 데이터보다는 이론적인 시뮬레이션 데이터만 많이 배워서, "이론상으로는 가능하지만 실제로는 지을 수 없는" 설계도를 많이 그립니다.

💡 이 연구가 우리에게 주는 메시지

"코드가 돌아간다고 다 좋은 게 아니다": 인공지능이 만든 반도체 코드가 시뮬레이션에서 잘 돌아간다고 해서 바로 칩을 만들 수 있는 것은 아닙니다. 실제 제조 공정을 통과할 수 있는지 확인해야 합니다.
데이터의 중요성: 오픈 소스 모델들이 실수하는 이유는 '실제 제조 가능한 데이터'를 충분히 배우지 못했기 때문입니다. 이 데이터를 더 많이 학습시키면 성능이 크게 향상될 것입니다.
신중한 선택: 반도체 설계에 인공지능을 쓸 때는, 단순히 "코드를 잘 짜는 모델"이 아니라 **"실제 칩으로 만들 수 있는 품질을 가진 모델"**을 선택해야 하며, 한 번에 결정하지 말고 여러 번 시도해봐야 합니다.

한 줄 요약:

"인공지능이 그린 반도체 설계도가 이론상만 좋은지, 실제로도 지을 수 있는지를 검증했더니, 상위권 모델들은 훌륭하지만 하위권 모델들은 '이론과 현실'의 괴리가 너무 컸다는 사실이 밝혀졌습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

기존의 대규모 언어 모델 (LLM) 기반 하드웨어 기술 언어 (RTL) 생성 연구는 주로 기능적 정확성 (Functional Correctness) 에만 초점을 맞추고 있습니다. 즉, 시뮬레이션 테스트벤치를 통과하는지 여부만을 평가 기준으로 삼고 있습니다. 그러나 실제 칩 설계에서 RTL 코드는 다음 네 가지 조건을 모두 충족해야 합니다:

문법적 유효성 (Syntactically Valid)
합성 가능성 (Synthesizable): 논리 합성 도구를 통해 게이트 레벨로 변환 가능해야 함.
기능적 정확성 (Functionally Correct)
하드웨어 효율성 (Hardware-Efficient): 면적 (Area) 과 지연 시간 (Delay) 이 전문가 수준의 설계와 경쟁력 있어야 함.

기존 벤치마크는 시뮬레이션 통과율만 측정하여, 합성 단계에서 실패하거나 면적/타이밍이 비효율적인 설계를 '성공'으로 잘못 평가하는 평가의 맹점이 존재했습니다. 본 논문은 이러한 격차를 해소하기 위해 Synthesis-in-the-Loop(합성 순환 내 평가) 방식을 도입했습니다.

2. 방법론 (Methodology)

2.1 평가 프레임워크 및 지표

데이터셋: VerilogEval(155 개) 과 RTLLM(47 개) 에서 추출한 총 202 개의 Verilog 설계 과제.
모델: 2026 년 초 기준 주요 제공업체의 32 개 LLM 평가 (OpenAI, Google, Anthropic, Meta, Alibaba 등).
평가 파이프라인 (3 단계 게이트):
1. 문법 유효성: Icarus Verilog 파싱 성공.
2. 합성 가능성: Yosys + Nangate45 45nm 표준 셀 라이브러리 기반 합성 성공 (에러 없음).
3. 기능적 정확성: 테스트벤치 시뮬레이션 통과.
하드웨어 품질 지수 (HQI, Hardware Quality Index):
- 0~100 점 척도로, 합성 통과 설계에 대해 부여됨.
- 계산식: 합성 후 면적 ( $\hat{a}$ ), 지연 ( $\hat{d}$ ), 경고 수 ( $\hat{w}$ ) 를 전문가 기준 (Golden Reference) 과 비교하여 정규화된 비용 (Cost) 을 산출하고 이를 점수로 변환.
- $HQI = \min(100 / \text{cost}, 100)$
- 면적과 지연에 50% 가량, 경고 수에 10% 가량의 가중치를 부여.

2.2 평가 전략

Best-of-5: 각 모델 - 과제 쌍에 대해 5 번의 독립적인 생성 시도 후, 가장 좋은 결과를 선택하여 '최대 능력 (Capability Ceiling)'을 측정.
Expected HQI: 단일 시도 (Single-attempt) 의 기대 품질을 측정하여 배포 신뢰성 (Deployment Reliability) 격차를 분석.
복잡도 가중치 (Complexity-weighted): 단순 모듈보다 다중 모듈 설계 등 복잡한 과제가 전체 점수에 더 큰 비중을 차지하도록 가중치 적용.

3. 주요 기여 (Key Contributions)

Synthesis-in-the-Loop 평가 파이프라인 및 HQI 도입:
- 시뮬레이션 통과 여부를 넘어, 합성 단계의 품질 (면적, 지연, 경고) 을 정량화하는 0~100 점 척도 (HQI) 를 제안하여 RTL 구현 품질의 공정한 비교를 가능하게 함.
32 개 LLM 에 대한 생태계 전체 실증 분석:
- 202 개 과제에 대한 5 회 시도 평가를 통해 3 단계 능력 계층 (Tiered Landscape) 구조를 발견하고, 배포 신뢰성 격차를 정량화함.
합성 실패 유형 분류 (Failure Taxonomy):
- 195 건의 실제 합성 실패 사례를 9 가지 하위 유형으로 분류하고, 상용 (Proprietary) 모델과 오픈 가중치 (Open-weight) 모델의 실패 양상이 질적으로 다르다는 것을 규명함.

4. 주요 결과 (Results)

4.1 능력 계층화 (Three-Tier Landscape)

평가된 32 개 모델은 명확한 3 단계로 나뉨:

Tier 1 (Global HQI ≥ 71, 13 개 모델): 최첨단 모델들 (Gemini-3-Pro, GPT-5.4-Pro, Claude-4.6 등). Gemini-3-Pro 가 87.5% 커버리지, 85.1 HQI 로 1 위.
Tier 2 (Global HQI 53~68, 11 개 모델): 중간 계층 (GPT-4o, Gemini-2.5-Pro, DeepSeek-V3.2 등).
Tier 3 (Global HQI < 53, 8 개 모델): 하위 계층 (Mistral-Nemo, GPT-5 base 등).
통찰: 시뮬레이션 통과율은 실제 하드웨어 준비 상태를 최대 15 점까지 과대평가하는 경향이 있음.

4.2 배포 신뢰성 격차 (Deployment Reliability Gap)

Best-of-5 vs. Single-Attempt: 상위 모델조차 Best-of-5 능력과 단일 시도 기대 품질 사이에 3.8~22.1 점의 격차가 존재함.
이는 단일 API 호출만으로는 최상의 품질을 보장하기 어렵고, 다중 샘플 생성 (Multi-sample generation) 및 자동 검증 전략이 필수적임을 시사함.

4.3 실패 모드 분석 (Failure Modes)

195 건의 합성 실패를 분석한 결과, 모델 유형에 따라 실패 패턴이 명확히 갈라짐:

상용 모델 (Proprietary): 후기 실패 (Late Failure).
- 파싱은 통과하나 합성 단계 (Elaboration) 에서 실패하거나 합성 타임아웃 발생.
- 원인: 복잡한 논리 구조 생성, 과도한 중첩 등. (합성 등급 RTL 학습 데이터가 많았음을 시사)
오픈 가중치 모델 (Open-weight): 초기 실패 (Early Failure).
- 모듈 래퍼 (Wrapper) 누락, 비합성 가능 구조 (while 루프 등), 시뮬레이션 전용 시스템 태스크 ($display 등) 포함.
- 원인: 시뮬레이션 등급 RTL 데이터로 주로 학습되어 합성 규칙을 준수하지 못함.

4.4 기술적 특성

모델 아키텍처: 같은 세대 내에서도 모델 용량 (Capacity) 이 RTL 성능에 결정적임 (예: GPT-5-Pro 는 GPT-5-Nano 보다 HQI 45 점 이상 우위).
비용 효율성: Frontier 모델은 과제당 $0.05 이상 비용이 들지만, 저가 모델은 $0.0001 미만.
추론 토큰: Tier 1 모델 중 추론 토큰 (Reasoning tokens) 을 사용하는 모델들이 높은 성능을 보임.

5. 의의 및 결론 (Significance)

평가 기준의 전환: 단순 시뮬레이션 통과율 (Pass Rate) 은 RTL 생성 모델의 실제 능력을 과대평가하므로, 합성 인식 (Synthesis-aware) 품질 지표 (HQI) 가 필수적임.
배포 전략: 단일 생성보다는 Best-of-N 전략과 자동화된 합성 검증을 통한 배포가 현실적임.
학습 데이터의 중요성: 오픈 소스 모델의 성능 저하는 합성 등급 (Synthesis-grade) RTL 데이터의 부재에서 기인함. 합성 규칙을 준수하는 고품질 RTL 데이터셋으로 파인튜닝하면 성능 격차를 획기적으로 줄일 수 있음.
향후 연구 방향: 반복적 개선 (Iterative refinement), 배치 및 라우팅 (Place-and-Route) 단계의 품질 지표 포함, 시스템 레벨 통합 평가 등으로 확장 필요.

이 논문은 LLM 이 실제 칩 설계 파이프라인에 통합되기 위해 필요한 신뢰성 있는 평가 체계를 마련하고, 모델 개발자와 사용자에게 구체적인 개선 방향 (데이터 큐레이션, 다중 샘플 전략 등) 을 제시했다는 점에서 의의가 큽니다.