Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation: Quality, Reliability, and Failure Modes

이 논문은 32 개의 언어 모델을 Verilog 태스크에 적용하여 합성 가능성과 하드웨어 품질을 통합 평가한 결과, 폐쇄형 모델이 심층 합성 오류로, 오픈형 모델이 기본 구조 누락으로 실패하는 경향을 확인하고 합성 피드백 루프를 통한 평가의 중요성을 강조합니다.

Weimin Fu, Zeng Wang, Minghao Shao, Ramesh Karri, Muhammad Shafique, Johann Knechtel, Ozgur Sinanoglu, Xiaolong Guo

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (LLM) 이 반도체 설계 언어 (RTL) 를 얼마나 잘 만들어내는가?"**를 평가한 연구입니다.

기존의 평가 방식은 "코드가 문법적으로 맞고, 시뮬레이션에서 오류가 없는지"만 확인했습니다. 하지만 이 논문은 **"그 코드가 실제로 칩을 만들 수 있는 공장에서 (Synthesis) 제대로 작동하고, 효율적인지"**까지 검증했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드리겠습니다.


🏗️ 비유: "건축 설계도"와 "현실적인 시공"

반도체 설계 (RTL) 는 고층 빌딩의 설계도를 그리는 것과 같습니다.

  1. 기존 평가 (시뮬레이션만 확인):

    • 건축가가 그린 설계도를 컴퓨터로 보니 "벽이 있고, 문이 있고, 창문이 있네요. 문법상 틀린 게 없어요!"라고 합니다.
    • 하지만 실제로는 벽이 너무 두꺼워서 자재비가 10 배 더 들거나, 구조가 불안정해서 건물이 무너질 수 있는 치명적인 문제가 있을 수 있습니다.
    • 기존 연구들은 이 '실제 시공 가능성'을 무시하고, "설계도가 잘 그려졌나요?"만 확인했습니다.
  2. 이 논문의 평가 (Synthesis-in-the-Loop):

    • 연구진은 인공지능이 그린 설계도를 **실제 건축 현장 (합성 도구, Synthesis)**에 가져가서 테스트했습니다.
    • "이 설계도로 실제로 건물을 지을 수 있나요? (Synthesizable)"
    • "지으면 비용이 얼마나 들까요? (Area)"
    • "건물이 무너지지 않고 빠르게 지어질까요? (Delay)"
    • 이 모든 것을 점수화하여 **하드웨어 품질 지수 (HQI)**를 매겼습니다.

🔍 주요 발견 사항 3 가지

1. 세 가지 등급으로 나뉜 '건축가'들 (3 Tiers)

32 개의 인공지능 모델을 평가했더니, 실력에 따라 명확하게 3 개의 등급으로 나뉘었습니다.

  • 1 등급 (최상위권): "마스터 건축가"들입니다. 설계도를 보면 바로 시공이 가능하고, 비용도 적게 들며, 구조도 튼튼합니다. (예: Gemini-3-Pro, GPT-5.4-Pro 등)
  • 2 등급 (중간층): "수준 좋은 건축가"들입니다. 대부분의 건물을 지을 수 있지만, 가끔 비효율적인 설계나 약간의 결함이 있습니다.
  • 3 등급 (하위권): "초보 건축가"들입니다. 설계도만 보면 그럴듯해 보이지만, 실제 시공 단계에서 "이건 못 짓습니다"라는 오류가 터지거나, 건물이 무너집니다.

재미있는 사실: 소프트웨어 코딩 실력 (일반적인 벤치마크) 이 좋은 모델이 반도체 설계에서도 무조건 좋은 것은 아닙니다. 오히려 모델의 크기나 후속 학습 (Fine-tuning) 여부가 훨씬 중요했습니다.

2. "한 번에 맞추기" vs "여러 번 시도하기" (Reliability Gap)

인공지능에게 한 번만 설계도를 그리게 하면 실패할 확률이 높습니다. 하지만 5 번 시도해서 가장 좋은 것만 고르면 (Best-of-5) 실력이 훨씬 좋아집니다.

  • 비유: 한 번에 완벽한 집을 지으려다 실패하는 건축가도, 5 번 시도해서 가장 좋은 설계도를 고르면 훌륭한 집을 지을 수 있습니다.
  • 결론: 실제 업무에서는 인공지능에게 한 번만 시키지 말고, 여러 번 만들어서 가장 좋은 것을 고르는 전략이 필수적입니다.

3. 실패하는 이유도 달랐습니다 (Proprietary vs Open-Weight)

모델의 종류에 따라 실패하는 패턴이 완전히 달랐습니다.

  • 상용 모델 (Proprietary, 예: GPT, Claude, Gemini):
    • 실패 패턴: "설계도는 완벽하게 그렸는데, 시공 단계에서 너무 복잡해서 공장이 멈췄습니다." (Late failure)
    • 원인: 실제 시공 가능한 데이터를 많이 배워서 기본기는 좋지만, 너무 과하게 복잡한 설계를 만들어내는 경향이 있습니다.
  • 오픈 소스 모델 (Open-Weight, 예: LLaMA, Qwen 등):
    • 실패 패턴: "설계도부터 기본적인 규칙을 어겼습니다. (예: 문이 없는 방, 벽이 없는 기둥)" (Early failure)
    • 원인: 실제 시공 데이터보다는 이론적인 시뮬레이션 데이터만 많이 배워서, "이론상으로는 가능하지만 실제로는 지을 수 없는" 설계도를 많이 그립니다.

💡 이 연구가 우리에게 주는 메시지

  1. "코드가 돌아간다고 다 좋은 게 아니다": 인공지능이 만든 반도체 코드가 시뮬레이션에서 잘 돌아간다고 해서 바로 칩을 만들 수 있는 것은 아닙니다. 실제 제조 공정을 통과할 수 있는지 확인해야 합니다.
  2. 데이터의 중요성: 오픈 소스 모델들이 실수하는 이유는 '실제 제조 가능한 데이터'를 충분히 배우지 못했기 때문입니다. 이 데이터를 더 많이 학습시키면 성능이 크게 향상될 것입니다.
  3. 신중한 선택: 반도체 설계에 인공지능을 쓸 때는, 단순히 "코드를 잘 짜는 모델"이 아니라 **"실제 칩으로 만들 수 있는 품질을 가진 모델"**을 선택해야 하며, 한 번에 결정하지 말고 여러 번 시도해봐야 합니다.

한 줄 요약:

"인공지능이 그린 반도체 설계도가 이론상만 좋은지, 실제로도 지을 수 있는지를 검증했더니, 상위권 모델들은 훌륭하지만 하위권 모델들은 '이론과 현실'의 괴리가 너무 컸다는 사실이 밝혀졌습니다."