iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation

이 논문은 물리적 설계 Tcl 스크립트 생성의 데이터 부족 문제를 해결하기 위해 다단계 데이터 합성 파이프라인을 통해 구축된 대규모 언어 모델 'iScript'와 이를 평가하는 벤치마크를 제안하고, 이를 통해 기존 최첨단 모델보다 우수한 성능을 입증했습니다.

Ning Xu, Zhaoyang Zhang, Senlin Shu, Lei Qi, Jiaqi Lv, Wensuo Wang, Tianhao Zhao, Chao Zhang, Zhaoliang Yang, Xiangyu Li, Zhaorui Su, Jingshan Li, Xin Geng

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"반도체 설계라는 매우 어렵고 전문적인 일을 도와주는 새로운 AI 비서 (iScript)"**를 소개하는 연구입니다.

일반적인 AI(예: 챗봇) 가 일상적인 대화나 코딩은 잘하지만, **반도체 칩을 설계하는 특수한 언어 (Tcl 스크립트)**를 다루면 엉뚱한 답을 내놓거나 아예 말을 못 하는 경우가 많습니다. 이 논문은 그 문제를 해결하기 위해 어떻게 AI 를 훈련시켰는지, 그리고 그 성능을 어떻게 검증했는지 설명합니다.

핵심 내용을 일상적인 비유로 풀어보면 다음과 같습니다.


1. 문제 상황: "전문가용 요리책"을 모르는 일반 요리사

반도체 설계 (Physical Design) 는 마치 초고급 미슐랭 레스토랑의 주방과 같습니다.

  • Tcl 스크립트: 주방장들이 사용하는 매우 특수한 조리법과 도구 사용법입니다. (예: "이 재료를 3 분간 150 도에서 굽되, 팬을 왼쪽으로 5 도 기울여라" 같은 아주 정교한 지시)
  • 일반 AI: 훌륭한 일반 요리사입니다. "파스타 만들어줘"라고 하면 잘 해내지만, "이 특수한 반도체 공정에 맞춰서 레시피를 짜줘"라고 하면 당황합니다. 왜냐하면 전문 용어가 너무 많고, 데이터가 거의 없으며, 실수하면 칩이 망가져서 큰 손실이 발생하기 때문입니다.

2. 해결책: "iScript"라는 초특급 요리사 양성

저자들은 일반 AI 를 반도체 설계 전문가로 만들기 위해 3 단계 훈련 과정을 거쳤습니다.

① 데이터 만들기: "가짜 레시피"를 만들어서 가르치기

실제 반도체 회사에서는 설계 데이터가 비밀 (비공개) 이라 AI 가 배울 수 있는 책이 없습니다. 그래서 저자들은 AI 가 스스로 데이터를 만들어내게 했습니다.

  • 비유: 요리사 학교에서 실제 레시피가 없으니, AI 가 먼저 "이런 조리법 조합은 어떨까?"라고 상상해서 가짜 레시피를 1 만 개 만들게 했습니다.
  • 검증: 그중에서 문법 오류가 있는 레시피는 걸러내고 (Static Linting), "이 레시피를 왜 이렇게 썼을까?"라는 **이유 (Chain-of-Thought)**까지 AI 가 스스로 설명하게 만들었습니다.
  • 결과: "요리 요구사항 (Requirement) + 생각 과정 (CoT) + 완성된 레시피 (Script)"로 된 1 만 개의 고품질 교재를 만들었습니다.

② 훈련 과정: 두 단계로 성장시키기

  • 1 단계 (CPT - 기초 다지기): AI 가 반도체 설계 용어 (Tcl) 자체에 익숙해지도록, 전문 용어만 잔뜩 읽게 했습니다. 마치 전문 용어 사전만 외우는 과정입니다.
  • 2 단계 (SFT - 실전 훈련): 이제 "이런 요구사항이 들어오면 이렇게 레시피를 짜야 해"라고 가르쳤습니다. 특히 **왜 그렇게 해야 하는지 이유 (CoT)**를 함께 가르쳐서, AI 가 단순히 외우는 게 아니라 이해하고 추론하도록 훈련시켰습니다.

3. 평가 방법: "실제 요리 테스트" 대신 "전문가 심사"

AI 가 만든 레시피가 진짜로 먹으면 되는지 확인하려면, 실제 반도체 공장에서 실행해봐야 합니다. 하지만 이는 시간도 오래 걸리고 비용도 너무 비싸서 모든 것을 테스트할 수 없습니다.

그래서 저자들은 2 단계 심사 시스템을 만들었습니다.

  1. 문법 검사 (Static Syntax): 레시피에 오타나 문법 오류가 있는지 빠르게 확인합니다. (예: "불을 켜라"라고 했는데 "불을 끄라"라고 적혀있으면 바로 탈락)
  2. 기능 평가 (LLM-based Evaluation): 문법만 맞는 게 아니라, "이 레시피가 정말 원하는 요리를 만들어낼 수 있을까?"를 또 다른 AI 전문가가 심사합니다. 이 심사 AI 는 실제 메뉴북 (매뉴얼) 을 보고 있으니, 인간 전문가 못지않게 정확하게 판단합니다.

4. 결과: 일반 AI vs iScript

시험 결과, iScript가 다른 최신 AI 들보다 훨씬 뛰어난 성능을 보였습니다.

  • 일반 AI: 간단한 명령은 잘하지만, 복잡한 설계 요구사항을 받으면 엉뚱한 답을 내놓거나 아예 실패합니다.
  • iScript: 복잡한 요구사항도 잘 이해하고, 문법 오류가 적으며, 필요한 기능을 수행할 수 있는 레시피를 잘 만들어냅니다.
    • 특히 **난이도가 높은 문제 (L3)**에서도 다른 AI 들이 거의 0% 에 가까운 성공률을 보일 때, iScript 는 여전히 60% 이상의 문법 정확도를 유지했습니다.

5. 결론 및 한계

이 연구는 **"데이터가 부족한 특수 분야에서는, AI 가 스스로 데이터를 만들어내고 이유를 생각하게 훈련시키는 것이 중요하다"**는 것을 증명했습니다.

  • 한계: 아직 데이터가 완벽하지 않아 아주 복잡한 문제는 가끔 틀리기도 하고, 실제 공장에서 실행해보지 않고 AI 가 심사하는 방식이라 100% 완벽하지는 않습니다.
  • 미래: 더 많은 데이터를 모아서 AI 가 직접 공장에서 실행해보는 자동화 시스템을 만들 계획입니다.

한 줄 요약:

"반도체 설계라는 난해한 언어를 구사하는 **전문가 AI(iScript)**를 만들기 위해, 가짜 데이터를 만들어 가르치고 이유를 생각하게 훈련시켰으며, 그 결과 일반 AI 들보다 훨씬 똑똑하고 신뢰할 수 있게 되었다는 연구입니다."