HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"하드웨어 설계 언어 **(HDL)에 대한 연구입니다.

쉽게 말해, **"컴퓨터 칩 **(하드웨어)을 만드는 데 인공지능 (LLM) 을 쓰려고 했지만, 기존 방식으로는 너무 어렵고 틀리는 경우가 많았어요. 그래서 연구팀이 **새로운 지도 **(그래프 데이터베이스)를 만들어서 문제를 해결했습니다.

이 내용을 일상적인 비유로 설명해 드릴게요.

1. 문제: "왜 AI 는 칩 설계가 서툴까?"

기존의 AI 는 텍스트를 검색할 때 **"단어가 비슷하면 같은 것"**이라고 생각해요.
예를 들어, 사용자가 "캐시 (Cache) 가 고장 났어"라고 검색하면, AI 는 '캐시'라는 단어가 많이 나오는 파일을 찾아서 보여줍니다.

하지만 **하드웨어 설계 **(HDL)는 자연어와 완전히 다른 특징이 두 가지 있어요.

**구조적 불일치 **(건물의 층수 문제)
- 자연어: 평면적인 글쓰기예요. "A 가 B 를 하고 C 가 D 를 한다"처럼 한 줄로 이어집니다.
- 하드웨어: 거대한 빌딩처럼 층이 나뉘어 있어요. '모듈 (건물 전체)' > '블록 (층)' > '신호 (방)' 같은 계층 구조가 있습니다.
- 문제: AI 가 "캐시"라는 단어만 보고 파일을 찾으면, 실제 고장 난 곳은 '캐시'라는 단어가 없지만, '캐시'와 연결된 다른 층 (Frontend) 에 있을 수 있어요. 단어만 보고 건물의 층을 무시하면 엉뚱한 방을 찾아버리는 것입니다.
**어휘 불일치 **(전문 용어 장벽)
- 하드웨어에는 "에지 트리거 (Edge Trigger)", "동기화 (Synchronize)" 같은 전문 용어가 많아요. AI 는 이걸 자연어로 해석하는 데 어려움을 겪습니다.

2. 해결책: "HDLxGraph" (새로운 지도와 나침반)

연구팀은 AI 가 하드웨어를 이해할 수 있도록 두 가지 특별한 도구를 도입했습니다.

① AST (추상 구문 트리) = "건물의 층별 지도"

비유: 건물의 구조도입니다.
이 도구를 쓰면 AI 는 단순히 단어만 보는 게 아니라, "이 코드는 어떤 모듈 안에 있고, 어떤 블록에 속해 있는지"를 계층적으로 이해하게 됩니다.
효과: 사용자가 "캐시"라고 검색해도, AI 는 "아, 캐시라는 단어가 있지만 실제 고장 난 신호는 그 아래 층에 있구나"라고 정확히 찾아냅니다.

② DFG (데이터 흐름 그래프) = "전기 배선도"

비유: 건물의 전기 배선이나 수도관입니다.
하드웨어는 신호가 A 에서 B 로 흐르면서 작동합니다. DFG 는 이 신호의 흐름을 추적합니다.
효과: "이 신호가 왜 잘못됐지?"라고 물으면, AI 는 배선도를 따라 거슬러 올라가서 (Traverse) 고장 난 정확한 지점을 찾아냅니다.

3. 새로운 훈련 데이터: "HDLSearch"

이 연구를 위해 기존에 없던 **새로운 시험지 **(벤치마크)도 만들었습니다.

이유: 하드웨어 관련 질문과 정답이 짝지어진 데이터가 없어서 AI 를 제대로 훈련시킬 수 없었습니다.
방법: 실제 현실 세계의 거대한 칩 설계 프로젝트 (수만 줄의 코드) 를 분석해서, AI 가 스스로 질문과 답을 만들어내는 방식으로 수천 개의 연습 문제를 만들었습니다.

4. 결과: "기존 방식보다 훨씬 똑똑해졌다"

이 새로운 방법 (HDLxGraph) 을 적용한 결과, AI 의 실력이 크게 향상되었습니다.

**검색 **(Search) 엉뚱한 코드를 찾는 실수를 12% 줄였습니다.
**디버깅 **(Debugging) 고장 난 코드를 찾아내는 정확도가 12% 좋아졌습니다.
**코드 완성 **(Completion) 끊긴 코드를 이어 붙이는 능력이 5% 향상되었습니다.

기존의 단순한 단어 검색 방식이나, 일반 소프트웨어용 AI 와 비교했을 때 하드웨어 특유의 구조와 흐름을 이해하는 데 훨씬 성공적이라는 결론입니다.

한 줄 요약

"하드웨어 설계는 단순한 글이 아니라, 층이 있고 배선이 있는 복잡한 건물입니다. 이 연구는 AI 에게 '단어 검색' 대신 '건물 구조도'와 '배선도'를 보여줘서, 고장 난 곳을 훨씬 정확하고 빠르게 찾아내게 만들었습니다."

Each language version is independently generated for its own context, not a direct translation.

HDLxGraph: LLM 과 HDL 저장소를 연결하기 위한 HDL 그래프 데이터베이스

1. 문제 정의 (Problem)

최근 대규모 언어 모델 (LLM) 은 소프트웨어 생성 및 디버깅에서 뛰어난 성능을 보이지만, 하드웨어 기술 언어 (HDL, 예: Verilog) 에 적용할 때는 다음과 같은 근본적인 한계에 직면해 있습니다.

제한된 학습 데이터 및 긴 프롬프트: HDL 은 전문적인 지식이 필요하며, 방대한 코드베이스를 프롬프트에 모두 넣기 어렵습니다. 이를 해결하기 위해 검색 증강 생성 (RAG) 이 도입되었으나, 기존 RAG 는 여전히 성능이 부족합니다.
구조적 불일치 (Structural Mismatch): 자연어 쿼리는 평면적이고 순차적인 반면, HDL 코드는 모듈 (Module), 블록 (Block), 신호 (Signal) 로 구성된 계층적 구조를 가집니다. 기존 의미 유사도 기반 RAG 는 이러한 계층적 관계를 이해하지 못해 잘못된 파일을 검색하거나 문맥을 놓치는 경우가 많습니다.
어휘 불일치 (Vocabulary Mismatch): HDL 의 연산자나 키워드 (예: always, assign, fence.i) 는 자연어 설명과 달라, 단순한 텍스트 매칭만으로는 정확한 의미론적 이해가 어렵습니다.
벤치마크 부재: HDL 코드 검색을 평가할 수 있는 포괄적인 벤치마크가 존재하지 않았습니다.

2. 방법론 (Methodology)

저자들은 HDL 의 고유한 그래프 특성을 RAG 에 통합한 HDLxGraph라는 새로운 프레임워크를 제안했습니다. 이 프레임워크는 크게 세 단계로 구성됩니다.

A. 그래프 데이터베이스 준비 (Graph Database Preparation)

AST(추상 구문 트리) 추출: Verilog 코드를 파싱하여 MODULE, BLOCK, SIGNAL 간의 계층적 포함 관계 (CONTAINS, INSTANTIATE) 를 그래프로 구축합니다. 이는 HDL 의 구조적 계층을 파악하는 데 사용됩니다.
DFG(데이터 흐름 그래프) 추출: 신호 간의 연결과 데이터 흐름을 분석하여 FLOWS_TO, COND 등의 엣지로 구성된 그래프를 생성합니다. 이는 회로의 동작과 신호 의존성을 파악하는 데 사용됩니다.
메타데이터 생성: CodeT5+ 와 같은 LLM 을 사용하여 코드 노드의 임베딩을 생성하고, 그래프 데이터베이스 (Neo4j) 에 저장합니다.

B. 다단계 검색 (Multi-level Retrieval)

쿼리 분해 (Query Decomposition): LLM(Decomposer) 을 사용하여 사용자의 자연어 쿼리를 모듈, 블록, 신호 수준으로 분해합니다.
AST 기반 검색: 분해된 쿼리를 기반으로 계층적 구조를 따라 상위 $k$ 개의 후보를 검색하고, 포함 관계를 필터링하여 정확한 파일 위치를 찾습니다.
DFG 기반 검색:
- 디버깅: 오류 신호에서 시작하여 DFG 를 상위로 역추적 (Signal Traverse) 하여 데이터 흐름이 왜곡된 지점을 찾습니다.
- 코드 완성: GraphSAGE 를 활용하여 그래프 임베딩을 생성하고, 유사한 데이터 흐름 패턴을 가진 코드를 검색합니다.

C. HDLSearch 벤치마크 구축

기존 HDL 벤치마크의 부재를 해결하기 위해, 실제 GitHub 의 RTL 저장소 (RTL-Repo) 를 기반으로 자동으로 생성된 HDLSearch를 제안했습니다. 이 벤치마크는 모듈, 블록, 신호 수준의 질문 - 답변 쌍을 포함하며, LLM 이 생성한 쿼리를 인간 전문가가 검증하는 과정을 거칩니다.

3. 주요 기여 (Key Contributions)

HDLxGraph 프레임워크: HDL 의 고유한 구조적 (AST) 및 행동적 (DFG) 특성을 RAG 에 통합한 최초의 프레임워크입니다.
계층적 정렬 및 어휘 불일치 해결: 평면적인 자연어 쿼리를 HDL 의 계층적 구조에 정렬하고, DFG 를 통해 신호 수준의 데이터 흐름을 추적하여 정확한 디버깅과 완성을 가능하게 합니다.
HDLSearch 벤치마크: 실제 저장소 기반의 HDL 코드 검색을 평가할 수 있는 최초의 대규모 데이터셋을 공개했습니다.
성능 검증: 다양한 규모의 LLM(Claude-3.5, Qwen2.5, LLaMA-3) 을 사용하여 검색, 디버깅, 코드 완성 작업에서 기존 방법 대비 우수한 성능을 입증했습니다.

4. 실험 결과 (Results)

HDLxGraph 는 기존 유사도 기반 RAG 와 소프트웨어용 Graph RAG(Microsoft GraphRAG) 를 기준으로 다음과 같은 개선을 보였습니다.

코드 검색 (Code Search): 평균 역순위 (MRR) 가 12.04% 향상되었습니다. (기존 Graph RAG 는 0.82% 만 향상됨). 이는 HDL 의 구조적 계층 정보가 검색 정확도에 결정적임을 보여줍니다.
디버깅 (Debugging): ROUGE-L F1 점수가 12.22% 향상되었으며, 특히 LLaMA-3.1 과 Qwen2.5-Coder-7B 와 같은 중소형 모델에서도 기존 Graph RAG 대비 **8.18%**의 성능 향상을 보였습니다.
코드 완성 (Completion): Pass@1 정확도가 5.04% 향상되었습니다.
Ablation Study:
- 검색 및 완성: AST(구조적 분석) 가 가장 중요한 역할을 했습니다.
- 디버깅: AST 와 DFG(행동 분석) 가 모두 필수적이며, 인간 디버깅 과정과 유사하게 신호 흐름 추적이 필요함을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 이 하드웨어 설계 분야에서 실질적으로 활용되기 위한 핵심 과제를 해결했습니다. 단순히 텍스트 유사도에 의존하는 기존 RAG 의 한계를 넘어, HDL 고유의 계층적 구조와 데이터 흐름을 그래프 형태로 모델링함으로써, 복잡한 칩 설계 프로젝트에서도 정확한 코드 검색, 디버깅, 생성이 가능함을 입증했습니다. 또한, HDLSearch 를 통해 향후 HDL 관련 LLM 연구의 표준 평가 기준을 마련했다는 점에서 학술적, 산업적 가치가 매우 큽니다.

요약하자면, HDLxGraph는 하드웨어 언어의 복잡성을 그래프 데이터베이스로 해결하여 LLM 의 하드웨어 설계 능력을 비약적으로 향상시킨 획기적인 프레임워크입니다.