H2LooP Spark Preview: Continual Pretraining of Large Language Models for Low-Level Embedded Systems Code

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "만능 요리사 vs. 특수 재료"

기존의 거대 AI 모델들 (Claude, Qwen 등) 은 인터넷에 떠도는 수많은 요리 레시피 (일반적인 프로그래밍 코드) 를 배워서 만능 요리사가 되었습니다. 하지만 임베디드 시스템 코드는 다릅니다.

일반 코드: "파스타를 끓여라" (누구나 아는 일반적인 지시).
임베디드 코드: "STM32 칩의 3 번 핀에 5 볼트를 0.001 초 동안 가하라" (매우 구체적이고, 칩마다 다름).

기존 AI 는 이 특수한 '하드웨어 레시피'를 본 적이 거의 없어서, 코드를 짜달라고 하면 엉뚱한 핀을 건드리거나 전압을 잘못 설정하는 **환각 (Hallucination)**을 일으켰습니다. 마치 일반 요리사가 "고래를 잡으려면 그물을 던져라"라고 말하듯, 칩에 없는 기능을 상상해내는 것이죠.

2. 해결책: "전문가 과정 (Spark Preview)"

저자들은 이 문제를 해결하기 위해 OLMo-3-7B라는 70 억 개의 파라미터를 가진 AI 에게 **전문가 과정 (Continual Pretraining)**을 시켰습니다.

비유: 이미 요리 실력이 좋은 요리사에게, **하드웨어 제조사 (ST, NXP 등) 가 직접 쓴 117 개 회사의 두꺼운 매뉴얼 (Datasheet)**과 실제 공장 코드 818 개를 보여주고 "이걸 보고 다시 공부해라"라고 시킨 것입니다.
데이터의 특징: 단순히 인터넷을 뒤적여 모은 게 아니라, 매뉴얼의 특정 문장과 실제 코드 줄을 1:1 로 연결해 주는 '스페시맵 (SpecMap)'이라는 기술을 써서, AI 가 "이 문장이 이 코드를 의미한다"는 것을 정확히 이해하도록 훈련시켰습니다.

3. 훈련 방법: "고강도 스쿼트와 정밀한 무게 조절"

AI 를 훈련시킬 때 중요한 것은 어떻게 가르치느냐입니다.

LoRA (저랭크 어댑터): AI 전체를 처음부터 다시 가르치는 건 너무 비싸고 느립니다. 대신, AI 의 두뇌 중 가장 중요한 부분 (주의 집중, 논리, 단어 기억) 만을 살짝 수정하는 'LoRA'라는 기술을 썼습니다.
고난이도 설정 (Rank 512): 보통은 가볍게 가르치지만, 이 연구팀은 **매우 높은 난이도 (Rank 512)**로 가르쳤습니다. 마치 운동선수가 가벼운 아령 대신 매우 무거운 바벨로 근력을 키우는 것과 같습니다.
학습률 (Learning Rate): 무거운 바벨을 들 때, 너무 빠르게 움직이면 넘어집니다. 그래서 아주 천천히, 조심스럽게 (Conservative Learning Rate) 움직이도록 설정했습니다.
결과: 이 '고강도 + 천천히' 전략이 가장 효과적이었습니다. 1,400 번 이상의 실험을 통해 이 조합이 최적임을 증명했습니다.

4. 성과: "작은 전문가가 거인을 이기다"

훈련을 마친 'Spark Preview'는 놀라운 결과를 냈습니다.

퍼플렉시티 (혼란도) 감소: AI 가 다음 단어를 예측할 때의 혼란이 70% 이상 줄어들었습니다. 즉, 하드웨어 코드를 읽을 때 "아, 이 칩은 이렇게 동작하구나!"라고 확신을 갖게 된 것입니다.
거인과의 대결: 이 모델은 70 억 파라미터짜리 작은 모델입니다. 반면, 경쟁자인 'Claude Opus 4.6'은 1,000 억 개 이상의 거대 모델이고, 'Qwen3'는 300 억 개입니다.
- 결과: 13 가지 임베디드 분야 중 8 개에서 거대 모델들을 압도적으로 이겼습니다.
- 이유: 거대 모델은 넓은 지식을 가지고 있지만, 이 작은 모델은 임베디드라는 좁은 영역에 모든 지식을 집중했기 때문입니다. 마치 "모든 과목 90 점인 학생"보다 "수학 올림피아드 금메달리스트"가 수학 문제에서는 더 뛰어난 것과 같습니다.

5. 핵심 교훈 (요약)

데이터의 질이 생명: 인터넷의 쓰레기 데이터를 모으는 것보다, 매뉴얼과 코드를 정확히 연결한 고품질 데이터가 훨씬 중요합니다.
작은 모델도 강하다: 특정 분야에 집중하면, 거대하고 비싼 모델보다 훨씬 뛰어난 성능을 낼 수 있습니다.
조심스러운 훈련: 무작정 빠르게 가르치는 것보다, 난이도를 높이고 속도를 줄이는 것이 장기적으로 더 안정적이고 효과적입니다.

결론

이 연구는 **"하드웨어를 다루는 AI"**를 만들기 위해, 거창한 AI 를 새로 만드는 대신 기존 AI 에게 전문적인 훈련을 시키는 것이 얼마나 효과적인지 보여줍니다. 이제 개발자들은 이 모델을 통해 칩 제조사의 두꺼운 설명서를 읽지 않아도, AI 가 정확한 하드웨어 코드를 짜주는 시대가 열렸습니다.

이 모델의 학습 데이터와 결과물은 오픈소스로 공개되어, 누구나 이 '하드웨어 전문가 AI'를 연구하고 발전시킬 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대규모 언어 모델 (LLM) 은 일반 목적의 프로그래밍 언어에서 뛰어난 코드 생성 능력을 보여주지만, 저수준 임베디드 시스템 프로그래밍 분야에서는 근본적인 한계를 겪고 있습니다.

도메인 특이성: 임베디드 코드는 하드웨어 레지스터 직접 조작, 벤더별 SDK 패턴, 실시간 운영체제 (RTOS) API, 하드웨어 추상화 계층 (HAL) 등을 포함합니다. 이러한 요소들은 일반적인 웹 기반 사전 학습 코퍼라 (pretraining corpora) 에 심각하게 부족합니다.
일반 LLM 의 실패: Claude Opus 4.6 이나 Qwen3-Coder-30B 와 같은 최첨단 모델조차도 임베디드 코드를 생성할 때 레지스터 이름을 잘못 추측하거나 (할루시네이션), 벤더별 API 관례를 혼동하며, 하드웨어 특정 타이밍 제약을 위반하는 오류를 범합니다. 이는 추론 능력 부족이 아니라, 사전 학습 데이터에서 해당 도메인에 대한 노출이 부족하기 때문입니다.
데이터의 복잡성: 임베디드 생태계는 수백 개의 제조사, 수천 가지 컴포넌트 변형, 그리고 비공개 문서와 레퍼런스 구현에 의존하는 파편화된 구조를 가지고 있어, 단순한 웹 크롤링만으로는 고품질 학습 데이터를 구축하기 어렵습니다.

2. 방법론 (Methodology)

저자들은 OLMo-3-7B(70 억 파라미터) 모델을 임베디드 시스템 도메인에 적응시키기 위해 지속적 사전 학습 (Continual Pretraining, CPT) 파이프라인인 H2LooP Spark Preview를 제안합니다.

가. 데이터 구축 (Data Construction)

SpecMap 파이프라인 활용: 저장소 (Repository) 와 데이터시트 (Datasheet) 의 쌍을 연결하는 계층적 매핑 방법론을 사용합니다.
데이터 규모: 117 개 제조사, 19 개 컴포넌트 카테고리, 61 개 컴포넌트 클래스에 걸친 818 개의 저장소 - 데이터시트 쌍 (약 76.4GB 원시 데이터) 을 수집했습니다.
처리 과정:
1. 계층적 추출: 데이터시트 섹션을 저장소 폴더, 파일, 코드 심볼 (함수, 매크로, 구조체 등) 로 매핑합니다.
2. 섹션 인식 청킹: 파일 경계, 함수 경계, 문장 경계를 고려하여 의미론적 일관성을 유지하며 데이터를 분할합니다.
3. 품질 필터링: 잡음 제거 및 코드/자연어 비율을 검증하여 학습용 코퍼라를 정제했습니다.
4. 결과: 약 235 억 토큰 (23.5B tokens) 의 정제된 코퍼라가 생성되었습니다.

나. 모델 및 학습 설정 (Model & Training)

Base Model: OLMo-3-7B (오픈 가중치, 재현성 보장).
파라미터 효율적 미세 조정 (PEFT): LoRA (Low-Rank Adaptation) 를 적용하되, 고랭크 (High-Rank) 환경에서 학습 안정성을 보장하기 위해 RSLoRA (Rank-Stabilized LoRA) 를 사용합니다.
- Rank (r): 512 (고랭크 설정).
- Target Modules: Attention, MLP, Embedding 등 전체 모듈 (Full-module) 을 타겟팅.
- Scaling: $\alpha/\sqrt{r}$ 스케일링 적용.
하드웨어: 8 개의 NVIDIA H100 80GB GPU (NVLink/NVSwitch 연결).
학습 전략:
- 하이퍼파라미터 탐색: 베이지안 최적화를 통해 1,400 회 이상의 실험 (약 4,240 GPU 시간) 을 수행하여 최적 설정을 도출했습니다.
- 학습 데이터: 도메인 전용 데이터만 사용 (일반 코드 혼합 데이터보다 성능이 우수함을 확인).
- 학습 시간: 약 86 억 토큰 (약 294.7 시간, 12.3 일) 학습.

3. 주요 기여 (Key Contributions)

대규모 임베디드 학습 코퍼라 구축: 117 개 제조사와 61 개 컴포넌트 클래스를 아우르는 100B+ 원시 토큰 기반의 정제된 데이터셋을 구축하고, 데이터시트 - 코드 추적성을 확보했습니다.
체계적인 하이퍼파라미터 탐색: LoRA Rank, 타겟 모듈, 학습률 (Learning Rate) 에 대한 광범위한 탐색을 통해 고랭크 (r=512) + 전체 모듈 타겟팅 + 보수적인 학습률 조합이 임베디드 도메인 CPT 에 최적임을 증명했습니다.
포괄적인 평가 프레임워크: 도메인 내 (In-domain) 와 도메인 외 (Held-out) 데이터에 대한 퍼플렉시티, 교사 강제 완성 (Teacher-forced completion), 자유 생성 (Generative completion) 벤치마크를 13 개의 임베디드 도메인에 걸쳐 수행했습니다.
소규모 모델의 선진 모델 추월: 70 억 파라미터 모델이 4 배 이상 큰 파라미터를 가진 Claude Opus 4.6 및 Qwen3-Coder-30B 보다 13 개 카테고리 중 8 개에서 더 높은 성능을 기록함을 입증했습니다.
오픈소스 공개: 학습된 체크포인트 (spark-cpt-base-ckpt) 를 오픈소스로 공개하여 커뮤니티 연구를 장려했습니다.

4. 결과 (Results)

가. 학습 성능 및 퍼플렉시티 (Perplexity)

도메인 내 (In-domain): 학습 전 4.06 에서 1.20으로 감소 (70.4% 개선).
보유 데이터 (Held-out): 학습 중 보지 못한 저장소에서도 3.92 에서 1.33으로 감소 (66.1% 개선). 이는 모델이 특정 파일을 암기하는 것이 아니라 일반적인 임베디드 패턴을 학습했음을 의미합니다.
토큰 정확도: 13 개 카테고리 중 8 개에서 Claude Opus 4.6 및 Qwen3-30B 를 능가하는 토큰 정확도를 기록했습니다. 특히 벤더별 SDK (STM32, AURIX 등) 와 하드웨어 특정 형식 (Device Tree, Register Defines) 에서 압도적인 우위를 보였습니다.

나. 일반화 능력 및 포그getting (Forgetting)

일반 프로그래밍 능력 유지: FullStackBench(일반 C++ 벤치마크) 평가에서 컴파일 성공률과 테스트 통과률이 각각 3.8%, 2.8% 만 감소하여, 도메인 특화 학습이 일반적인 프로그래밍 능력을 파괴하지 않음을 확인했습니다.
보유 데이터 일반화: 학습에 사용되지 않은 새로운 GitHub 저장소에서도 높은 Top-1 정확도 (90% 이상) 를 유지하며 강력한 일반화 능력을 입증했습니다.

다. 하이퍼파라미터 탐색 인사이트

Rank 의 중요성: Rank 가 높을수록 (128 → 512) 손실 감소가 선형적으로 개선되었습니다.
학습률의 균형: 고랭크 설정에서는 학습률이 너무 높으면 (예: $5 \times 10^{-5} $) 학습 불안정 (Gradient Spike) 이 발생하므로, 보수적인 학습률 ($ 1.5 \times 10^{-5}$) 이 필수적입니다.
데이터 혼합: 도메인 전용 데이터만 학습하는 것이 일반 코드와 혼합된 데이터보다 성능이 더 우수했습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 연구는 작은 오픈 가중치 모델 (7B) 이도 도메인 특화 데이터와 체계적인 CPT 를 통해 거대 규모의 선진 모델 (Frontier Models) 을 특정 전문 분야에서 능가할 수 있음을 증명했습니다.

실용적 가치: 임베디드 개발자는 API 의존성 없이 온프레미스에서 실행 가능한 경량 모델을 사용할 수 있으며, 비용 효율적이고 결정론적인 행동을 기대할 수 있습니다.
기술적 통찰: 단순한 웹 크롤링 데이터보다는 구조화된 데이터시트 - 코드 매핑이 임베디드 시스템 학습에 훨씬 효과적임을 보여주었습니다. 또한, 고랭크 LoRA 와 RSLoRA 스케일링의 조합이 도메인 적응에 필수적임을 입증했습니다.
미래 전망: 향후 100B 토큰까지 학습을 확장하고, 컴파일 기반 평가 및 지시 미세 조정 (Instruction Tuning) 을 통해 CI/CD 워크플로우 통합 및 실시간 규정 준수 검증 등 더 정교한 응용 분야로 확장할 계획입니다.

결론적으로, H2LooP Spark Preview는 임베디드 시스템 개발을 위한 AI 자동화의 새로운 기준을 제시하며, 소규모 모델의 도메인 특화 가능성을 입증한 중요한 연구입니다.