H2LooP Spark Preview: Continual Pretraining of Large Language Models for Low-Level Embedded Systems Code

이 논문은 임베디드 시스템 도메인 특화 데이터로 OLMo-3-7B 모델을 continual pretraining 한 'H2LooP Spark Preview'를 제안하여, 7B 규모의 오픈 소스 모델이 특정 기술 작업에서 최신 대형 모델들과 경쟁할 수 있음을 입증했습니다.

Amit Singh, Vedant Nipane, Pulkit Agrawal, Jatin Kishnani

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "만능 요리사 vs. 특수 재료"

기존의 거대 AI 모델들 (Claude, Qwen 등) 은 인터넷에 떠도는 수많은 요리 레시피 (일반적인 프로그래밍 코드) 를 배워서 만능 요리사가 되었습니다. 하지만 임베디드 시스템 코드는 다릅니다.

  • 일반 코드: "파스타를 끓여라" (누구나 아는 일반적인 지시).
  • 임베디드 코드: "STM32 칩의 3 번 핀에 5 볼트를 0.001 초 동안 가하라" (매우 구체적이고, 칩마다 다름).

기존 AI 는 이 특수한 '하드웨어 레시피'를 본 적이 거의 없어서, 코드를 짜달라고 하면 엉뚱한 핀을 건드리거나 전압을 잘못 설정하는 **환각 (Hallucination)**을 일으켰습니다. 마치 일반 요리사가 "고래를 잡으려면 그물을 던져라"라고 말하듯, 칩에 없는 기능을 상상해내는 것이죠.

2. 해결책: "전문가 과정 (Spark Preview)"

저자들은 이 문제를 해결하기 위해 OLMo-3-7B라는 70 억 개의 파라미터를 가진 AI 에게 **전문가 과정 (Continual Pretraining)**을 시켰습니다.

  • 비유: 이미 요리 실력이 좋은 요리사에게, **하드웨어 제조사 (ST, NXP 등) 가 직접 쓴 117 개 회사의 두꺼운 매뉴얼 (Datasheet)**과 실제 공장 코드 818 개를 보여주고 "이걸 보고 다시 공부해라"라고 시킨 것입니다.
  • 데이터의 특징: 단순히 인터넷을 뒤적여 모은 게 아니라, 매뉴얼의 특정 문장과 실제 코드 줄을 1:1 로 연결해 주는 '스페시맵 (SpecMap)'이라는 기술을 써서, AI 가 "이 문장이 이 코드를 의미한다"는 것을 정확히 이해하도록 훈련시켰습니다.

3. 훈련 방법: "고강도 스쿼트와 정밀한 무게 조절"

AI 를 훈련시킬 때 중요한 것은 어떻게 가르치느냐입니다.

  • LoRA (저랭크 어댑터): AI 전체를 처음부터 다시 가르치는 건 너무 비싸고 느립니다. 대신, AI 의 두뇌 중 가장 중요한 부분 (주의 집중, 논리, 단어 기억) 만을 살짝 수정하는 'LoRA'라는 기술을 썼습니다.
  • 고난이도 설정 (Rank 512): 보통은 가볍게 가르치지만, 이 연구팀은 **매우 높은 난이도 (Rank 512)**로 가르쳤습니다. 마치 운동선수가 가벼운 아령 대신 매우 무거운 바벨로 근력을 키우는 것과 같습니다.
  • 학습률 (Learning Rate): 무거운 바벨을 들 때, 너무 빠르게 움직이면 넘어집니다. 그래서 아주 천천히, 조심스럽게 (Conservative Learning Rate) 움직이도록 설정했습니다.
  • 결과: 이 '고강도 + 천천히' 전략이 가장 효과적이었습니다. 1,400 번 이상의 실험을 통해 이 조합이 최적임을 증명했습니다.

4. 성과: "작은 전문가가 거인을 이기다"

훈련을 마친 'Spark Preview'는 놀라운 결과를 냈습니다.

  • 퍼플렉시티 (혼란도) 감소: AI 가 다음 단어를 예측할 때의 혼란이 70% 이상 줄어들었습니다. 즉, 하드웨어 코드를 읽을 때 "아, 이 칩은 이렇게 동작하구나!"라고 확신을 갖게 된 것입니다.
  • 거인과의 대결: 이 모델은 70 억 파라미터짜리 작은 모델입니다. 반면, 경쟁자인 'Claude Opus 4.6'은 1,000 억 개 이상의 거대 모델이고, 'Qwen3'는 300 억 개입니다.
    • 결과: 13 가지 임베디드 분야 중 8 개에서 거대 모델들을 압도적으로 이겼습니다.
    • 이유: 거대 모델은 넓은 지식을 가지고 있지만, 이 작은 모델은 임베디드라는 좁은 영역에 모든 지식을 집중했기 때문입니다. 마치 "모든 과목 90 점인 학생"보다 "수학 올림피아드 금메달리스트"가 수학 문제에서는 더 뛰어난 것과 같습니다.

5. 핵심 교훈 (요약)

  1. 데이터의 질이 생명: 인터넷의 쓰레기 데이터를 모으는 것보다, 매뉴얼과 코드를 정확히 연결한 고품질 데이터가 훨씬 중요합니다.
  2. 작은 모델도 강하다: 특정 분야에 집중하면, 거대하고 비싼 모델보다 훨씬 뛰어난 성능을 낼 수 있습니다.
  3. 조심스러운 훈련: 무작정 빠르게 가르치는 것보다, 난이도를 높이고 속도를 줄이는 것이 장기적으로 더 안정적이고 효과적입니다.

결론

이 연구는 **"하드웨어를 다루는 AI"**를 만들기 위해, 거창한 AI 를 새로 만드는 대신 기존 AI 에게 전문적인 훈련을 시키는 것이 얼마나 효과적인지 보여줍니다. 이제 개발자들은 이 모델을 통해 칩 제조사의 두꺼운 설명서를 읽지 않아도, AI 가 정확한 하드웨어 코드를 짜주는 시대가 열렸습니다.

이 모델의 학습 데이터와 결과물은 오픈소스로 공개되어, 누구나 이 '하드웨어 전문가 AI'를 연구하고 발전시킬 수 있게 되었습니다.