Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

이 논문은 데이터가 부족한 NPU 커널 합성 분야에서 대규모 언어 모델의 성능 저하를 해결하기 위해, 가치 기반 기억 메커니즘을 통해 경험을 축적하고 단계별로 최적화하는 자기 진화 에이전트 프레임워크인 EvoKernel 을 제안합니다.

Yujie Zheng, Zhuo Li, Shengtao Zhang, Hanjing Wang, Junjie Sheng, Jiaqian Wang, Junchi Yan, Weinan Zhang, Ying Wen, Bo Tang, Muning Wen

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚗 비유: "데이터가 없는 낯선 도로에서 운전하는 AI"

1. 문제 상황: "지도도 없고, 경험도 없는 낯선 도시"

일반적인 AI(대형 언어 모델) 는 이미 수많은 데이터 (CUDA 코드 등) 를 배워서 NVIDIA 그래픽카드용 프로그램을 잘 짜줍니다. 하지만, NPU(화웨이 등 새로운 칩) 용 프로그램을 짜달라고 하면?

  • 상황: 마치 운전자가 지도도 없고, 다른 운전자의 경험담도 없는 낯선 도시에 떨어진 것과 같습니다.
  • 결과: 아무리 똑똑한 AI 라도 처음부터 코드를 짜면 100 번 중 14 번만 성공하고, 나머지는 다 틀립니다. (논문 Table 1 참조)
  • 기존 방법의 한계:
    • 수업 (SFT): 전문가에게 배워야 하는데, NPU 전문가가 너무 귀해서 수업 비용이 천문학적입니다.
    • 단순 반복: 같은 실수를 반복하며 고치려 해도, AI 는 이전 실패를 기억하지 못하거나 다른 문제에서 배운 교훈을 적용하지 못합니다.

2. 해결책: "EvoKernel(진화하는 코어)" - 스스로 배우는 운전 교습소

저자들은 EvoKernel이라는 시스템을 만들었습니다. 이는 AI 가 스스로 운전 실력을 키우는 **'스스로 진화하는 교습소'**와 같습니다.

핵심 메커니즘 3 가지:

① '가치 기반' 메모리 (Value-Driven Memory): "무엇을 기억할지 AI 가 스스로 판단"

  • 일반적인 메모리: "이전과 비슷한 코드"를 찾아줍니다. (예: "이전에도 '합' 연산이 틀렸으니 비슷한 걸 찾아보자")
  • EvoKernel 의 메모리: **"이 경험이 지금 내 목표에 얼마나 도움이 될까?"**를 계산합니다.
    • 초기 단계 (Drafting): "코드가 실행될까?"가 중요할 때는, 실행 가능한 코드를 찾아주는 경험을 우선시합니다.
    • 후기 단계 (Refining): "코드가 빠를까?"가 중요할 때는, 속도를 높인 경험을 찾아줍니다.
  • 비유: 운전 교습소에서 초보 때는 '안전하게 출발하는 법'을 가르쳐주고, 실력이 늘면 '연비 좋은 운전법'을 가르쳐주는 스마트한 교관이 있는 셈입니다.

② '초기 작성 (Drafting)'과 '계속 다듬기 (Refining)'의 두 단계

  • 1 단계 (초기 작성): 일단 코드가 실행되게 만드는 것이 목표입니다. 완벽할 필요 없이, "에러 없이 돌아간다"는 것만 성공하면 됩니다.
  • 2 단계 (계속 다듬기): 실행되는 코드를 바탕으로, 속도를 3.6 배나 빠르게 만드는 작업을 반복합니다.
  • 비유: 처음에는 차가 시동만 걸리게 하고, 그다음에는 페달을 밟아 속도를 높이는 과정입니다.

③ '경험 공유' (Cross-Task Memory)

  • 핵심: 쉬운 문제 (Level 1) 에서 배운 교훈을 어려운 문제 (Level 2) 에 바로 적용합니다.
  • 비유: "A라는 길에서 우회전할 때 신호등이 빨간색이었다"는 경험을 배웠다면, B라는 길에서도 비슷한 상황에서 신호등을 확인하게 됩니다. 서로 다른 문제라도 배운 교훈 (메모리) 을 공유해서 전체적인 실력을 끌어올립니다.

3. 성과: "기적 같은 발전"

이 방법을 적용한 결과, AI 의 성능이 놀랍게 변했습니다.

  • 정확도: 처음에는 10% 만 성공하던 것이, 83% 까지 성공률이 올라갔습니다. (기존 최고의 모델도 14% 에 그쳤음)
  • 속도: 처음에 만든 코드를 다듬은 결과, 3.6 배 더 빠른 코드를 만들어냈습니다.
  • 범용성: 이 시스템은 NPU 뿐만 아니라, 전혀 다른 새로운 칩이나 복잡한 Attention(주의) 연산에서도 잘 작동했습니다.

4. 결론: "데이터가 없어도 AI 는 배울 수 있다"

이 논문이 증명하려는 것은 **"데이터가 부족한 환경에서도, AI 가 스스로 경험을 쌓고 (메모리), 그중에서 가장 가치 있는 것을 골라 (가치 기반) 학습하면, 전문가가 없어도 새로운 기술을 마스터할 수 있다"**는 것입니다.

한 줄 요약:

"지도도 없는 낯선 도시에서, AI 가 스스로 '어떤 경험이 도움이 되는지' 판단하며 운전 실력을 키워, 결국 100% 성공하는 명수 운전사가 되었다!"

이 기술은 앞으로 AI 가 새로운 하드웨어나 희귀한 분야에서 전문가 없이도 스스로 일할 수 있는 길을 열어줄 것입니다.