MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?

이 논문은 모바일 기기를 위한 효율적인 커널 생성이 현재 LLM 의 한계로 인해 어렵다는 점을 MobileKernelBench 를 통해 규명하고, 이를 극복하기 위해 제안한 다중 에이전트 시스템 MoKA 가 높은 컴파일 성공률과 성능 개선을 달성했음을 보여줍니다.

Xingze Zou, Jing Wang, Yuhua Zheng, Xueyi Chen, Haolei Bai, Lingcheng Kong, Syed A. R. Abu-Bakar, Zhaode Wang, Chengfei Lv, Haoji Hu, Huan Wang

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "요리사는 스마트폰 주방에 적응할 수 있을까?"

우리가 흔히 아는 AI(대형 언어 모델) 는 컴퓨터용 코드를 잘 작성합니다. 마치 거대한 호텔 주방에서 요리를 하는 천재 요리사 같죠. 호텔 주방은 장비가 풍부하고 공간도 넓어서 (서버용 GPU), 요리사가 원하는 대로 거대한 요리를 만들 수 있습니다.

하지만, 스마트폰은 다릅니다. 스마트폰은 작은 캠핑용 주방과 같습니다.

  • 제한된 공간: 배터리와 메모리가 부족합니다.
  • 다양한 도구: 각기 다른 브랜드의 스마트폰 (삼성, 애플 등) 은 서로 다른 조리 도구 (하드웨어) 를 사용합니다.
  • 정교함: 작은 주방에서 빠르게 요리를 하려면 아주 정밀한 기술이 필요합니다.

연구자들은 "AI 가 이 작은 캠핑 주방 (스마트폰) 에서도 빠르고 효율적인 요리 (앱 실행) 를 할 수 있을까?"를 확인해 보고 싶었습니다.

2. 첫 번째 시도: "AI 의 실망스러운 결과"

연구진은 먼저 최신 AI 모델들에게 스마트폰용 코드를 작성해 보게 했습니다. 결과는 참담했습니다.

  • 실패율 54% 이상: AI 가 작성한 코드는 컴파일 (요리 시작) 단계에서 바로 "이게 뭐야?"라며 오류를 뿜어냈습니다. AI 가 존재하지 않는 기능을 만들어내거나 (환각 현상), 스마트폰의 제한된 환경을 무시한 코드를 작성했기 때문입니다.
  • 성능 저조: 겨우 실행이 된 코드들도 기존에 사람이 만든 코드보다 훨씬 느렸습니다. 마치 캠핑장에서 거대한 오븐을 사용하려는 시도처럼 비효율적이었습니다.

왜 그랬을까요?
AI 는 스마트폰이라는 '작은 주방'에 대한 데이터가 너무 부족했고, 각기 다른 스마트폰 기종에 맞춰 코드를 수정하는 '공학적 노하우'를 배우지 못했기 때문입니다.

3. 해결책: "MoKA (모카) - 팀워크가 중요한 요리 팀"

이 문제를 해결하기 위해 연구진은 **MoKA(Mobile Kernel Agent)**라는 새로운 시스템을 만들었습니다. MoKA 는 혼자서 모든 걸 하려는 '천재 요리사'가 아니라, 세 명의 전문가로 구성된 팀입니다.

  1. 코더 (Coder): 요리를 만드는 사람. 코드를 작성합니다.
  2. 디버거 (Debugger): 식중독 검사관. 코드가 실행되지 않거나 결과가 틀리면, "어디가 잘못됐지?"라고 분석해서 고쳐줍니다. (예: "이 레시피는 스마트폰 주방에 없는 재료를 썼어.")
  3. 액셀러레이터 (Accelerator): 속도 전문가. 요리가 잘 만들어졌다면, "더 빨리 할 수 있는 방법은 없을까?"라고 고민하며 최적화합니다. (예: "칼질 순서를 바꾸면 2 배 빨라져!")

이 팀은 반복적인 피드백을 통해 코드를 다듬습니다.

  • "코드가 안 돼요?" → 디버거가 고침.
  • "코드는 되는데 너무 느려요?" → 액셀러레이터가 최적화.
  • 이 과정을 여러 번 반복하면, 처음엔 엉망이었던 코드가 최고의 스마트폰용 요리로 변신합니다.

4. 실험 도구: "MobileKernelBench (모바일 커널 벤치)"

이 팀이 얼마나 잘하는지 측정하기 위해 연구진은 MobileKernelBench라는 시험지를 만들었습니다.

  • 다양한 요리 (190 가지): 스마트폰에서 쓰이는 다양한 기능 (이미지 처리, 계산 등) 을 테스트했습니다.
  • 자동화된 테스트: 코드를 작성하면 자동으로 스마트폰에 설치하고, 실제로 얼마나 빠른지 측정하는 로봇 시스템을 만들었습니다.

5. 놀라운 결과: "팀워크의 승리"

결과가 매우 놀랐습니다.

  • 기존 AI: 100 개 중 47 개만 코드를 작성해 냈고, 그중 제대로 작동하는 건 34 개뿐이었습니다.
  • MoKA (우리 팀): **93.7%**의 코드가 성공적으로 실행되었고, **27.4%**의 코드는 기존 사람 손으로 만든 코드보다 더 빨라졌습니다.

특히 MoKA 는 LayerNorm2D라는 복잡한 조리 과정을 다룰 때, 기존보다 6.8 배나 더 빠른 결과를 보여주었습니다. 마치 캠핑용 가스레인지로 호텔 주방만큼의 속도를 낸 것과 같습니다.

6. 결론: "AI 는 혼자보다 팀으로 일할 때 더 훌륭하다"

이 연구는 두 가지 중요한 사실을 보여줍니다.

  1. AI 는 아직 스마트폰 같은 특수한 환경에서는 혼자서는 부족하다. 데이터가 부족하고 환경이 복잡하면 AI 는 헛소리를 하거나 실패한다.
  2. 하지만 '계획 - 실행 - 피드백'을 반복하는 에이전트 (팀) 시스템을 만들면? AI 는 인간 개발자를 능가하는 효율적인 코드를 만들어낼 수 있다.

한 줄 요약:

"혼자서 모든 걸 하려는 천재 요리사 (기존 AI) 는 작은 캠핑 주방 (스마트폰) 에서 실패했지만, **디버거와 속도 전문가가 돕는 팀 (MoKA)**을 꾸려주니, 오히려 인간보다 더 빠르고 정확한 요리를 해낸 것입니다."

이 기술이 발전하면, 앞으로 우리가 스마트폰에서 사용하는 AI 앱들은 더 빨라지고 배터리도 더 오래 갈 수 있게 될 것입니다.