Composer: A Search Framework for Hybrid Neural Architecture Design

이 논문은 다양한 연산 원소의 조합을 체계적으로 탐색하여 Llama 3.2 보다 성능이 우수하고 효율적인 하이브리드 신경망 아키텍처를 자동 설계하는 프레임워크 'Composer'를 제안합니다.

Bilge Acun, Prasoon Sinha, Newsha Ardalani, Sangmin Bae, Alicia Golden, Chien-Yu Lin, Meghana Madhyastha, Fei Sun, Neeraja J. Yadwadkar, Carole-Jean Wu

게시일 2026-03-12
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"Composer(작곡가)"**라는 이름의 새로운 인공지능 설계 도구를 소개합니다. 이 도구는 거대한 언어 모델 (LLM) 을 더 똑똑하고 빠르며 효율적으로 만드는 방법을 자동으로 찾아냅니다.

기존의 인공지능 설계는 마치 레고 블록을 쌓는 것과 비슷했습니다. 연구자들은 "어떤 블록을 어떤 순서로 쌓아야 가장 잘 작동할까?"를 직접 고민하며 수동으로 설계했습니다. 하지만 블록의 종류와 쌓는 순서가 너무 많아서 (수십억 가지 조합), 모든 경우를 다 시도해 보는 것은 불가능에 가까웠습니다.

이제 Composer는 이 문제를 해결해 줍니다. 마치 재능 있는 작곡가가 새로운 명곡을 찾아내듯, Composer 는 수많은 블록 조합 중 가장 훌륭한 '하이브리드' 구조를 자동으로 발견합니다.

1. Composer 가 하는 일: 작은 실험실에서의 거대한 발견

Composer 는 거대한 모델을 처음부터 다 만드는 대신, **작은 규모의 모델 (소규모 실험실)**에서 먼저 실험을 합니다.

  • 작은 모델로 실험: 거대한 도시를 건설하기 전에, 작은 모형 도시를 만들어 교통 체증이나 건물 배치가 잘 되는지 먼저 확인하는 것과 같습니다.
  • 자동 탐색: Composer 는 "Attention(주의)"과 "MLP(계산)"라는 두 가지 핵심 블록을 다양한 비율과 순서로 섞어보며, 어떤 조합이 가장 좋은 결과를 내는지 찾아냅니다.
  • 확장 (Extrapolation): 작은 실험실에서 최고의 조합을 찾으면, 이를 거대한 규모로 늘려줍니다. 마치 작은 모형 도시의 설계도를 보고 실제 거대한 도시를 짓는 것처럼, 작은 모델에서 찾은 비결을 1000 배 이상 큰 모델에도 적용합니다.

2. 핵심 기술: 어떻게 '작은 것'으로 '큰 것'을 예측할까?

여기서 가장 중요한 점은, 작은 모델에서 좋은 결과가 나왔다고 해서 큰 모델에서도 무조건 좋은 것은 아니라는 것입니다. Composer 는 이를 해결하기 위해 4 가지 핵심 도구를 사용합니다.

  1. 검색 엔진 (Search Engine): 수많은 블록 조합 중 가장 유망한 후보들을 찾아냅니다. 마치 보물 지도에서 보물 상자가 있을 만한 곳을 효율적으로 탐색하는 것과 같습니다.
  2. 평가자 (Evaluator): 찾은 후보들을 작은 데이터로 빠르게 테스트합니다. 여기서 중요한 것은 어떤 데이터로 테스트하느냐입니다. 연구자들은 거대한 인터넷 데이터 대신, MAD라는 특수하게 만들어진 '인공지능 훈련용 미션' 데이터를 사용했습니다. 이는 마치 어린아이가 복잡한 수학 문제를 풀지 않고, 간단한 퍼즐을 통해 논리력을 테스트하는 것과 같습니다. 이 작은 퍼즐에서 잘하는 모델이 큰 문제에서도 잘한다는 것을 증명했습니다.
  3. 집합기 (Aggregator): 여러 번의 실험에서 나온 최고의 결과들을 하나로 합칩니다. 여러 전문가의 의견을 모아 가장 합리적인 결론을 내리는 '합의' 과정과 비슷합니다.
  4. 확장기 (Extrapolator): 작은 모델을 큰 모델로 키우는 기술입니다.
    • 늘리기 (Stretching): 블록의 패턴을 유지하면서 길이를 늘리는 방식입니다.
    • 쌓기 (Stacking): 찾은 작은 블록 덩어리를 그대로 여러 번 쌓아 올리는 방식입니다.

3. Composer 의 성과: "Llama 3.2"를 이기다

Composer 가 찾아낸 새로운 모델 (Composite Architecture) 은 기존에 가장 유명했던 모델인 Llama 3.2보다 훨씬 뛰어났습니다.

  • 더 똑똑함: 같은 양의 학습 자료 (데이터) 를 주었을 때, 실수 (손실) 가 더 적고 다양한 문제 해결 능력이 2~2.1% 더 향상되었습니다.
  • 더 빠르고 효율적:
    • 학습 속도: 같은 작업을 하는 데 걸리는 시간이 1.25 배 빨라졌습니다.
    • 메모리 절약: 모델을 실행할 때 필요한 메모리 (KV Cache) 가 1.69 배 줄어듭니다. 이는 스마트폰이나 개인용 컴퓨터에서도 더 가볍게 모델을 돌릴 수 있다는 뜻입니다.
    • 응답 속도: 사용자가 질문을 했을 때 답을 내는 속도 (지연 시간) 가 1.33 배 빨라졌습니다.

4. 비유로 이해하는 핵심 발견

이 연구의 가장 큰 발견은 **"블록을 1 대 1 로 쌓는 것 (기존 방식) 보다, 계산 블록 (MLP) 을 더 많이 섞는 것 (1 대 2 비율)"**이 더 좋다는 것입니다.

  • 기존 방식 (레고): Attention 블록 하나, MLP 블록 하나를 번갈아 쌓는 정직한 구조.
  • Composer 의 방식 (요리): Attention(재료 준비) 과 MLP(요리) 의 비율을 1:2 로 맞추고, 순서도 상황에 맞게 섞었습니다. 예를 들어, 처음에는 재료를 잘 준비하고 (Attention), 중간에는 요리를 많이 하고 (MLP), 마지막에 맛을 보는 식으로 최적의 레시피를 찾아낸 것입니다.

요약

Composer는 인공지능 설계의 '레시피'를 자동으로 찾아주는 스마트한 요리사입니다.

  1. 작은 실험실에서 수많은 레시피를 시도해 봅니다.
  2. 가장 맛있는 레시피를 찾아냅니다.
  3. 그 레시피를 그대로 큰 식당 (거대 모델) 에 적용합니다.

그 결과, 기존에 없던 더 빠르고, 더 똑똑하며, 더 저렴한 인공지능 모델을 만들어냈습니다. 이 기술은 앞으로 우리가 사용하는 모든 AI 가 더 똑똑해지고, 더 쉽게 접근할 수 있는 기반이 될 것입니다.