CRAFT: Cost-aware Expert Replica Allocation with Fine-Grained Layerwise Estimations

이 논문은 대규모 언어 모델의 추론 시 토큰 수준의 부하 불균형을 해결하면서도 GPU 메모리 제약을 고려하여 레이어별 세밀한 추정 기반의 전문가 복제 전략을 통해 기존 기법 대비 최대 1.2 배의 처리량 향상을 달성하는 'CRAFT' 프레임워크를 제안합니다.

Adrian Zhao, Zhenkun Cai, Zhenyu Song, Lingfan Yu, Haozheng Fan, Jun Wu, Yida Wang, Nandita Vijaykumar

게시일 2026-04-01
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📚 배경: 왜 문제가 생길까요? (혼합 전문가 모델, MoE)

최근 AI 는 '혼합 전문가 (MoE)'라는 방식을 씁니다. 마치 거대한 도서관에 **수백 명의 전문 작가 (Expert)**가 있는 것과 같습니다.

  • 원리: 사용자가 질문을 하면, 도서관 사서 (라우터) 가 그 질문에 가장 잘 맞는 작가 1~2 명만 골라서 일을 시킵니다. 나머지 작가들은 쉬고 있죠.
  • 장점: 이렇게 하면 AI 의 지식 (모델 크기) 은 엄청나게 커지는데, 한 번에 계산하는 양은 적게 유지되어 비용이 절약됩니다.

⚠️ 문제: 인기 작가의 과부하 (부하 불균형)

하지만 현실은 그렇지 않습니다.

  • 문제 상황: 어떤 질문들은 특정 작가들 (예: '영어 문법'이나 '코딩' 같은 주제) 에만 몰립니다.
  • 결과: 인기 있는 작가들이 있는 책상 (GPU) 은 일거리가 너무 많아 지쳐버리고, 다른 책상은 일거리가 없어서 놀고 있게 됩니다.
  • 현재 해결책 (EPLB): 인기 작가의 일을 덜어주기 위해, 그 작가의 **복사본 (Replica)**을 만들어 다른 책상에도 배치합니다.
    • 단점: 복사본을 만들려면 책상마다 작가의 책 (메모리) 을 모두 가져와야 합니다. 복사본을 너무 많이 만들면, 책상 공간이 부족해져서 새로운 손님을 받을 공간 (KV 캐시) 이 없어집니다. 결국 전체 도서관의 처리 속도가 느려집니다.

💡 해결책: CRAFT (똑똑한 복사본 배분)

이 논문에서 제안한 CRAFT는 "무조건 다 복사하지 말고, 정말 필요한 곳에만 똑똑하게 복사하자"는 아이디어입니다.

1. 핵심 비유: "필요한 곳에만 구급차 보내기"

기존 방식은 모든 층에 구급차를 1 대씩 배치했습니다. 하지만 CRAFT 는 먼저 **어떤 층에 환자가 몰리는지 (부하 분석)**를 미리 조사합니다.

  • 환자가 몰리는 층 (고부하 층): 구급차를 4 대나 배치해서 빠르게 처리합니다.
  • 환자가 별로 없는 층 (저부하 층): 구급차를 아예 안 보내거나 1 대만 둡니다.
  • 결과: 구급차 (메모리) 를 아껴서, 더 많은 환자를 동시에 받을 수 있게 됩니다.

2. CRAFT 가 하는 일 (3 단계)

  1. 분석 (측정): 도서관을 미리 운영해 보며, 어떤 층이 얼마나 붐비는지, 작가 복사본을 몇 대 만들면 효과가 좋은지 정밀하게 계산합니다.
  2. 계획 (최적화): "메모리 예산"이라는 제한이 있을 때, 어떤 층에 몇 대의 복사본을 배정해야 전체 처리 속도가 가장 빨라질지 수학적으로 계산합니다. (너무 많이 만들면 손해, 너무 적게 만들면 병목 발생)
  3. 실행 (배치): 계산된 대로 복사본을 배치하고, 작가들을 책상에 앉힙니다.

🚀 성과: 왜 CRAFT 가 좋은가요?

실험 결과, CRAFT 는 기존 방식 (EPLB) 보다 약 14% 더 빠른 처리 속도를 보여주었습니다. (최대 20% 까지 향상)

  • 기존 방식: "모든 층에 똑같이 복사본을 만들어라" → 메모리가 부족해져서 새로운 요청을 처리할 공간이 줄어듦.
  • CRAFT 방식: "붐비는 층에만 집중적으로 복사본을 만들어라" → 메모리를 아껴서 더 많은 요청을 동시에 처리하면서도, 병목 현상은 해결됨.

🎁 요약

CRAFT는 거대한 AI 모델을 돌릴 때, 메모리라는 귀한 자원을 낭비하지 않으면서도 인기 있는 작업 (작가) 들의 과부하만 정확히 해결해주는 똑똑한 관리자입니다.

기존에는 "모두에게 똑같이 나누어주자"는 방식이라 비효율적이었는데, CRAFT 는 **"상황에 맞게 필요한 곳에 집중 투자하자"**는 방식으로, AI 서비스의 속도를 높이고 비용을 아껴줍니다.