{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference

이 논문은 고속 RDMA 네트워크를 활용한 '실행 중 로드 (execute-while-load)' 방식과 적응형 멀티캐스트 파이프라인인 λ\lambdaPipe 를 통해 서버리스 환경에서 대규모 언어 모델의 빠른 확장성을 실현하고, 기존 솔루션 대비 지연 시간을 5 배 줄이고 비용을 31.3% 절감하는 λ\lambdaScale 시스템을 제안합니다.

Minchen Yu, Rui Yang, Chaobo Jia, Zhaoyuan Su, Sheng Yao, Tingfeng Lan, Yuchen Yang, Zirui Wang, Yue Cheng, Wei Wang, Ao Wang, Ruichuan Chen

게시일 Mon, 09 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚨 문제 상황: "갑작스러운 손님 폭주와 느린 주방"

想像해 보세요. 인기가 많은 식당이 있다고 칩시다.

  • 상황: 평소에는 손님이 적지만, 특정 시간 (예: 점심시간) 에 갑자기 손님이 10 배 이상 몰려옵니다.
  • 기존 방식의 문제점:
    1. 냉장고 (모델) 준비가 늦음: 손님이 오기 전에 주방에 필요한 모든 재료 (AI 모델) 를 가져와서 차려야 하는데, 재료가 너무 커서 (수십 기가바이트) 가져오는 데 시간이 너무 오래 걸립니다. 손님이 오고 나서 재료를 가져오면, 손님은 몇 분씩 기다려야 합니다.
    2. 비효율적인 대기: "손님이 몰릴지도 모른다"며 미리 모든 재료를 주방에 상시 비축해 두면, 손님이 없을 때는 재료와 주방 공간이 낭비됩니다.
    3. 결과: 손님은 화나고, 식당 주인은 돈이 아깝습니다.

이게 바로 기존 클라우드 AI 서비스의 '콜드 스타트 (Cold Start)' 문제입니다.


💡 해결책: 𝜆Scale 의 "마법 같은 주방"

𝜆Scale 은 이 문제를 해결하기 위해 두 가지 혁신적인 아이디어를 제안합니다.

1. "재료 배달과 요리 동시 진행" (Execute-while-Load)

기존에는 "재료가 다 도착해야 요리를 시작한다"면, 𝜆Scale 은 **"재료가 조금만 도착해도 바로 요리를 시작"**합니다.

  • 비유: 손님이 주문하자마자, 주방장이 "아직 모든 재료가 다 오지 않았지만, 먼저 손질된 채소로 국물을 끓이기 시작해요!"라고 말합니다.
  • 기술적 의미: AI 모델의 일부 조각 (블록) 만이라도 GPU(주방) 에 도착하면, 다른 조각이 오는 동안에도 그 부분으로 계산을 시작합니다. 여러 주방이 협력해서 요리를 하므로, 손님이 기다리는 시간이 획기적으로 줄어듭니다.

2. "초고속 배달 시스템" (RDMA & Multicast)

재료 (모델) 를 한 개씩 배달하는 게 아니라, 한 번에 여러 곳으로 동시에 배달합니다.

  • 비유: 전통적인 배달은 'A -> B -> C' 순서로 하나씩 전달하는 방식이라 시간이 걸립니다. 하지만 𝜆Scale 은 **초고속 레이저 배달기 (RDMA 네트워크)**를 써서, 한 번에 모든 지점 (GPU 노드) 으로 재료를 동시에 뿌려줍니다.
  • 효과: 100GB 짜리 거대한 AI 모델을 8 개의 서버에 옮기는 데 1 초도 걸리지 않습니다. (기존에는 수 분 걸림)

🛠️ 𝜆Scale 이 사용하는 핵심 도구들

이 시스템은 세 가지 핵심 기술을 사용합니다.

  1. 𝜆Pipe (파이프라인):

    • 비유: 공장의 컨베이어 벨트처럼, 모델 조각들이 여러 주방을 오가며 조립되는 방식입니다. 한 주방이 재료를 받으면 바로 다음 주방으로 넘겨주면서 동시에 요리를 시작합니다.
    • 장점: 모델이 완전히 다 로드되기 전에도 서비스를 시작할 수 있어 속도가 매우 빠릅니다.
  2. 적응형 멀티캐스트 (Adaptive Multicast):

    • 비유: 손님이 10 명 몰리면 10 명 분을, 100 명 몰리면 100 명 분을 상황에 맞춰 최적의 경로로 배달합니다.
    • 장점: 손님이 갑자기 몰려도 (Bursty Workload) 시스템이 유연하게 대응합니다.
  3. 효율적인 창고 관리:

    • 비유: 주방 (GPU 메모리) 에는 자주 쓰는 재료를 두고, 창고 (메모리/SSD) 에는 덜 쓰는 재료를 둡니다. 필요할 때 가장 빠른 경로로 가져옵니다.
    • 장점: 비싼 GPU 공간을 낭비하지 않으면서도 빠른 속도를 유지합니다.

📊 실제 성과: "기존 방식보다 5 배 빠르고, 비용은 30% 절감"

연구팀은 실제 데이터로 실험해 보았습니다.

  • 속도: 손님이 몰렸을 때, AI 가 응답을 시작하는 시간 (꼬리 지연) 이 기존 시스템보다 최대 5 배 빨라졌습니다.
  • 비용: 불필요하게 서버를 켜두는 낭비를 줄여 비용을 30% 이상 아꼈습니다.
  • 속도 비교: 130 억 개의 파라미터를 가진 거대한 모델을 8 개 서버에 옮기는 데 1 초 미만이 걸렸습니다. (기존 기술은 1.5 배 더 느림)

🎯 결론

𝜆Scale"거대한 AI 모델을 기다리지 않고, 오면서 바로 쓰되, 초고속으로 여러 곳에 퍼뜨리는" 지능형 시스템입니다.

앞으로 우리가 스마트폰이나 웹에서 AI 를 사용할 때, **"잠시만 기다려주세요"**라는 메시지가 사라지고, 순간적으로 답변을 받을 수 있는 시대가 올 수 있는 기술입니다. 마치 주문하자마자 요리사가 재료를 받으면서 바로 요리를 시작하는, 마법 같은 식당이 생긴 것과 같습니다.