원저자: Hetvi Shastri, Pragya Sharma, Walid A. Hanafy, David Irwin, Mani Srivastava, Prashant Shenoy
원저자: Hetvi Shastri, Pragya Sharma, Walid A. Hanafy, David Irwin, Mani Srivastava, Prashant Shenoy
원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기
기술 요약: FMplex – 확장 가능한 파운데이션 모델 서빙을 위한 모델 가상화
문제 정의
파운데이션 모델(Foundation Models, FMs)은 언어, 비전, 시계열 및 멀티모달 도메인 전반에 걸쳐 다양한 다운스트림 애플리케이션의 중추가 되었습니다. 그러나 기존의 모델 서빙 시스템(예: NVIDIA Triton)은 "태스크당 인스턴스(instance-per-task)" 패러다임을 중심으로 설계되어 있으며, 이는 각 맞춤형 태스크마다 별도의 독립적인 모델 복사본을 로드하는 방식입니다. 이러한 접근 방식은 FMs에 있어 다음과 같은 이유로 비효율적입니다:
- 자원 낭비: FMs는 거대한 공유 백본(종종 기가바이트 단위)과 경량화된 태스크별 확장(헤드, 어댑터)으로 구성됩니다. 모든 태스크를 위해 전체 백본을 로드하는 것은 가장 무거운 구성 요소를 반복적으로 복제하여 가속기 메모리를 낭비합니다.
- 효율성 상실: 독립적인 인스턴스는 태스크 간의 배칭(batching) 및 로딩 비용의 분할 상환(amortization)을 방지합니다.
- 간섭 및 격리: 공유 GPU 상에 태스크를 단순히 공존시키면 논리적 분리가 이루어지지 않아, 한 태스크의 부하 급증이 다른 태스크의 성능을 저하시키는 교차 태스크 간섭(cross-task interference)이 발생합니다.
- 생명주기의 경직성: 현재의 시스템은 태스크의 생명주기를 물리적 모델 인스턴스에 결합시켜, 전체 백본을 재배포하지 않고는 태스크를 추가, 제거 또는 수정하는 것을 어렵게 만듭니다.
본 논문은 FM 백본을 (OS 가상화의 CPU나 메모리와 유사한) 공유 시스템 기질(substrate)로 취급해야 한다고 주장합니다.
방법론: FMplex
저자들은 **파운데이션 모델 가상화(Foundation Model Virtualization)**를 도입하는 서빙 시스템인 FMplex를 제시합니다. 핵심 개념은 **가상 파운데이션 모델(Virtual Foundation Model, vFM)**로, 이는 각 태스크에 제공되는 논리적으로 프라이빗한 FM 인스턴스이며, 하나의 공유된 물리적 FM 인스턴스에 의해 뒷받침됩니다.
주요 아키텍처 구성 요소
가상 파운데이션 모델 (vFM) 추상화:
- 디커플링(Decoupling): vFM은 태스크의 논리적 뷰(커스터마제이션, 상태, 생명주기)를 물리적 백본으로부터 분리합니다.
- 구조: 각 vFM은 가상 큐(Virtual Queue)(요청 라우팅용), 태스크 확장(Task Extensions)(인코더, 디코더 및 LoRA와 같은 PEFT 어댑터), 그리고 상태/회계(State/Accounting)(SLO, 우선순위, 가중치)를 포함합니다.
- 메커니즘: 태스크가 vFM을 호출하면, FMplex는 호출을 가로채어 가상 큐를 통해 라우팅하고, 필요한 경우 태스크별 어댑터를 적용하여 공유 물리적 백본에서 실행합니다.
배치 인식 공정 큐잉 (Batch-Aware Fair Queueing, BFQ) 스케줄러:
- 과제: 표준 공정 공유 스케줄러(예: Start-Time Fair Queueing)는 요청 단위로 작동하며, FM의 처리량을 위해 필수적인 요청 배칭의 효율성을 고려하지 않습니다.
- 해결책: BFQ는 가중치 기반 공정 공유를 근사하면서 배칭을 최적화하는 워킹 컨서빙(work-conserving) 스케줄러입니다.
- 작동 방식: 태스크 가중치에 따라 요청에 시작/종료 태그를 할당합니다. 최대 배치 크기(Bmax)에 도달하거나 SLO 데드라인이 위반될 때까지 반복적으로 배치를 형성합니다.
- 어댑터 처리: BFQ는 먼저 공통 백본에 대해 요청을 배칭한 후, 호환되지 않는 어댑터 차이를 순차적으로 처리함으로써 배칭 효율성을 희생하지 않으면서 공정성을 보장합니다.
- 토큰 기반 지원: 토큰 기반 FM(예: LLM)의 경우, 요청 수준의 런타임과 일관성을 유지하기 위해 토큰 수준의 작업을 서비스 시간 단위로 청구합니다.
Task-API 및 서빙 스택:
- Task-API: 사용자가 인코더, 디코더 및 어댑터를 vFM에 부착하여 태스크 파이프라인을 구축할 수 있는 프로그래밍 인터페이스입니다. 이는 동일한 파이프라인 객체를 사용하여 추론과 미세 조정을 모두 지원합니다.
- FMplex-Controller: 배포 계획을 관리하는 클러스터 레벨 컨트롤러입니다. 새로운 백본 인스턴스 생성을 최소화하기 위해 "Max-Share" 휴리스틱을 사용하여 태스크를 기존 물리적 백본에 바인딩합니다.
- 탄력적 적응(Elastic Adaptation): 부하가 변경될 때, 시스템은 무거운 백본을 다시 로드하는 대신 가벼운 태스크 상태(큐, 어댑터)만을 이동하여 태스크의 vFM을 다른 기존 물리적 백본에 재바인딩할 수 있습니다.
주요 기여
- 배포 공유를 위한 FM 가상화: 여러 개의 독립적으로 커스텀된 태스크가 논리적 격리와 독립적인 생명주기를 유지하면서 단일 물리적 FM 인스턴스를 공유할 수 있도록 하는 vFM 추상화를 도입했습니다.
- 공유 기반 서빙 스택: 확장 가능한 태스크 구축을 위한 Task-API와 공유 인지형 클러스터 배포를 위한 FMplex-Controller를 통합하는 엔드 투 엔드 시스템을 제시합니다.
- 프로토타입 구현: 다양한 모달리티(시계열, 비전, LLM, VLM)와 런타임(PyTorch, vLLM)을 지원하는 기능적 프로토타입을 통해 이질적인 FMs에 대한 유연성을 입증했습니다.
- 포괄적 평가: 7개의 백본 FM(16개 변형)과 92개의 다운스트림 태스크를 대상으로 엄격한 평가를 수행했습니다.
실험 결과
평가는 16개 노드의 AWS 클러스터(NVIDIA T4 GPU)에서 합성 및 실제 트레이스(Azure Functions)를 사용하여 수행되었습니다.
지연 시간 감소:
- 공간 분할(Spatial Partitioning)(GPU 파티션에 태스크를 격리)과 비교했을 때, FMplex는 지연 시간을 최대 80% 감소시켰습니다.
- 최선 노력 기반 공동 배치(Best-Effort Co-location)(격리 없이 하나의 GPU에 여러 풀 인스턴스 배치)와 비교했을 때, FMplex는 지연 시간을 최대 33.3% 감소시켰습니다.
- 클러스터 규모에서 FMplex는 최선 노력 기반 공동 배치 대비 평균 지연 시간을 15%, P99 지연 시간을 26% 감소시켰습니다.
자원 효율성 및 확장성:
- 메모리: FMplex는 GPU 메모리 사용량을 크게 줄입니다. 예를 들어, 10개의 시계열 태스크를 공유 백본에 공동 배치하는 데는 독립적 배포 시의 10배와 달리 단 1.17배의 메모리만 필요했습니다.
- 처리량: FMplex는 저부하 상황(메모리가 병목인 경우)에서 최대 6배 더 많은 태스크를, 중/고부하 상황(컴퓨트가 병목인 경우)에서 최선 노력 기반 공동 배치 대비 8~12% 더 많은 태스크를 지속적으로 처리했습니다.
- 공정성: 비대칭 서비스 가중치(예: 3:1) 하에서 FMplex는 84 RPS를 유지하면서 0.97~0.98의 공정성 점수를 유지했습니다. 반면, 배치되지 않은 공정 공유는 37 RPS에서만 유사한 공정성을 달축성했으며, 관리되지 않은 공유는 공정성이 0.66으로 떨어졌습니다.
적응 오버헤드:
- FMplex는 워크로드 급증에 빠르게 적응함을 보여주었습니다. 태스크를 기존 백본에 재바인딩하는 데는 0.5초가 걸린 반면, (비공유 시스템에서 요구되는 것처럼) 새로운 백본 인스턴스를 로드하는 데는 약 58초가 소요되어 두 자릿수 이상의 지연 시간 스파이크를 유발했습니다.
오버헤드: FMplex에 의해 도입된 스케줄링 오버헤드(큐 핸들링 및 태그 계산)는 매우 미미하여, 요청당 평균 0.35 ms였으며, 이는 백본 실행 시간에 비해 무시할 수 있는 수준입니다.
의의 및 주장
본 논문은 FMplex가 파운데이션 모델의 아키텍처(무거운 공유 백본, 경량 확장)와 현재의 서빙 시스템(태스크당 인스턴스 배포) 사이의 근본적인 불일치를 해결한다고 주장합니다. FM 백본을 가상화 기질로 취급함으로써 FMplex는 다음을 가능하게 합니다:
- 배포 공유: 백본의 무거운 메모리 및 컴퓨팅 비용을 여러 태스크에 분할 상환합니다.
- 태스크 격리: 전체 모델 복제의 자원 페널티 없이 태스크별 성능 보장 및 격리를 제공합니다.
- 운영 유연성: 하부 인프라를 재배포하지 않고도 태스크를 동적으로 추가, 제거 또는 수정할 수 있습니다.
저자들은 FMplex를 특정 모델에 국한된 최적화 도구가 아니라, 고전적인 가상화 원칙을 파운데이션 모델 서빙 영역으로 확장하여 더 효율적이고 확장 가능한 AI 인프라를 가능하게 하는 일반화된 시스템 레이어로 포지셔닝합니다.
연구 분야의 논문에 파묻히고 계신가요?
연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.
매주 최고의 machine learning 논문을 받아보세요.
스탠포드, 케임브리지, 프랑스 과학 아카데미 연구자들이 신뢰합니다.
받은편지함에서 구독을 확인해주세요.
문제가 발생했습니다. 다시 시도하시겠어요?
스팸 없음, 언제든 구독 취소 가능.