Serving Compound Inference Systems on Datacenter GPUs

이 논문은 XR 등 새로운 분야의 복합 추론 시스템을 위해 모델 변형 선택과 GPU 공간 분할을 통해 지연 시간, 정확도, 비용을 동시에 최적화하는 'JigsawServe' 프레임워크를 제안하며, 기존 최선 대비 최대 11.3 배의 서비스 처리량 향상을 입증합니다.

Sriram Devata, Rahul Singh, Sarita Adve

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧩 지그소서브 (JIGSAWSERVE): 데이터센터 GPU 를 위한 '맞춤형 퍼즐' 솔루션

이 논문은 인공지능 (AI) 이 점점 더 복잡해지면서 생긴 새로운 문제를 해결하는 방법을 소개합니다. 제목처럼 "지그소 (Jigsaw)" 퍼즐처럼, 여러 조각을 알맞게 맞춰서 전체를 완성하는 시스템입니다.

1. 문제 상황: "한 번에 여러 일을 해야 하는 AI"

과거의 AI 는 한 가지 일만 했습니다. 예를 들어, "이 사진에 고양이가 있니?"라고 물어보면 "있어"라고 답하는 식이죠.

하지만 요즘은 **복합 추론 시스템 (Compound Inference Systems)**이 대세입니다.

  • 예시 (증강현실 AR): 사용자가 카메라를 들면, AI 는 1) 사물을 찾고, 2) 그 사물이 무엇인지 설명하고, 3) 그 설명을 목소리로 읽어줍니다.
  • 문제: 이 세 가지 작업 (모델) 이 하나의 요청을 처리하기 위해 순서대로 실행되어야 합니다. 마치 공장에서 조립 라인을 거치는 것처럼요.

여기서 두 가지 큰 난관이 생깁니다.

  1. 시간과 정확도의 배분: "전체 작업이 1 초 안에 끝나야 하고, 정확도는 90% 이상이어야 해."라고 했을 때, 각 단계 (사물 찾기, 설명, 목소리) 에 시간을 어떻게 나누고, 어느 정도 정확도로 모델을 골라야 할지 정하기 어렵습니다.
  2. 자원 낭비: 각 단계마다 필요한 컴퓨터 성능 (GPU) 이 다릅니다. 어떤 건 가볍고, 어떤 건 무겁습니다. 그런데 기존 시스템은 무조건 큰 GPU 하나를 통째로 할당하거나, 서로 간섭을 일으키며 비효율적으로 운영했습니다.

2. 해결책: 지그소서브 (JIGSAWSERVE)

저자들은 지그소서브라는 새로운 시스템을 만들었습니다. 이름에서 알 수 있듯, 이 시스템은 퍼즐 조각처럼 GPU 를 잘게 나누고, 각 작업에 딱 맞는 AI 모델을 골라줍니다.

이 시스템은 세 가지 마법 같은 기술을 동시에 사용합니다:

🧩 1. 퍼즐 조각 나누기 (GPU 공간 분할)

  • 비유: 예전에는 GPU 를 "집"처럼 여겨, 한 작업이 집을 통째로 차지했습니다. 하지만 지그소서브는 GPU 를 아파트처럼 봅니다.
  • 기술: NVIDIA GPU 의 'MIG' 기능을 써서, 하나의 강력한 GPU 를 여러 개의 작은 '방 (인스턴스)'으로 나눕니다.
  • 효과: 가벼운 작업은 작은 방에, 무거운 작업은 큰 방에 넣을 수 있어, 한 GPU 에 여러 작업을 동시에 효율적으로 실행할 수 있습니다.

📉 2. 상황에 맞는 모델 선택 (정확도 스케일링)

  • 비유: 요리할 때 모든 요리에 최고급 식재료를 쓸 필요는 없습니다. 간단한 샐러드에는 일반 채소를, 스테이크에는 최고급 고기를 쓰죠.
  • 기술: 각 작업 단계마다 정확도가 높지만 느린 모델과, 정확도가 조금 낮지만 빠른 모델이 여러 개 있습니다. 지그소서브는 전체 시스템의 정확도 목표를 지키면서, 가장 비싼 (무거운) 모델이 꼭 필요한 곳에만 쓰고, 나머지는 가벼운 모델을 골라 시간을 단축합니다.

🗺️ 3. 전체 지도를 보는 예산 관리 (작업 그래프 기반 배정)

  • 비유: 여행 계획을 세울 때, 각 도시 (작업) 에 돈을 어떻게 쓸지 정할 때, 전체 여행 기간과 목적을 고려해야 합니다.
  • 기술: 각 작업이 서로 어떻게 연결되어 있는지 (그래프) 를 미리 분석합니다. "이 단계가 느려지면 다음 단계가 기다려야 하니까, 이 단계에 더 많은 자원을 줘야겠다"처럼, 전체 흐름을 고려해 자원과 시간을 최적으로 배분합니다.

3. 놀라운 성과: "적은 비용으로 더 많은 일"

이 시스템을 테스트한 결과는 정말 놀라웠습니다.

  • 처리량 11.3 배 증가: 같은 GPU 개수로 기존 시스템보다 11.3 배 더 많은 요청을 처리할 수 있었습니다.
  • 자원 효율성: 필요한 GPU 자원을 43.3% 만 사용해도 목표한 정확도와 속도 (SLO) 를 달성했습니다. 즉, 절반도 안 되는 전기를 써서 같은 일을 해낸 셈입니다.
  • 오류 최소화: 시간 약속을 어기는 경우 (SLO 위반) 가 0.6% 미만으로 매우 낮았습니다.

4. 결론: 왜 이것이 중요한가?

지그소서브는 **"하나의 큰 GPU 를 통째로 쓰는 구시대적 방식"**에서 벗어나, "작은 조각으로 나누고 상황에 맞춰 유연하게 쓰는" 새로운 시대를 열었습니다.

  • AI 개발자에게: "여러 가지 버전의 모델 (정확도/속도 차이) 을 만들어 주세요"라고 요청하는 것이 중요해졌습니다.
  • 하드웨어 제조사에게: GPU 를 더 세밀하게 쪼개어 쓸 수 있는 기술 (공간 분할) 이 필수적이 되었습니다.

요약하자면, 지그소서브는 복잡한 AI 작업들을 퍼즐처럼 잘게 나누고, 각 조각에 딱 맞는 크기와 모양의 GPU 자원을 배정하여, 최소의 비용으로 최고의 성능을 내는 똑똑한 관리자입니다.