Token Management in Multi-Tenant AI Inference Platforms

Each language version is independently generated for its own context, not a direct translation.

🍕 비유: "AI 식당과 토큰 쿠폰"

생각해 보세요. 거대한 AI 식당이 있다고 가정해 봅시다. 이 식당에는 아주 유명한 요리사 (AI 모델) 가 한 명만 있습니다. 손님이 많을 때, 이 요리사는 한 번에 여러 테이블의 주문을 동시에 처리해야 합니다.

1. 기존의 문제점: "주문 횟수만 세는 식당"

지금까지 대부분의 식당은 "주문 횟수" 만 세어서 관리했습니다.

문제: 어떤 손님은 "간단한 물 한 잔" (짧은 질문) 을 시키고, 다른 손님은 "거대한 100 가지 재료가 들어간 스페셜 파스타" (긴 문맥, 복잡한 추론) 를 시킵니다.
현실: 요리사는 파스타를 만드는 데 물 한 잔보다 100 배 더 많은 시간과 에너지를 씁니다. 하지만 식당 주인은 "주문 1 개 = 1 점"으로만 계산해서, 파스타를 시킨 손님이 요리사를 꽉 막아버리면, 물 한 잔을 시킨 VIP 고객도 기다려야 합니다.
결과: 중요한 고객도 늦어지고, 요리사는 과부하로 쓰러집니다.

2. 이 논문의 해결책: "토큰 풀 (Token Pools)"

이 논문은 "주문 횟수"가 아니라 "요리사에게 필요한 실제 에너지 (토큰)" 로 자원을 관리하자고 제안합니다.

토큰 풀 (Token Pool): 요리사의 총 에너지를 나타내는 거대한 통입니다.
- 토큰 (Token): 요리사가 한 번에 할 수 있는 작업량 (예: 글자 하나를 만드는 데 드는 에너지).
- KV 캐시 (KV Cache): 요리사가 기억해 둬야 하는 메모리 공간 (예: 긴 대화 내용을 기억하는 공간).
- 동시성 (Concurrency): 요리사가 동시에 몇 명을 상대할 수 있는지.

이 시스템은 손님이 주문할 때, "이 주문을 처리하는 데 요리사의 에너지가 얼마나 들까?" 를 미리 계산합니다.

3. VIP 와 일반 손님: "서비스 등급 (Service Classes)"

식당은 손님을 등급으로 나눕니다.

VIP (Dedicated/Guaranteed): "우리는 항상 요리사의 시간을 보장받아요. 다른 손님이 와도 우리 주문은 절대 밀리지 않아요." (자원이 부족해도 절대 거절당하지 않음)
일반 (Elastic): "요리사가 여유로울 때만 주문하세요. 바쁘면 잠시 기다려주세요. 대신 나중에 여유가 생기면 보상을 해드릴게요."
일시적 (Spot): "요리사가 완전히 쉬고 있을 때만 주문하세요. 바쁘면 바로 거절당합니다."

4. 공정한 분배: "빚 (Debt) 시스템"

이게 가장 재미있는 부분입니다.

상황: 요리사가 바빠서 일반 손님 (Elastic) 의 주문을 거절했습니다.
기존 방식: 그냥 "거절"하고 끝납니다. 그 손님은 불만만 쌓입니다.
이 시스템의 방식: "죄송합니다. 하지만 빚 (Debt) 을 남겼어요."
- 서비스를 못 받은 손님은 '빚' 을 쌓습니다.
- 나중에 요리사가 조금만 여유로워지면, 이 '빚' 이 있는 손님은 우선권을 얻어서 주문을 처리받습니다.
- 반대로, 너무 많이 받아먹은 손님은 '신용 (Credit)' 을 쌓아, 나중에 조금 더 기다려야 합니다.
- 결과: 시간이 지나면 모든 손님이 공평하게 서비스를 받게 됩니다.

5. 실험 결과: "혼잡한 도로에서의 교통 통제"

논문의 실험은 두 가지 상황을 보여줍니다.

실험 1 (VIP 보호):
- 상황: 일반 손님 (Spot) 들이 몰려와서 도로가 꽉 막혔습니다.
- 결과: 토큰 풀 시스템은 일반 손님의 차를 도로 입구에서 미리 막았습니다 (거절). 덕분에 VIP 손님의 차는 속도 제한 없이 빠르게 목적지에 도착했습니다.
- 비유: "도로가 막히면, 일반 차는 진입을 막고 VIP 차만 통과시켜서 VIP 는 1 초도 안 걸리게 했다."
실험 2 (공정한 분배):
- 상황: 도로가 갑자기 좁아져서 차가 절반만 지나갈 수 있게 되었습니다.
- 결과: "빨리 가고 싶은 차 (낮은 지연 시간 요구)"와 "천천히 가도 되는 화물차 (긴 대기 허용)"가 섞여 있었습니다.
- 시스템은 화물차를 먼저 멈추게 하고, 빨리 가고 싶은 차를 통과시켰습니다. 하지만 화물차가 너무 오래 기다리면, 시스템이 "이제 화물차도 좀 지나가게 해줘" 라고 우선순위를 바꿔주었습니다.
- 비유: "모두가 공평하게 기회를 얻도록, 기다린 시간에 비례해서 우선권을 줬다."

💡 핵심 요약

이 논문이 말하고 싶은 것은 "AI 를 쓸 때, 단순히 '몇 번 요청했는지'가 아니라 '얼마나 많은 자원을 썼는지'를 기준으로 관리해야 한다" 는 것입니다.

미리 통제: 요리사가 바빠지기 전에, "이 주문은 요리사를 너무 힘들게 하니까 거절하자"라고 입구에서 결정합니다.
공정한 보상: 자리가 부족해서 서비스를 못 받은 사람은 나중에 우선권 (빚 시스템) 을 줍니다.
VIP 보호: 중요한 작업은 어떤 일이 있어도 지연 없이 처리됩니다.

이 방식은 AI 식당이 혼잡해져도, 중요한 고객은 불만 없이 서비스를 받고, 일반 고객들도 공평하게 기회를 얻어 전체 시스템이 효율적으로 돌아가게 해줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대형 언어 모델 (LLM) 을 위한 다중 테넌트 AI 추론 플랫폼은 가변적인 수요 하에서 자원 활용도와 서비스 수준 협약 (SLO) 을 동시에 만족시키는 데 어려움을 겪고 있습니다. 기존 접근 방식은 다음과 같은 한계가 있습니다.

전용 엔드포인트 (Dedicated Endpoints) 의 비효율성: 모델이나 테넌트별로 전용 GPU 인스턴스를 할당하면 격리는 강력하지만, 모델이 유휴 상태일 때 자원이 낭비됩니다.
전통적인 속도 제한 (Rate Limits) 의 부적합성: 기존 API 는 '분당 요청 수'나 '토큰 수'와 같은 단순한 할당량으로 요청을 통제합니다. 그러나 추론 요청은 입력/출력 길이, KV 캐시 소비량, GPU 계산 시간에 따라 비용이 수 배에서 수십 배까지 달라집니다. 모든 토큰을 동일하게 취급하는 속도 제한은 실제 실행 비용을 반영하지 못해, 긴 컨텍스트나 복잡한 추론 요청이 자원을 과도하게 차지하면서도 다른 요청을 방해할 수 있습니다.
버스트 (Burst) 대응 실패: 프롬프트 길이, 추론 출력 길이, 동시 세션 수 등 다양한 차원에서 발생하는 트래픽 버스트에 대응하여 자원을 동적으로 재할당하거나 우선순위를 부여하는 메커니즘이 부재합니다.

2. 방법론 (Methodology)

저자는 추론 네이티브 (Inference-native) 단위인 토큰 풀 (Token Pools) 을 도입하여 제어 평면 (Control-plane) 의 추상화를 제안합니다. 이는 기존 추론 런타임이나 클러스터 스케줄러를 수정하지 않고도 적용 가능한 레이어입니다.

핵심 구성 요소

추론 네이티브 리소스 모델:
- 토큰 처리량 (Token Throughput): 초당 생성 토큰 수 (GPU 시간 소비 제한).
- KV 캐시 용량 (KV Cache Capacity): 메모리 상태 저장 공간 (긴 컨텍스트 모델의 병목 요인).
- 동시성 (Concurrency): 동시에 실행 중인 시퀀스 수 (디코딩 슬롯 경쟁).
- 이 세 가지 자원을 명시적인 권한 (Entitlement) 으로 표현하여, 단순한 요청 수 제한이 아닌 실제 실행 비용을 기반으로 자원을 할당합니다.
서비스 클래스 (Service Classes) 및 우선순위:
- Dedicated/Guaranteed: 전용 또는 보장된 할당량을 가지며, 과부하 시에도 절대 축소되지 않음.
- Elastic: 시간 평균 기반의 보장을 받으며, 여유 자원이 있을 때 버스트 가능하지만 부족 시 축소됨.
- Spot/Preemptible: 여유 자원만 사용 가능하며, 과부하 시 가장 먼저 스로틀링되거나 완전히 종료됨.
부채 기반 공정한 공유 (Debt-based Fairness Mechanism):
- 동적 우선순위 계산: 우선순위 점수 ( $w_e$ ) 는 서비스 클래스, SLO 엄격도, 버스트 이력, 그리고 서비스 부채 (Service Debt) 를 결합하여 계산합니다.
- 부채 (Debt) 메커니즘: 자원이 부족해 할당량이 기준치보다 적게 배정되면 '부채'가 누적됩니다. 이 부채는 향후 할당 시 우선순위를 높여주는 보상 메커니즘으로 작용합니다. 이는 P-I 제어 (비례 - 적분 제어) 와 유사하게 작동하여, 일시적으로 자원을 덜 받은 테넌트가 시간이 지남에 따라 공정한 몫을 회복하도록 유도합니다.
시스템 아키텍처 (Kubernetes 기반):
- 가상 노드 (Virtual Nodes): 토큰 풀의 용량을 나타내는 가상의 Kubernetes 노드를 생성합니다.
- 허가 제어 (Admission Control): API 게이트웨이 (LiteLLM 등) 에서 요청이 들어오기 전에 테넌트의 권한과 현재 풀 상태를 확인하여 요청을 승인하거나 거절합니다.
- 동적 조정: Kubernetes 스케줄러를 재사용하여 토큰 자원에 대한 '입장 허가'를 관리하며, 실제 GPU 스케줄링은 변경하지 않습니다.

3. 주요 기여 (Key Contributions)

추론 네이티브 스케줄링 리소스 공식화: 처리량, KV 캐시, 동시성을 분해하고 서비스 클래스, SLO, 부채 메커니즘을 결합한 우선순위 체계를 정립했습니다.
Kubernetes 네이티브 아키텍처: 가상 노드 (Virtual Node) 를 통해 토큰 용량에 대한 허가 제어를 Kubernetes 스케줄러에 통합하여, 기존 런타임 (vLLM 등) 을 수정하지 않고도 구현 가능한 설계를 제시했습니다.
실험적 검증: 과부하 상황에서의 보호 메커니즘과 이질적인 SLO 를 가진 워크로드 간의 공정한 자원 분배를 실험을 통해 입증했습니다.

4. 실험 결과 (Results)

Kubernetes 클러스터 (vLLM 백엔드) 에서 수행된 두 가지 실험 결과는 다음과 같습니다.

실험 1: 클래스 간 보호 (Cross-Class Protection)
- 상황: 보장된 (Guaranteed) 워크로드와 스팟 (Spot) 워크로드가 공유 풀을 사용할 때 과부하 발생.
- 결과: 토큰 풀을 사용하면 보장된 워크로드의 P99 지연 시간 (TTFT) 이 1.2 초 이하로 유지되는 반면, 허가 제어 (Admission Control) 가 없는 베이스라인은 큐가 쌓여 19 초 이상으로 급증했습니다.
- 메커니즘: 저우선순위 (Spot) 요청은 즉시 HTTP 429 (Too Many Requests) 로 거절되어 큐가 쌓이는 것을 방지하고, 고우선순위 요청은 보호받았습니다.
실험 2: SLO 인지형 공정한 공유 (SLO-Aware Fair Share)
- 상황: 용량이 반으로 줄어든 상태에서 서로 다른 SLO (500ms vs 30s) 를 가진 두 개의 탄력적 (Elastic) 워크로드가 경쟁.
- 결과: 엄격한 SLO 를 가진 워크로드는 우선적으로 자원을 할당받았으나, 느슨한 SLO 를 가진 워크로드는 자원을 덜 받았습니다.
- 부채 효과: 자원을 덜 받은 워크로드는 '부채'가 누적되어 시간이 지남에 따라 우선순위가 상승했습니다. 이는 한쪽 워크로드가 완전히 굶주리는 (Starvation) 것을 방지하고, 복구 시 누적된 부채를 상쇄하여 공정한 분배로 수렴하게 했습니다.

5. 의의 및 결론 (Significance)

게이트웨이 기반의 허가 제어: GPU 스케줄러가 아닌 API 게이트웨이에서 결정을 내림으로써, 실행 시작 전 자원을 예약하고 우아한 저하 (Graceful Degradation) 를 가능하게 합니다.
기존 인프라와의 호환성: vLLM, TensorRT-LLM 등 기존 추론 엔진이나 Kubernetes 스케줄러를 교체하지 않고도 제어 평면 레이어로 도입 가능합니다.
실용적 가치: 다중 테넌트 환경에서 "누가 얼마나 자원을 가져갈지"에 대한 명확한 정책 (서비스 클래스) 과 "자원이 부족할 때 어떻게 공정하게 분배할지" (부채 메커니즘) 를 제공하여, AI 인프라의 효율성과 서비스 품질을 동시에 확보하는 원칙적인 기반을 마련했습니다.

이 논문은 AI 추론 인프라가 단순한 리소스 할당을 넘어, 추론 작업의 고유한 비용 구조 (토큰, 메모리, 동시성) 를 반영한 지능형 자원 관리로 진화해야 함을 강조합니다.

Token Management in Multi-Tenant AI Inference Platforms

🍕 비유: "AI 식당과 토큰 쿠폰"

1. 기존의 문제점: "주문 횟수만 세는 식당"

2. 이 논문의 해결책: "토큰 풀 (Token Pools)"

3. VIP 와 일반 손님: "서비스 등급 (Service Classes)"

4. 공정한 분배: "빚 (Debt) 시스템"

5. 실험 결과: "혼잡한 도로에서의 교통 통제"

💡 핵심 요약

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

핵심 구성 요소

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank