SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

Each language version is independently generated for its own context, not a direct translation.

🍽️ 비유: 거대한 AI 레스토랑의 '주문'과 '조리'

대형 언어 모델 (LLM) 이 작동하는 과정은 크게 두 단계로 나뉩니다.

프리필 (Prefill): 사용자가 입력한 질문을 읽고 이해하는 단계 (주문 받기 + 재료 준비).
디코드 (Decode): 하나씩 답변을 만들어내는 단계 (요리해서 접시에 담기).

기존의 문제점:
예전에는 같은 주방장 (GPU) 이 '주문 받기'와 '요리하기'를 번갈아 하며 했습니다. 주문이 너무 많으면 요리 속도가 느려지고, 요리에 집중하면 주문을 받는 속도가 늦어집니다. 서로 방해가 되어 효율이 떨어집니다.

새로운 해결책 (P/D 분리):
이제 **'주문 담당 주방장 (Prefill)'**과 **'요리 담당 주방장 (Decode)'**을 완전히 따로 뽑아서 일하게 합니다. 주문은 주문대로 빠르게 받고, 요리는 요리대로 빠르게 만들 수 있게 된 거죠.

🤔 하지만 새로운 문제가 생겼습니다: "주방장을 몇 명 뽑아야 할까?"

주방장이 너무 많으면 인건비 (하드웨어 비용) 가 낭비되고, 너무 적으면 손님이 기다리는 시간이 길어져서 (SLO 위반) 식당이 망할 수 있습니다.
지금까지 이 '주문 담당 vs 요리 담당'의 비율을 정하는 명확한 공식이 없었습니다. "일단 5 명씩 뽑아보자" 식으로 임의로 정하다 보니 비효율이 많았습니다.

이 논문은 **"손님의 주문 패턴과 식당의 목표 속도를 분석해서, 최적의 주방장 수를 계산하는 공식"**을 만들었습니다.

🧮 이 논문이 제안한 3 단계 계산법

1. 전체 목표 설정 (레스토랑의 목표)

먼저 식당이 하루에 몇 개의 요리를 해야 하는지 (전체 처리량), 손님이 주문할 때 평균적으로 얼마나 긴 질문을 하는지, 그리고 답변은 얼마나 길어야 하는지를 정합니다.

2. '주문 담당' 주방장의 능력 측정 (TTFT - 첫 번째 답변까지의 시간)

손님이 주문하고 첫 번째 요리를 받기까지 걸리는 시간 (TTFT) 은 매우 중요합니다.

논문의 아이디어: 주문이 몰리면 주방장이 바빠져서 손님이 기다리는 시간이 길어집니다.
수학적인 접근: 이 논문은 **'대기줄 이론 (M/M/1 큐잉 이론)'**을 사용합니다. 마치 은행 창구에서 대기 시간을 계산하듯, "손님이 얼마나 빠르게 들어오는지"와 "주방장이 얼마나 빠르게 주문을 처리할 수 있는지"를 수학적으로 연결합니다.
결과: "우리가 약속한 '첫 답변 시간'을 지키려면, 실제로 주문을 처리할 수 있는 속도는 이 정도여야 한다"는 숫자를 정확히 뽑아냅니다.

3. '요리 담당' 주방장의 능력 측정 (TPOT - 답변 생성 속도)

요리할 때는 한 번에 여러 요리를 동시에 만들 수 있습니다 (배치 처리). 하지만 한 번에 너무 많이 만들면 요리 품질 (속도) 이 떨어집니다.

논문의 아이디어: 실제 실험을 통해 "얼마나 많은 요리를 동시에 만들어도 '요리 속도'가 느려지지 않는지"를 측정합니다.
결과: "우리가 약속한 '요리 속도'를 지키면서 동시에 만들 수 있는 최대 요리의 양"을 찾아냅니다.

🎯 최종 결과: 완벽한 균형 (3P4D)

이 두 가지 계산 결과를 합치면 다음과 같은 결론에 도달합니다.

"우리의 목표 속도와 손님의 주문 패턴을 고려했을 때, 주문 담당 주방장 3 명과 요리 담당 주방장 4 명을 배치하는 것이 가장 이상적이다."

이렇게 계산된 비율 (3 대 4) 로 시스템을 운영하면:

비용 절감: 불필요한 주방장을 뽑지 않아 돈을 아낍니다.
속도 보장: 손님이 기다리는 시간이 약속한 시간보다 길어지지 않습니다.
최적의 효율: 주방장이 쉬는 시간이 거의 없이 바쁘게 일합니다.

💡 요약: 왜 이 논문이 중요한가요?

이 논문은 AI 를 운영하는 회사들에게 **"임의로 인원을 뽑지 말고, 이 공식을 쓰면 돈도 아끼고 속도도 지키는 완벽한 인원 배치를 할 수 있다"**고 알려줍니다.

마치 레스토랑 주인이 손님의 수와 메뉴의 난이도를 분석해서, 가장 효율적인 주방 팀 구성을 자동으로 계산해주는 스마트한 매니저가 생긴 것과 같습니다. 이제 AI 서비스 운영도 더 과학적이고 경제적입니다! 🚀

Each language version is independently generated for its own context, not a direct translation.

논문 개요

본 논문은 대규모 언어 모델 (LLM) 추론에서 Prefill-Decode (P/D) 분리 (Disaggregation) 아키텍처를 사용할 때, 주어진 서비스 수준 목표 (SLO) 와 총 처리량 (Throughput) 요구사항을 충족하면서 최적의 하드웨어 리소스 (Prefill 인스턴스 vs Decode 인스턴스 수) 를 어떻게 할당할지에 대한 체계적인 방법론을 제시합니다.

1. 문제 정의 (Problem)

배경: LLM 추론은 계산 집약적인 'Prefill' 단계와 메모리 대역폭 집약적인 'Decode' 단계로 구성됩니다. 기존에는 이 두 단계를 동일한 GPU 리소스에서 순차적으로 처리했으나, 이로 인해 TTFT(First Token 생성 시간) 와 TPOT(각 토큰 생성 시간) 간의 트레이드오프가 발생하고 리소스 최적화가 어렵습니다.
P/D 분리: 이를 해결하기 위해 Prefill 과 Decode 를 별도의 인스턴스로 분리하는 P/D 아키텍처가 널리 채택되고 있습니다.
핵심 과제: 현재 산업계에는 특정 워크로드 (입력/출력 길이, SLO, 총 처리량) 에 대해 최적의 Prefill 및 Decode GPU 수를 정량적으로 계산하는 표준 방법론이 부재합니다.
- 리소스 할당이 잘못되면 SLO 미달 (사용자 경험 저하) 또는 리소스 낭비 (비용 증가) 가 발생합니다.
- 기존 도구 (NVIDIA AIConfigurator 등) 는 특정 파라미터 설정에 대한 탐색을 제공하지만, 사용자 정의 SLO 와 처리량을 기반으로 한 종합적인 리소스 할당 계산은 제공하지 못합니다.

2. 제안 방법론 (Methodology)

저자는 이론적 모델링과 실증적 벤치마킹을 결합한 하이브리드 접근법을 제안합니다.

가. P/D 리소스 수 계산 공식

총 처리량 ( $TP_{total}$ ), 평균 입력 길이 ( $L_{in}$ ), 평균 출력 길이 ( $L_{out}$ ) 가 주어졌을 때, Prefill 인스턴스 수 ( $N_{prefill}$ ) 와 Decode 인스턴스 수 ( $N_{decode}$ ) 는 각 단계의 처리량 ( $TP_{prefill}, TP_{decode}$ ) 을 기반으로 계산됩니다.
파이프라인 처리를 위해 Prefill 과 Decode 의 처리 시간을 균형 있게 맞추어 ( $T_{prefill} = T_{decode}$ $T_{p r e f i l l} = T_{d eco d e}$ ) 최적의 P/D 비율 ( $R_{P/D}$ $R_{P / D}$ ) 을 도출합니다.
- $R_{P/D} = \frac{L_{in} \times TP_{decode}}{L_{out} \times TP_{prefill}}$

나. TTFT 제약 하의 Prefill 처리량 산정 (M/M/1 큐잉 이론)

목표: 목표 TTFT 를 만족하는 실제 Prefill 처리량을 구함.
모델링: Prefill 과정을 M/M/1 큐잉 모델로 모델링합니다.
- 서비스율 ( $\mu$ ) 은 벤치마크된 최대 Prefill 처리량과 입력 길이의 비율로 정의됩니다.
- 도착율 ( $\lambda$ ) 은 실제 요청률입니다.
- TTFT 는 대기 시간 + 계산 시간 + 오버헤드 (KV 캐시 전송 등) 의 합입니다.
도출: 목표 TTFT 와 오버헤드를 고려하여 시스템 활용도 ( $\rho$ $ρ$ ) 를 계산하고, 이를 통해 **실제 달성 가능한 Prefill 처리량 ( $TP_{prefill}$ $T P_{p r e f i l l}$ )**을 유도합니다.
- 공식: $TP_{prefill} = \tilde{TP}_{prefill} - \frac{L_{in}}{TTFT - T_{overhead}}$
- 통찰: 목표 TTFT 가 낮을수록 달성 가능한 처리량은 감소합니다.

다. TPOT 제약 하의 Decode 처리량 산정 (실증 벤치마킹)

목표: 목표 TPOT 을 만족하는 최대 Decode 배치 크기와 처리량을 구함.
방법:
- Decode 단계에서는 배치 크기 (Batch Size) 가 커질수록 처리량은 증가하지만 TPOT 도 증가합니다.
- 실제 하드웨어 환경에서 다양한 배치 크기에 대한 TPOT 과 처리량 곡선을 벤치마킹합니다.
- 목표 TPOT 을 만족하는 최대 배치 크기를 찾아, 해당 배치 크기를 TPOT 으로 나눈 값을 실제 Decode 처리량으로 정의합니다.

3. 주요 기여 (Key Contributions)

이론적 모델 정립: 총 처리량, SLO, 요청 길이, P/D 단계별 처리량을 기반으로 P/D 인스턴스 수를 계산하는 수학적 모델을 제시했습니다.
TTFT 기반 처리량 도출: M/M/1 큐잉 이론을 적용하여 TTFT 제약 조건 하에서 실제 유효한 Prefill 처리량을 유도하는 방법을 제안했습니다.
TPOT 기반 처리량 도출: 실험적 측정을 통해 TPOT 제약을 만족하는 최적의 Decode 배치 크기와 처리량을 도출하는 프로세스를 확립했습니다.
실제 검증: 실제 LLM 추론 시나리오에서 제안된 방법이 최적의 리소스 할당을 정확하게 예측하여 비용 효율성과 SLO 준수를 동시에 달성함을 입증했습니다.

4. 실험 결과 (Results)

실험 환경: DeepSeek-V3.1-Terminus 모델, NVIDIA H200 GPU, SGLang 엔진 사용.
요구사항: TTFT 2 초, TPOT 20ms, 총 처리량 500 만 토큰/분 (M TPM), 평균 입력 6144, 출력 512.
계산 결과:
- 벤치마킹 및 이론적 계산을 통해 **3 개의 Prefill 인스턴스 (3P)**와 **4 개의 Decode 인스턴스 (4D)**가 필요함을 도출 (3P4D 구성).
- 계산된 P/D 비율은 약 0.82:1 이었습니다.
검증:
- 3P4D 구성: 약 4.8 M TPM 에서 TTFT 2 초와 TPOT 20ms 의 SLO 를 모두 만족했습니다. (목표 5 M TPM 에 근접)
- 3P3D 구성 (비교): TPOT 제약으로 인해 SLO 만족 처리량이 약 3.6 M TPM 으로 제한되었습니다.
- 효율성: 제안된 방법 (3P4D) 은 노드당 평균 처리량 (0.69 M TPM) 이 기존 방식 (3P3D, 0.6 M TPM) 보다 높았으며, 리소스 활용도가 우수함을 보였습니다.

5. 의의 및 결론 (Significance)

운영적 가치: LLM 서비스 운영자가 SLO 와 비즈니스 요구사항 (처리량) 을 입력하면, 이를 기반으로 최적의 GPU 리소스 수를 자동으로 산출할 수 있는 체계적인 가이드라인을 제공합니다.
비용 절감: 과잉 프로비저닝 (Over-provisioning) 을 방지하고 리소스 활용도를 극대화하여 추론 비용을 절감합니다.
확장성: 이 방법론은 향후 멀티모달 EPD 분리 시스템이나 AIConfigurator 와 같은 최적화 도구와 통합되어 더 복잡한 시나리오에도 적용될 수 있는 잠재력을 가지고 있습니다.

결론적으로, 본 논문은 P/D 분리 아키텍처의 도입을 가속화하는 핵심적인 '리소스 계획 도구'를 제공하며, 이론적 모델링과 실제 벤치마킹의 조화를 통해 실용적인 해결책을 제시했다는 점에서 의의가 큽니다.