Robust Batch-Level Query Routing for Large Language Models under Cost and Capacity Constraints

Each language version is independently generated for its own context, not a direct translation.

🍕 1. 기존 방식의 문제: "한 입씩 시켜보는 실수"

기존의 AI 시스템은 질문이 하나 들어올 때마다, "이 질문을 해결하기 위해 비싼 AI 를 쓸까, 싼 AI 를 쓸까?"를 질문 하나하나씩 따로따로 결정했습니다.

비유: 식당에 손님이 100 명 줄을 서 있는데, 요리사가 손님이 한 명 올 때마다 "이 손님은 비싼 스테이크를 원할까?"라고 고민하며 메뉴를 정하는 상황입니다.
문제점:
1. 예산 폭주: 우연히 비싼 스테이크를 원하는 손님들이 10 명 연속으로 줄을 서면, 그날의 예산이 순식간에 바닥납니다. (Adversarial Batching: 악의적으로 어려운 질문들이 몰려오는 상황)
2. 자원 낭비: 반대로 쉬운 질문들만 몰려있는데 비싼 AI 를 써버려서 돈이 아까워집니다.
3. 예측 실패: "이 질문은 쉬울 거야"라고 생각했는데, 막상 비싼 AI 가 실수하거나, 예상보다 느리게 돌아갈 때를 대비하지 못합니다.

🚚 2. 이 논문의 해결책: "트럭 한 대에 싣는 지혜로운 배송"

이 논문은 질문을 하나씩 처리하는 게 아니라, 질문들을 묶어서 (Batch) 한 번에 처리하는 방식을 제안합니다. 마치 물류 회사가 트럭 한 대에 화물들을 싣고 가는 것과 같습니다.

핵심 아이디어 1: "트럭 한 대의 적재 최적화" (Batch-Level Routing)

상황: 트럭 (서버) 에는 화물 (질문) 을 실을 수 있는 공간과 연료 (비용) 제한이 있습니다.
기존 방식: 화물 하나하나를 보고 "이건 고급 화물이니까 비싼 트럭으로 보내자"라고 결정합니다.
이 논문의 방식: "이번 트럭에 실을 화물 100 개를 한꺼번에 보자. 쉬운 화물은 작은 트럭에, 어려운 화물은 큰 트럭에, 그리고 전체 연료 비용이 한도를 넘지 않게 배분하자"라고 한 번에 계산합니다.
효과: 비싼 화물이 몰려와도, 싼 화물로 균형을 맞춰 전체 예산을 지키면서 모든 화물을 잘 실어 보낼 수 있습니다.

핵심 아이디어 2: "비 오는 날을 대비한 우산" (Robust Optimization)

상황: 우리는 "이 화물은 A 트럭이 잘 실을 거야"라고 예측하지만, 예측이 틀릴 수도 있습니다. (예: A 트럭이 고장 날 수도 있음)
이 논문의 방식: "예측이 틀려서 worst case(최악의 상황) 가 오더라도 문제가 없도록, 예측보다 조금 더 보수적으로 계획을 세웁니다."
- 마치 "내일 비가 올 확률이 70% 라서 우산을 챙긴다"는 식입니다. 예측이 100% 정확하지 않아도, 최악의 상황에서도 시스템이 망가지지 않도록 안전장치를 마련한 것입니다.
결과: 예측이 빗나갈 때에도 AI 의 답변 품질이 떨어지지 않고, 오히려 더 안정적이게 됩니다.

핵심 아이디어 3: "창고와 트럭의 최적 배치" (Instance Allocation)

상황: 회사에는 여러 종류의 트럭 (AI 모델) 이 있습니다. 어떤 건 크고 비싸고, 어떤 건 작고 저렴합니다. 이 트럭들을 몇 대씩 구비해둘지 미리 결정해야 합니다.
이 논문의 방식: 단순히 "트럭을 많이 사자"가 아니라, "어떤 종류의 트럭을 몇 대씩 두면 가장 효율적일까?"를 데이터를 보고 미리 계산해서 배치합니다.
효과: GPU(컴퓨터 성능) 라는 자원을 아끼면서도, 필요한 곳에 적절한 AI 모델을 배치할 수 있어 전체적인 성능이 3% 정도 더 좋아집니다.

📊 3. 실험 결과: 실제로 효과가 있을까요?

연구진은 두 가지 큰 데이터셋으로 실험을 해보았습니다.

예측이 틀릴 때 (Robustness): 예측이 불확실할 때, 이 논문의 '우산' 전략을 쓴 AI 는 기존 방식보다 1~14% 더 좋은 답변을 내놓았습니다.
질문이 몰려올 때 (Adversarial Batching): 어려운 질문들이 한꺼번에 몰려와서 예산이 터질 뻔한 상황에서도, 기존 방식은 24% 까지 성능이 떨어졌지만, 이 논문의 방식은 거의 떨어지지 않고 잘 견디며 더 좋은 성능을 냈습니다.
자원 배분: 트럭 (GPU) 배치를 잘만 해도 3% 추가적인 이득을 볼 수 있었습니다.

💡 4. 한 줄 요약

"질문 하나하나를 따로따로 처리하다가 예산과 성능을 놓치는 대신, 질문들을 묶어서 '최악의 상황'까지 고려하며 지혜롭게 배분하면, 돈도 아끼고 AI 의 답변도 더 똑똑하게 만들 수 있다."

이 기술은 앞으로 우리가 매일 사용하는 AI 서비스들이 더 저렴하고, 빠르며, 안정적으로 작동하는 데 큰 역할을 할 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

대규모 언어 모델 (LLM) 라우팅은 일반적으로 개별 쿼리 (Per-query) 단위로 수행됩니다. 기존 방법은 각 쿼리에 대해 모델의 예상 품질 ( $l$ ) 과 비용 ( $c$ ) 을 추정하여 $l - \lambda \cdot c$ 를 최대화하는 방식으로 라우팅을 결정합니다. 그러나 실제 산업 환경에서는 다음과 같은 한계점이 존재합니다.

배치 단위 비용 통제 실패: 실제 LLM 추론 시스템은 하드웨어 활용도를 높이기 위해 동적 배치 (Dynamic Batching) 를 사용합니다. 개별 쿼리 단위 라우팅은 배치 전체의 총 비용을 통제하기 어렵습니다. 특히 난이도가 높은 쿼리들이 한 번에 몰리는 '적대적 배치 (Adversarial Batching)' 상황에서는 비용 급증이나 지연이 발생할 수 있습니다.
용량 제약 무시: 로컬 배포된 모델은 GPU 수에 따른 병렬 처리 용량 (Concurrency) 이 제한되는 반면, 클라우드 모델은 비용 제약이 더 큽니다. 기존 방법은 이러한 이질적인 서비스 환경과 하드웨어 용량 제약을 명시적으로 고려하지 못합니다.
예측 불확실성: 모델 성능 추정치 ( $l$ ) 는 노이즈가 있을 수 있으며, 이를 고려하지 않은 라우팅은 최악의 경우 성능 저하를 초래할 수 있습니다.

2. 제안 방법론 (Methodology)

저자들은 정수 선형 계획법 (Integer Linear Programming, ILP) 기반의 견고한 배치 단위 라우팅 프레임워크를 제안합니다.

2.1. 배치 단위 라우팅 최적화 (Batch-Level Routing Optimization)

목표: 배치 내 모든 쿼리의 평균 라우팅 품질을 최대화합니다.
제약 조건:
- 비용 제약: 전체 배치의 추론 비용이 예산 ( $C$ ) 을 초과하지 않도록 합니다.
- 용량 제약: 각 LLM 인스턴스가 처리할 수 있는 동시 쿼리 수 ( $l_j \cdot I_j$ ) 를 초과하지 않도록 합니다.
- 할당 제약: 각 쿼리는 정확히 하나의 모델에 할당되어야 합니다.
해법: 이 문제는 ILP 로 정의되며, SCIP 와 같은 상용 솔버를 사용하여 밀리초 단위로 효율적으로 해결 가능합니다.

2.2. 견고한 최적화 (Robust Optimization)

모델 성능 추정치 ( $a_{i,j}$ ) 의 불확실성을 고려하여, 최악의 경우 (Worst-case) 시나리오에서도 성능이 보장되도록 설계합니다.
방식: 점 추정치 대신, 부트스트랩 리샘플링 (Bootstrap Resampling) 등을 통해 생성된 예측 구간 (Prediction Interval) 의 하한선 (Lower Bound) 을 목적 함수에 사용합니다.
효과: 추정 오차로 인해 성능이 낮은 모델로 잘못 라우팅되는 리스크를 줄이고, 예측 분산이 낮은 안정적인 모델을 선호하게 됩니다.

2.3. 오프라인 인스턴스 할당 (Offline Instance Allocation)

추론 전 단계에서 GPU 자원을 각 모델에 어떻게 분배할지 ( $I_j$ ) 결정하는 최적화 문제를 풉니다.
목표: 제한된 GPU 예산 내에서 전체 시스템의 평균 성능을 최대화하도록 모델 인스턴스 수를 데이터에 의존적으로 (Data-dependent) 조정합니다.
프로세스: 오프라인에서 최적의 인스턴스 수를 계산한 후, 이를 고정하고 온라인 배치 라우팅을 수행합니다.

3. 주요 기여 (Key Contributions)

기존 방법의 한계 규명: 배치 추론 및 엄격한 비용/용량 제약 하에서 개별 쿼리 라우팅이 가지는 근본적인 결함을 분석하고 시연했습니다.
견고한 배치 단위 프레임워크 도입: 비용과 하드웨어 용량 제약을 명시적으로 강제하면서 성능 추정 불확실성을 고려한 라우팅 프레임워크를 제안했습니다.
오프라인 리소스 할당 연구: 추론 전 단계에서 모델 인스턴스 수를 최적화하여 시스템 전체의 효율성을 높이는 방법을 제시했습니다.
광범위한 실험 검증: 두 가지 다중 작업 LLM 벤치마크를 통해 제안된 방법의 유효성을 입증했습니다.

4. 실험 결과 (Results)

두 개의 데이터셋 (Dataset 1: 20 개 모델, Dataset 2: 11 개 모델) 에서 다음과 같은 결과를 도출했습니다.

견고성 (Robustness) 의 효과:
- 견고한 라우팅은 비견고한 방법 대비 정확도를 1~14% 향상시켰습니다 (추정기에 따라 다름).
- 특히 XGBoost 기반의 견고한 라우터는 기존 최첨단 방법 (MIRT) 보다 높은 성능을 보였습니다.
- 불확실성이 높은 쿼리에서 예측 분산이 큰 모델을 피하고 안정적인 모델을 선택하는 경향을 보였습니다.
배치 단위 최적화 vs 개별 쿼리 라우팅:
- 무작위 배치: 배치 단위 최적화가 개별 쿼리 방법보다 최대 4% (Dataset 1) 성능이 우수했습니다.
- 적대적 배치 (Adversarial Batching): 비용이 높은 쿼리가 몰리는 상황에서 배치 단위 최적화는 개별 쿼리 방법보다 최대 24% (Dataset 1) 까지 성능 우위를 보이며, 비용 예산을 엄격하게 준수했습니다.
인스턴스 할당 최적화:
- 고정된 인스턴스 수 할당 대비, 데이터에 기반한 최적 할당은 최대 3% 의 추가적인 성능 향상을 가져왔습니다.
- 비용 제약이 tight 할 때는 효율적인 소형 모델을, 여유가 있을 때는 고성능 대형 모델에 인스턴스를 할당하는 유연성을 보여주었습니다.
전체 최적화 (Full Optimization):
- 비용과 GPU 제약이 동시에 적용된 환경에서, 제안된 방법은 단일 최강 모델 (예: DeepSeek_Chat) 의 성능을 달성하는 데 필요한 GPU 수를 획기적으로 줄였습니다 (DeepSeek_Chat 단독 800 개 GPU vs 제안 방법 177 개 GPU).

5. 의의 및 결론 (Significance and Conclusion)

이 논문은 LLM 라우팅을 단순한 '개별 쿼리 선택'의 문제를 넘어, 시스템 전체의 자원 제약과 불확실성을 고려한 '배치 단위 최적화' 문제로 재정의했습니다.

실용성: 산업계에서 흔히 발생하는 동적 배치, 이질적인 서비스 환경 (로컬 vs 클라우드), 그리고 엄격한 예산 제약을 모두 고려하여 실제 배포에 적용 가능한 솔루션을 제시합니다.
안정성: 견고한 최적화 기법을 통해 예측 오차로 인한 시스템 성능 저하를 방지하고, 최악의 상황에서도 일정한 품질을 보장합니다.
효율성: 오프라인 자원 할당과 온라인 라우팅을 결합하여 제한된 GPU 자원으로 최대의 추론 품질을 달성하는 방법을 제시했습니다.

결론적으로, 이 연구는 대규모 LLM 배포 시스템의 비용 효율성과 안정성을 동시에 확보하기 위한 필수적인 프레임워크를 제공하며, 향후 지연 시간 (Latency) 목표나 토큰 기반 가격 책정 등 다양한 제약 조건으로 확장 가능한 기반을 마련했습니다.