Robust Batch-Level Query Routing for Large Language Models under Cost and Capacity Constraints

이 논문은 비용과 GPU 용량 제약 하에서 배치 단위 쿼리 라우팅, 불확실성을 고려한 강건성 강화, 그리고 오프라인 인스턴스 할당 최적화를 통해 대규모 언어 모델의 처리 효율성과 정확도를 동시에 향상시키는 새로운 프레임워크를 제안합니다.

Jelena Markovic-Voronov, Kayhan Behdin, Yuanda Xu, Zhengze Zhou, Zhipeng Wang, Rahul Mazumder

게시일 2026-03-31
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍕 1. 기존 방식의 문제: "한 입씩 시켜보는 실수"

기존의 AI 시스템은 질문이 하나 들어올 때마다, "이 질문을 해결하기 위해 비싼 AI 를 쓸까, 싼 AI 를 쓸까?"를 질문 하나하나씩 따로따로 결정했습니다.

  • 비유: 식당에 손님이 100 명 줄을 서 있는데, 요리사가 손님이 한 명 올 때마다 "이 손님은 비싼 스테이크를 원할까?"라고 고민하며 메뉴를 정하는 상황입니다.
  • 문제점:
    1. 예산 폭주: 우연히 비싼 스테이크를 원하는 손님들이 10 명 연속으로 줄을 서면, 그날의 예산이 순식간에 바닥납니다. (Adversarial Batching: 악의적으로 어려운 질문들이 몰려오는 상황)
    2. 자원 낭비: 반대로 쉬운 질문들만 몰려있는데 비싼 AI 를 써버려서 돈이 아까워집니다.
    3. 예측 실패: "이 질문은 쉬울 거야"라고 생각했는데, 막상 비싼 AI 가 실수하거나, 예상보다 느리게 돌아갈 때를 대비하지 못합니다.

🚚 2. 이 논문의 해결책: "트럭 한 대에 싣는 지혜로운 배송"

이 논문은 질문을 하나씩 처리하는 게 아니라, 질문들을 묶어서 (Batch) 한 번에 처리하는 방식을 제안합니다. 마치 물류 회사가 트럭 한 대에 화물들을 싣고 가는 것과 같습니다.

핵심 아이디어 1: "트럭 한 대의 적재 최적화" (Batch-Level Routing)

  • 상황: 트럭 (서버) 에는 화물 (질문) 을 실을 수 있는 공간과 연료 (비용) 제한이 있습니다.
  • 기존 방식: 화물 하나하나를 보고 "이건 고급 화물이니까 비싼 트럭으로 보내자"라고 결정합니다.
  • 이 논문의 방식: "이번 트럭에 실을 화물 100 개를 한꺼번에 보자. 쉬운 화물은 작은 트럭에, 어려운 화물은 큰 트럭에, 그리고 전체 연료 비용이 한도를 넘지 않게 배분하자"라고 한 번에 계산합니다.
  • 효과: 비싼 화물이 몰려와도, 싼 화물로 균형을 맞춰 전체 예산을 지키면서 모든 화물을 잘 실어 보낼 수 있습니다.

핵심 아이디어 2: "비 오는 날을 대비한 우산" (Robust Optimization)

  • 상황: 우리는 "이 화물은 A 트럭이 잘 실을 거야"라고 예측하지만, 예측이 틀릴 수도 있습니다. (예: A 트럭이 고장 날 수도 있음)
  • 이 논문의 방식: "예측이 틀려서 worst case(최악의 상황) 가 오더라도 문제가 없도록, 예측보다 조금 더 보수적으로 계획을 세웁니다."
    • 마치 "내일 비가 올 확률이 70% 라서 우산을 챙긴다"는 식입니다. 예측이 100% 정확하지 않아도, 최악의 상황에서도 시스템이 망가지지 않도록 안전장치를 마련한 것입니다.
  • 결과: 예측이 빗나갈 때에도 AI 의 답변 품질이 떨어지지 않고, 오히려 더 안정적이게 됩니다.

핵심 아이디어 3: "창고와 트럭의 최적 배치" (Instance Allocation)

  • 상황: 회사에는 여러 종류의 트럭 (AI 모델) 이 있습니다. 어떤 건 크고 비싸고, 어떤 건 작고 저렴합니다. 이 트럭들을 몇 대씩 구비해둘지 미리 결정해야 합니다.
  • 이 논문의 방식: 단순히 "트럭을 많이 사자"가 아니라, "어떤 종류의 트럭을 몇 대씩 두면 가장 효율적일까?"를 데이터를 보고 미리 계산해서 배치합니다.
  • 효과: GPU(컴퓨터 성능) 라는 자원을 아끼면서도, 필요한 곳에 적절한 AI 모델을 배치할 수 있어 전체적인 성능이 3% 정도 더 좋아집니다.

📊 3. 실험 결과: 실제로 효과가 있을까요?

연구진은 두 가지 큰 데이터셋으로 실험을 해보았습니다.

  1. 예측이 틀릴 때 (Robustness): 예측이 불확실할 때, 이 논문의 '우산' 전략을 쓴 AI 는 기존 방식보다 1~14% 더 좋은 답변을 내놓았습니다.
  2. 질문이 몰려올 때 (Adversarial Batching): 어려운 질문들이 한꺼번에 몰려와서 예산이 터질 뻔한 상황에서도, 기존 방식은 24% 까지 성능이 떨어졌지만, 이 논문의 방식은 거의 떨어지지 않고 잘 견디며 더 좋은 성능을 냈습니다.
  3. 자원 배분: 트럭 (GPU) 배치를 잘만 해도 3% 추가적인 이득을 볼 수 있었습니다.

💡 4. 한 줄 요약

"질문 하나하나를 따로따로 처리하다가 예산과 성능을 놓치는 대신, 질문들을 묶어서 '최악의 상황'까지 고려하며 지혜롭게 배분하면, 돈도 아끼고 AI 의 답변도 더 똑똑하게 만들 수 있다."

이 기술은 앞으로 우리가 매일 사용하는 AI 서비스들이 더 저렴하고, 빠르며, 안정적으로 작동하는 데 큰 역할을 할 것입니다.