Robust Batch-Level Query Routing for Large Language Models under Cost and Capacity Constraints

Este artigo propõe um framework de roteamento robusto e consciente de recursos em nível de lote para modelos de linguagem grandes (LLMs), que otimiza a alocação de instâncias e controla custos e capacidades sob restrições adversárias, superando significativamente os métodos de roteamento por consulta individual em benchmarks multi-tarefa.

Jelena Markovic-Voronov, Kayhan Behdin, Yuanda Xu, Zhengze Zhou, Zhipeng Wang, Rahul Mazumder

Publicado 2026-03-31
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o gerente de um restaurante muito popular que tem vários chefs à disposição. Alguns chefs são lendários (modelos de IA grandes e caros), mas cobram muito pelo prato e demoram um pouco. Outros são rápidos e baratos, mas só sabem fazer pratos simples.

O seu objetivo é servir o melhor prato possível para cada cliente, sem quebrar o caixa do restaurante e sem deixar a cozinha lotada a ponto de os chefs pararem de trabalhar.

Aqui está o que os autores deste artigo descobriram e propuseram, explicado de forma simples:

1. O Problema: O Caos do "Peça por Peça"

Antes, a maioria dos restaurantes (sistemas de IA) fazia o seguinte: quando um cliente chegava, o garçom olhava o pedido e decidia imediatamente qual chef faria aquele prato.

  • O erro: Se 10 clientes pedirem pratos complexos ao mesmo tempo, o garçom pode mandar todos para o "Chef Lendário". Resultado? A cozinha explode, a conta fica altíssima e os clientes esperam horas.
  • A analogia: É como se você tivesse um orçamento de $100 para o dia todo. Se você gastar $50 no primeiro cliente, sobra pouco para os outros. O sistema antigo não olhava para o "grupo" de pedidos, apenas para um de cada vez.

2. A Solução: O "Gerente de Grupo" (Roteamento em Lote)

Os autores propuseram uma nova ideia: em vez de decidir um por um, vamos olhar para o grupo inteiro de pedidos que chegou de uma vez (o "lote" ou batch).

Imagine que você tem uma caixa de ferramentas e um grupo de 100 tarefas.

  • A abordagem antiga: Escolher a melhor ferramenta para cada tarefa individualmente, sem olhar para o saldo da sua conta bancária.
  • A nova abordagem (Inteligente): Você olha para as 100 tarefas juntas.
    • "Ok, essas 80 tarefas são fáceis, vamos mandar para os ajudantes rápidos e baratos."
    • "Essas 20 são difíceis, vamos mandar para o Chef Lendário."
    • O Truque: O sistema resolve um "quebra-cabeça matemático" (chamado Programação Linear Inteira) para garantir que, no final, você não gastou mais do que o orçamento e que nenhum chef ficou sobrecarregado.

Resultado: Em situações onde os pedidos chegam de forma desorganizada (ou até mal-intencionada, como no teste "adversário"), essa nova forma de gerenciar o grupo economizou até 24% de recursos e melhorou a qualidade da resposta.

3. O "Seguro" contra Erros (Otimização Robusta)

Às vezes, o garçom acha que sabe qual é o melhor chef, mas pode estar enganado. O sistema antigo confiava cegamente nessa previsão.

  • A nova ideia: O sistema agora é "cauteloso". Ele pergunta: "E se a previsão estiver errada? E se o Chef Lendário estiver cansado hoje?"
  • A analogia: É como dirigir com um guarda-chuva mesmo quando o céu está meio nublado. O sistema assume o "pior cenário possível" dentro de uma margem de erro e toma a decisão que funciona bem mesmo se as coisas derem errado.
  • Benefício: Isso aumentou a precisão em até 14% em alguns casos, porque evita que o sistema mande um pedido difícil para um chef que, na verdade, não consegue fazer bem naquele momento.

4. A Decisão de Longo Prazo (Alocação de Recursos)

Antes de o restaurante abrir, você precisa decidir quantos chefs contratar e quantas cozinhas (GPUs) instalar.

  • O jeito antigo: Contratar o mesmo número de ajudantes para todos os tipos de cozinha, ou apenas focar nos grandes chefs.
  • O jeito novo: O sistema simula o dia todo antes de começar. Ele calcula: "Para atender bem os pedidos de segunda a sexta, precisamos de 3 cozinhas pequenas e 1 grande, e não o contrário."
  • Resultado: Isso melhorou o desempenho em até 3%, garantindo que os recursos (como placas de vídeo/GPUs) não fiquem parados ou sobrecarregados.

Resumo da Ópera

Este trabalho é como transformar um gerente de restaurante que reage freneticamente a cada cliente em um maestro experiente.

  1. Ele olha para a orquestra inteira (o lote de pedidos), não para um músico de cada vez.
  2. Ele usa um plano de contingência (robustez) para garantir que a música não pare se um instrumento falhar.
  3. Ele planeja o palco (alocação de GPUs) antes do show começar para garantir que tudo corra bem.

O resultado? Um sistema de Inteligência Artificial que é mais barato, mais rápido, não trava quando muita gente pede ao mesmo tempo e entrega respostas melhores, mesmo quando as previsões não são 100% perfeitas.