HEXGEN-FLOW: Optimizing LLM Inference Request Scheduling for Agentic Text-to-SQL

O artigo apresenta o HEXGEN-FLOW, um framework inovador que otimiza o agendamento de inferência de LLMs para fluxos de trabalho Text-to-SQL em clusters heterogêneos de GPUs, utilizando um escalonador hierárquico e métodos de simulação para reduzir significativamente a latência e aumentar a taxa de transferência em comparação com os sistemas existentes.

You Peng, Youhe Jiang, Wenqi Jiang, Chen Wang, Binhang Yuan

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um restaurante muito sofisticado onde os clientes não pedem pratos diretamente, mas sim descrevem o que querem comer em uma linguagem natural (como "quero um prato que combine carne com legumes e tenha pouco sal"). O chef (a Inteligência Artificial) precisa transformar essa descrição em uma receita complexa (SQL) para a cozinha.

O problema é que esse processo não é feito de uma só vez. É como uma linha de montagem:

  1. Primeiro, o chef precisa entender quais ingredientes você tem na despensa (ligação com o esquema do banco de dados).
  2. Depois, ele cria várias opções de receitas possíveis.
  3. Em seguida, ele testa essas receitas na cozinha; se uma queimar, ele tenta corrigir e refazer.
  4. Por fim, ele escolhe a melhor receita para servir.

O artigo "HEXGEN-FLOW" apresenta um novo sistema para gerenciar essa linha de montagem quando há muitos clientes pedindo ao mesmo tempo, e quando a cozinha tem chefs com diferentes níveis de habilidade (alguns são rápidos e fortes, outros mais lentos).

Aqui está a explicação simplificada do que eles fizeram:

1. O Problema: A Cozinha Caótica

Antes, os sistemas de Inteligência Artificial tratavam cada pedido como se fosse independente. Era como se, em um restaurante lotado, o gerente apenas entregasse os pedidos na ordem em que chegavam (primeiro a chegar, primeiro a ser atendido), sem olhar para:

  • Quem é o cliente: Alguns pedidos são urgentes (o cliente está com fome agora), outros são mais relaxados.
  • A complexidade do prato: Um pedido simples de salada é rápido; um banquete complexo demora.
  • Quem é o chef: Alguns chefs têm fogões potentes (GPUs rápidas), outros têm fogões antigos (GPUs mais lentas).

Isso causava gargalos. Um pedido complexo podia ficar preso na frente de um pedido simples, atrasando tudo. Ou um pedido urgente podia ficar esperando um chef lento, fazendo o cliente ficar furioso.

2. A Solução: O Gerente Inteligente (HEXGEN-FLOW)

Os autores criaram o HEXGEN-FLOW, que age como um gerente de restaurante superinteligente que usa duas estratégias principais:

A. O Despacho Global (O "Mapa da Cozinha")

Em vez de apenas jogar os pedidos na fila, o gerente olha para o pedido e decide qual chef deve fazê-lo.

  • Se o pedido é um "banquete complexo" (muito cálculo), ele manda para o chef mais forte e rápido (GPU potente).
  • Se o pedido é uma "salada simples", ele manda para um chef mais lento que está ocioso, para não sobrecarregar o chef forte.
  • Analogia: É como um aplicativo de táxi que decide qual carro pegar. Se você precisa de um carro de luxo para uma viagem longa, ele não manda um carro pequeno e velho. Ele equilibra a carga para que ninguém fique esperando à toa.

B. A Fila Local (O "Semáforo de Urgência")

Dentro de cada chef, existe uma fila de pedidos esperando. O sistema antigo atendia quem chegou primeiro. O HEXGEN-FLOW usa um semáforo de urgência.

  • Ele calcula quanto tempo falta para o cliente ficar insatisfeito (o prazo final).
  • Se um pedido está prestes a atrasar o prazo, ele ganha um "sinal verde" e pula a fila, mesmo que tenha chegado depois.
  • Analogia: Imagine um hospital de emergência. O médico não atende quem chegou primeiro, mas sim quem está em maior risco de vida. O sistema prioriza quem está "quase estourando o prazo".

3. O Ajuste Automático (O "Treinador")

O sistema também tem um mecanismo que aprende sozinho. Ele simula o que aconteceria se mudasse a forma de priorizar os pedidos.

  • Se o restaurante fica muito lotado de repente, o sistema percebe que está ficando lento e ajusta automaticamente a estratégia para ficar mais rápido.
  • É como um treinador de futebol que, vendo o time cansado no segundo tempo, muda a formação do time para ganhar o jogo, sem precisar de um novo técnico.

4. Os Resultados: O Restaurante Venceu

Os testes mostraram que, com esse novo sistema:

  • Menos tempo de espera: Os pedidos "cauda" (os mais lentos e frustrantes) ficaram 1,5 vezes mais rápidos.
  • Mais pedidos atendidos: O sistema conseguiu processar 1,5 a 1,8 vezes mais pedidos no mesmo tempo.

Resumo Final

O HEXGEN-FLOW é como transformar uma cozinha de restaurante bagunçada em uma operação de precisão cirúrgica. Ele garante que:

  1. Pedidos difíceis vão para os melhores chefs.
  2. Pedidos urgentes pulam a fila.
  3. O sistema se adapta sozinho se a demanda mudar.

Isso permite que empresas usem Inteligência Artificial para consultar bancos de dados de forma rápida e confiável, mesmo quando há muitos usuários pedindo coisas diferentes ao mesmo tempo.