HEXGEN-FLOW: Optimizing LLM Inference Request Scheduling for Agentic Text-to-SQL

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um restaurante muito sofisticado onde os clientes não pedem pratos diretamente, mas sim descrevem o que querem comer em uma linguagem natural (como "quero um prato que combine carne com legumes e tenha pouco sal"). O chef (a Inteligência Artificial) precisa transformar essa descrição em uma receita complexa (SQL) para a cozinha.

O problema é que esse processo não é feito de uma só vez. É como uma linha de montagem:

Primeiro, o chef precisa entender quais ingredientes você tem na despensa (ligação com o esquema do banco de dados).
Depois, ele cria várias opções de receitas possíveis.
Em seguida, ele testa essas receitas na cozinha; se uma queimar, ele tenta corrigir e refazer.
Por fim, ele escolhe a melhor receita para servir.

O artigo "HEXGEN-FLOW" apresenta um novo sistema para gerenciar essa linha de montagem quando há muitos clientes pedindo ao mesmo tempo, e quando a cozinha tem chefs com diferentes níveis de habilidade (alguns são rápidos e fortes, outros mais lentos).

Aqui está a explicação simplificada do que eles fizeram:

1. O Problema: A Cozinha Caótica

Antes, os sistemas de Inteligência Artificial tratavam cada pedido como se fosse independente. Era como se, em um restaurante lotado, o gerente apenas entregasse os pedidos na ordem em que chegavam (primeiro a chegar, primeiro a ser atendido), sem olhar para:

Quem é o cliente: Alguns pedidos são urgentes (o cliente está com fome agora), outros são mais relaxados.
A complexidade do prato: Um pedido simples de salada é rápido; um banquete complexo demora.
Quem é o chef: Alguns chefs têm fogões potentes (GPUs rápidas), outros têm fogões antigos (GPUs mais lentas).

Isso causava gargalos. Um pedido complexo podia ficar preso na frente de um pedido simples, atrasando tudo. Ou um pedido urgente podia ficar esperando um chef lento, fazendo o cliente ficar furioso.

2. A Solução: O Gerente Inteligente (HEXGEN-FLOW)

Os autores criaram o HEXGEN-FLOW, que age como um gerente de restaurante superinteligente que usa duas estratégias principais:

A. O Despacho Global (O "Mapa da Cozinha")

Em vez de apenas jogar os pedidos na fila, o gerente olha para o pedido e decide qual chef deve fazê-lo.

Se o pedido é um "banquete complexo" (muito cálculo), ele manda para o chef mais forte e rápido (GPU potente).
Se o pedido é uma "salada simples", ele manda para um chef mais lento que está ocioso, para não sobrecarregar o chef forte.
Analogia: É como um aplicativo de táxi que decide qual carro pegar. Se você precisa de um carro de luxo para uma viagem longa, ele não manda um carro pequeno e velho. Ele equilibra a carga para que ninguém fique esperando à toa.

B. A Fila Local (O "Semáforo de Urgência")

Dentro de cada chef, existe uma fila de pedidos esperando. O sistema antigo atendia quem chegou primeiro. O HEXGEN-FLOW usa um semáforo de urgência.

Ele calcula quanto tempo falta para o cliente ficar insatisfeito (o prazo final).
Se um pedido está prestes a atrasar o prazo, ele ganha um "sinal verde" e pula a fila, mesmo que tenha chegado depois.
Analogia: Imagine um hospital de emergência. O médico não atende quem chegou primeiro, mas sim quem está em maior risco de vida. O sistema prioriza quem está "quase estourando o prazo".

3. O Ajuste Automático (O "Treinador")

O sistema também tem um mecanismo que aprende sozinho. Ele simula o que aconteceria se mudasse a forma de priorizar os pedidos.

Se o restaurante fica muito lotado de repente, o sistema percebe que está ficando lento e ajusta automaticamente a estratégia para ficar mais rápido.
É como um treinador de futebol que, vendo o time cansado no segundo tempo, muda a formação do time para ganhar o jogo, sem precisar de um novo técnico.

4. Os Resultados: O Restaurante Venceu

Os testes mostraram que, com esse novo sistema:

Menos tempo de espera: Os pedidos "cauda" (os mais lentos e frustrantes) ficaram 1,5 vezes mais rápidos.
Mais pedidos atendidos: O sistema conseguiu processar 1,5 a 1,8 vezes mais pedidos no mesmo tempo.

Resumo Final

O HEXGEN-FLOW é como transformar uma cozinha de restaurante bagunçada em uma operação de precisão cirúrgica. Ele garante que:

Pedidos difíceis vão para os melhores chefs.
Pedidos urgentes pulam a fila.
O sistema se adapta sozinho se a demanda mudar.

Isso permite que empresas usem Inteligência Artificial para consultar bancos de dados de forma rápida e confiável, mesmo quando há muitos usuários pedindo coisas diferentes ao mesmo tempo.

Each language version is independently generated for its own context, not a direct translation.

Título: HEXGEN-FLOW: Otimização do Agendamento de Solicitações de Inferência LLM para Text-to-SQL Agêntico

1. O Problema

O avanço dos Modelos de Linguagem (LLMs) agênticos melhorou significativamente a capacidade de converter perguntas em linguagem natural para SQL (Text-to-SQL), permitindo que não especialistas consultem bancos de dados. No entanto, a implantação desses sistemas em produção enfrenta desafios críticos que os frameworks de serviço de LLM existentes não conseguem resolver adequadamente:

Dependências Multi-estágio: Diferente de inferências independentes, o fluxo de trabalho Text-to-SQL agêntico envolve uma sequência interdependente de etapas (ex: vinculação de esquema, geração de candidatos, auto-correção e avaliação). Atrasos em etapas iniciais propagam-se e violam os Objetivos de Nível de Serviço (SLO) de ponta a ponta.
Heterogeneidade de Recursos: Ambientes empresariais utilizam clusters de GPUs heterogêneos (diferentes arquiteturas, capacidades de memória e desempenho). Os agendadores atuais não consideram essa variabilidade, levando a alocações subótimas.
SLOs Variáveis e Concorrentes: Múltiplos usuários com diferentes requisitos de latência compartilham o cluster. Os sistemas existentes falham em gerenciar orçamentos de tempo por consulta de forma granular, ignorando como o progresso do fluxo de trabalho afeta a urgência das etapas subsequentes.

2. Metodologia: HEXGEN-FLOW

O HEXGEN-FLOW é um framework de agendamento e execução projetado especificamente para clusters de GPUs heterogêneos que atendem a solicitações multi-tenant. Ele adota uma arquitetura de agendamento hierárquica de dois níveis:

A. Agendador Global (Coordinador)

Função: Gerencia o despacho de solicitações de inferência para instâncias de modelo específicas.
Mecanismo: Utiliza uma política de despacho balanceado por carga que considera simultaneamente:
1. A demanda computacional estimada da solicitação (comprimento de tokens de entrada/saída).
2. A capacidade de serviço e a carga atual de cada instância de modelo.
Objetivo: Garantir que tarefas pesadas ou sensíveis à latência sejam executadas em hardware mais potente, enquanto tarefas mais leves utilizam recursos subutilizados, maximizando a utilização do cluster heterogêneo.

B. Fila de Prioridade Local (em cada Instância de Modelo)

Função: Ordena as solicitações pendentes dentro de cada nó de GPU.
Mecanismo: Implementa uma fila de prioridade guiada por urgência.
- Calcula um "orçamento de SLO" por solicitação, baseado no tempo restante até o prazo final da consulta e no custo estimado das etapas futuras.
- Define uma métrica de urgência (inspirada em Least-Laxity-First), que é a diferença entre o custo de execução estimado e a margem de tempo restante.
- Solicitações com maior risco de violação de SLO são priorizadas, independentemente de sua ordem de chegada.
Ajuste Dinâmico: O orçamento de SLO é recalculado em tempo real à medida que o fluxo de trabalho avança, propagando a pressão de prazos para as etapas subsequentes.

C. Sintonização de Parâmetros (Alpha-Tuning)

O sistema utiliza um simulador leve baseado em rastreamento (trace-driven) para ajustar online o hiperparâmetro $\alpha$ , que equilibra a compensação entre o tempo de execução (escolha do hardware) e o tempo de espera na fila (balanceamento de carga). Isso garante robustez diante de mudanças na carga de trabalho.

3. Principais Contribuições

Identificação de Princípios de Design: Formalização de três princípios essenciais para servir fluxos de trabalho agênticos: gerenciamento explícito de dependências multi-estágio, alocação de solicitações consciente da heterogeneidade e garantias de SLO de ponta a ponta em ambientes multi-tenant.
Proposta do Framework: Desenvolvimento do HEXGEN-FLOW, que combina despacho global balanceado com filas locais orientadas a urgência, superando as limitações de frameworks genéricos como vLLM, TGI e Ray Serve.
Validação Empírica: Uma avaliação abrangente demonstrando ganhos significativos em latência e throughput sob diversas configurações de hardware e cargas de trabalho.

4. Resultados Experimentais

Os testes foram realizados em benchmarks realistas (BIRD-bench, Spider) com modelos como LLaMA3.1-70B e QWEN3-30B, em clusters heterogêneos (A100, L40, A6000).

Latência: O HEXGEN-FLOW reduziu a latência de cauda (P95) em 1,42x a 1,56x em comparação com os melhores sistemas existentes (vLLM, QLM, LLF, Ray).
Throughput: O sistema aumentou o throughput (consultas concluídas por segundo) em 1,49x a 1,81x.
Comparação com Baselines:
- Superou o vLLM (que usa FCFS e round-robin) significativamente, pois o despacho cego falha em workflows complexos.
- Superou o QLM e LLF ao incorporar a reavaliação de orçamentos por etapa e a consciência da heterogeneidade de hardware.
- Mantém alta eficiência mesmo em cenários de alta carga (até 30 QPS) e cargas de trabalho flutuantes.
Estudo de Ablação: A combinação de despacho balanceado (WB) e fila de prioridade (PQ) foi essencial; remover qualquer um dos componentes degradou o desempenho, confirmando que ambas as camadas são necessárias.

5. Significância

O HEXGEN-FLOW preenche uma lacuna crítica na infraestrutura de IA generativa. Enquanto a maioria dos sistemas de serviço de LLM foca em tarefas de inferência independentes, o HEXGEN-FLOW é pioneiro em otimizar pipelines agênticos complexos e dependentes em ambientes de produção heterogêneos.

Sua capacidade de garantir SLOs rigorosos, maximizar a utilização de hardware misto e adaptar-se dinamicamente a mudanças na carga de trabalho o torna uma solução fundamental para a adoção escalável de assistentes de banco de dados baseados em LLMs em empresas. O trabalho estabelece um novo paradigma para o agendamento de workflows de inferência em cadeia (DAGs) em sistemas distribuídos.