AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha (o seu computador com uma placa de vídeo comum) que precisa preparar vários pedidos ao mesmo tempo para diferentes clientes.

No mundo antigo das IAs (os chatbots), os clientes faziam um pedido longo, o chef cozinhava tudo de uma vez e entregava o prato. Era lento, mas previsível.

Mas hoje, com os Agentes de IA, a coisa mudou. Eles não apenas conversam; eles agem. Eles precisam:

Ler um manual gigante de instruções (o "prompt" do sistema).
Fazer uma pergunta.
Esperar o chef cozinhar a resposta.
Usar essa resposta para ligar para um "fornecedor" (uma ferramenta externa).
Receber o resultado do fornecedor.
Voltar a cozinhar com essa nova informação.
Repetir isso várias vezes em segundos.

O Problema: O Chef Engasgado

O problema é que o seu chef (a placa de vídeo de consumo) é limitado.

O "Cozimento Inicial" (Prefill): Quando o agente começa, ele precisa ler aquele manual gigante de instruções. Isso demora muito e ocupa a cozinha inteira.
O "Servir Rápido" (Decode): Depois, ele precisa soltar as respostas token por token, bem rápido, para parecer natural. Se o chef demorar um pouco para soltar uma palavra, o cliente fica impaciente e o ciclo todo quebra.

Quando vários agentes tentam usar o mesmo chef ao mesmo tempo, acontece o "Efeito Fila Única" (Head-of-Line Blocking):
Um agente começa a ler o manual gigante (o cozimento lento). Enquanto isso, todos os outros agentes que só queriam soltar uma palavra rápida ficam parados na fila, esperando a cozinha liberar. O resultado? O sistema fica lento, travado e a experiência do usuário é horrível.

A Solução: O "AgentServe"

Os autores criaram um sistema chamado AgentServe. Pense nele como um gerente de cozinha superorganizado que usa uma técnica de "Co-Design" (mistura de algoritmo inteligente + sistema de hardware).

Aqui está como ele funciona, usando analogias simples:

1. A Cozinha Dividida (Isolamento)

Em vez de deixar todos os pedidos misturados na mesma mesa, o AgentServe cria duas linhas de produção separadas:

Linha Lenta (Prefill): Para quem está lendo os manuais longos.
Linha Rápida (Decode): Para quem só precisa soltar as respostas rápidas.
O segredo é que a Linha Rápida tem prioridade absoluta. Se a Linha Lenta estiver ocupada, ela não pode bloquear a Linha Rápida. É como ter uma faixa exclusiva para ambulâncias na estrada; mesmo com trânsito, elas passam.

2. O Orçamento Dinâmico (Scheduling Inteligente)

O gerente do AgentServe não é rígido. Ele olha para o relógio o tempo todo.

Se ele percebe que as respostas rápidas estão demorando (o "batimento cardíaco" do sistema está lento), ele imediatamente tira recursos da Linha Lenta e joga tudo para a Linha Rápida.
Se a Linha Rápida está tranquila, ele permite que a Linha Lenta use mais espaço para terminar os manuais.
Isso é como um semáforo inteligente que muda de cor instantaneamente dependendo do fluxo de carros, garantindo que ninguém fique preso no vermelho para sempre.

3. As "Cadeiras Verdes" (CUDA Green Contexts)

Aqui entra a parte técnica, mas a analogia é simples. Normalmente, quando você troca de tarefa no computador, é como se você tivesse que limpar toda a mesa e sentar em uma cadeira nova, o que demora.
O AgentServe usa uma tecnologia chamada CUDA Green Contexts. Imagine que o gerente já preparou 10 cadeiras específicas na cozinha antes mesmo de começar o serviço:

Uma cadeira pequena para tarefas leves.
Uma cadeira média.
Uma cadeira gigante para tarefas pesadas.
Quando o sistema precisa mudar a prioridade, ele apenas pega o cozinheiro e o senta na cadeira certa instantaneamente. Não há tempo perdido limpando a mesa. Isso permite que o sistema mude de foco em microssegundos, algo que sistemas antigos não conseguiam fazer sem travar.

O Resultado na Prática

O paper testou isso em placas de vídeo comuns (como as que você pode comprar para jogos) rodando vários agentes ao mesmo tempo.

Sem o AgentServe: O sistema fica lento, as respostas demoram para começar (o primeiro token demora) e as respostas subsequentes ficam com "gagueira" (atrasos entre as palavras).
Com o AgentServe:
- A primeira resposta chega 2,8 vezes mais rápido.
- A fluidez das palavras seguintes melhora 2,7 vezes.
- O sistema consegue lidar com mais agentes sem "engasgar".

Resumo Final

O AgentServe é como transformar uma cozinha caótica, onde o chef fica preso lendo um livro enquanto os clientes gritam por comida, em uma operação de alta eficiência. Ele garante que, mesmo que o chef precise ler um livro longo, ele nunca deixe de atender o cliente que está esperando apenas um "sim" ou "não" rápido.

Ele faz isso separando as tarefas pesadas das leves, protegendo as tarefas urgentes e trocando de "cadeira" na cozinha instantaneamente, tudo isso sem precisar de supercomputadores caros, apenas usando a placa de vídeo que você já tem em casa.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: AgentServe

1. O Problema

O artigo aborda os desafios de servir Agentes de IA (que operam em loops curtos de raciocínio-ação, alternando entre computação do modelo e chamadas externas) em GPUs de nível de consumidor (single-GPU). Diferente dos chatbots tradicionais, que geram longos textos de uma só vez, os agentes possuem um padrão de carga de trabalho assimétrico e intermitente:

Prefill Frio (Cold Prefill): Processa prompts longos do sistema (ex: especificações de ferramentas), consumindo intensamente recursos de computação e memória.
Prefill de Retomada (Resume Prefill): Adiciona saídas de ferramentas ao contexto cacheado.
Decodificação Curta (Short Decode): Gera respostas muito curtas (ex: chamadas de função, tokens de roteamento) que são críticas para a latência.

O Desafio Principal: Quando múltiplos agentes compartilham uma única GPU, os longos prefills monopolizam os recursos (SMs - Streaming Multiprocessors) e a largura de banda de memória, causando bloqueio de cabeça de fila (Head-of-Line Blocking). Isso atrasa as fases de decodificação, que são sensíveis à latência. Como os agentes dependem de uma emissão regular de tokens para prosseguir para a próxima ação, qualquer atraso na decodificação interrompe o fluxo do agente, aumentando drasticamente a latência total da tarefa. Sistemas existentes (como vLLM, SGLang) foram otimizados para chatbots ou ambientes distribuídos e não lidam bem com essa mistura específica em um único dispositivo.

2. Metodologia: Co-Design Algoritmo-Sistema

O AgentServe é um sistema de inferência projetado especificamente para este cenário, utilizando uma abordagem de co-design que integra algoritmos de agendamento e mecanismos de sistema de baixo nível.

A. Arquitetura do Sistema (Camadas)

Camada de Aplicação: Recebe requisições de frameworks de agentes (ex: LangChain, AutoGen).
Camada de Orquestração (CPU): Gerencia filas de requisições e executa o agendamento. Separa requisições em filas dedicadas para Cold Prefill, Resume Prefill e Decode.
Camada de Execução (GPU): Enforce a isolamento de recursos. Utiliza CUDA Green Contexts (recursos introduzidos recentemente no CUDA) para particionar fisicamente os SMs da GPU entre as threads de prefill e decode sem a necessidade de transferências de dados entre processos (overhead de IPC).

B. Algoritmo de Agendamento Sensível a Recursos
O sistema utiliza um controlador de feedback baseado no TPOT (Time Per Output Token):

Classificação de Fase: Identifica se a requisição é um prefill frio, de retomada ou uma etapa de decodificação.
Orçamento Dinâmico: Define um limite de tokens para resume prefills que podem ser executados simultaneamente com a decodificação.
Proteção de Decodificação: Reserva um número mínimo de SMs ( $R_{min}$ ) exclusivamente para a thread de decodificação.
Ajuste Adaptativo: Se o TPOT aumentar (indicando atraso na emissão de tokens), o sistema reduz o orçamento de prefill e aumenta a reserva de SMs para decodificação. Se a latência estiver baixa, libera mais recursos para prefills.

C. Isolamento via CUDA Green Contexts
Em vez de usar contextos CUDA padrão (que compartilham a GPU de forma temporal), o AgentServe pré-estabelece múltiplos "Green Contexts" com diferentes alocações de SMs (de 10% a 100%). Durante a execução, as threads de prefill e decode são reatreladas dinamicamente a esses contextos pré-existentes. Isso garante isolamento espacial (uma tarefa não pode esmagar a outra) com um custo de troca de contexto inferior a 50 microssegundos.

3. Principais Contribuições

Novo Paradigma de Carga de Trabalho: Identificação e modelagem da assimetria específica de agentes (prefills longos vs. decodificações curtas e críticas) que causa bloqueio em GPUs únicas.
Algoritmo de Agendamento com Análise de Razão Competitiva: Proposição de um algoritmo que isola prefills e protege decodificações, com uma análise teórica que prova que o sistema mantém uma fração constante do throughput ótimo, mesmo sob restrições de SLO (Service Level Objective) de latência.
Mecanismo de Sistema de Baixo Overhead: Implementação de isolamento de recursos em um único motor (single-engine) usando CUDA Green Contexts e memória compartilhada, evitando a sobrecarga de transferência de KV Cache típica de soluções de PD (Prefill-Decode) desagregadas em múltiplas GPUs.
Sistema AgentServe: A implementação completa que otimiza conjuntamente o agendamento e o controle de recursos para agentes locais em GPUs de consumo.

4. Resultados Experimentais

O sistema foi avaliado em GPUs de nível de consumidor (NVIDIA RTX A5000 e RTX 5090) com modelos como Qwen2.5 (3B, 7B) e LLaMA-3-8B, comparado a baselines como vLLM, SGLang e llama.cpp.

Latência (TTFT - Time To First Token): O AgentServe reduziu a latência de primeira resposta em até 2.8x em comparação com os melhores baselines, especialmente em cenários de alta concorrência e prompts longos.
Estabilidade (TPOT - Time Per Output Token): Melhorou a estabilidade da emissão de tokens em até 2.7x, eliminando os picos de latência que quebram o ritmo dos agentes.
Throughput: Mantém um throughput competitivo (1.2x a 1.5x melhor que vLLM em alta concorrência), provando que a proteção de latência não sacrifica drasticamente a eficiência global.
Taxa de Atendimento de SLO: O AgentServe atingiu taxas de sucesso próximas a 100% em cenários onde os baselines falhavam rapidamente ao aumentar o número de agentes concorrentes.
Estudo Ablativo: A remoção do agendamento dinâmico ou do isolamento via Green Contexts degradou significativamente o desempenho, confirmando que ambas as partes (algoritmo e sistema) são essenciais.

5. Significado e Impacto

O trabalho é significativo porque:

Viabiliza Agentes Locais: Permite a execução estável e eficiente de agentes de IA em hardware de consumo (desktops, robôs, veículos), atendendo a requisitos de privacidade e custo, sem depender de nuvem.
Muda o Foco de Otimização: Demonstra que para agentes, a otimização não deve ser apenas para throughput total (como em chatbots), mas sim para a regularidade da emissão de tokens e isolamento de fases críticas.
Solução Prática para Hardware Único: Oferece uma solução viável para o problema de contenção de recursos em uma única GPU, evitando a complexidade e o custo de soluções de cluster distribuído para cenários de borda.

Em resumo, o AgentServe resolve o gargalo de latência em agentes de IA locais através de um design inovador que separa fisicamente e logicamente as fases computacionalmente intensivas das fases sensíveis à latência, garantindo uma experiência interativa fluida mesmo sob alta concorrência.