Serving Compound Inference Systems on Datacenter GPUs

O artigo apresenta o JigsawServe, um novo framework de inferência que otimiza conjuntamente latência, precisão e custos de recursos em GPUs de datacenter para sistemas compostos, alcançando um aumento de 11,3 vezes na demanda atendida em comparação com trabalhos anteriores ao selecionar adaptativamente variantes de modelos e realizar alocação espacial de recursos.

Sriram Devata, Rahul Singh, Sarita Adve

Publicado Wed, 11 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma cozinha de restaurante muito movimentada (o Data Center) e precisa preparar pratos complexos para milhares de clientes por segundo.

No mundo antigo da Inteligência Artificial, cada prato era feito por um único chef gigante. Mas hoje, os pedidos são mais complexos (como em Realidade Aumentada ou assistentes de IA). Um único pedido não é mais "fazer um hambúrguer"; é um processo em cadeia:

  1. Primeiro, você precisa identificar o que está na foto (um carro?).
  2. Depois, precisa ler a placa desse carro.
  3. Em seguida, precisa verificar se a placa é válida.
  4. Por fim, precisa gerar um áudio explicando o resultado.

Isso é o que o artigo chama de Sistema de Inferência Composto: várias tarefas de IA trabalhando juntas em uma "linha de montagem" para atender um único pedido.

O problema é que as cozinhas (os servidores de GPU) estão cheias, mas mal utilizadas. Alguns chefs estão trabalhando muito, outros estão apenas olhando para as paredes, e a cozinha inteira fica lenta.

Aqui entra o JIGSAWSERVE (o herói da história). O nome vem de "quebra-cabeça" (jigsaw), porque ele é especialista em encaixar peças pequenas de forma perfeita.

Como o JIGSAWSERVE funciona? (A Analogia do Quebra-Cabeça)

O JIGSAWSERVE resolve três problemas principais usando uma abordagem inteligente:

1. Escolhendo o Chef Certo para a Tarefa (Escalonamento de Precisão)

Nem toda tarefa precisa de um chef Michelin.

  • O Problema: Se você só precisa saber se há um carro na foto, não precisa usar o modelo de IA mais pesado e lento do mundo. Um modelo "leve" e rápido funciona bem e gasta menos energia.
  • A Solução do JIGSAWSERVE: Ele olha para cada etapa da linha de montagem. Para as etapas críticas, ele usa chefs de elite (modelos precisos). Para as etapas menos importantes, ele usa ajudantes rápidos (modelos menores). Ele ajusta a "qualidade" de cada passo para que o prato final fique bom, mas sem desperdiçar tempo e energia.

2. Dividindo a Cozinha em Pequenos Espaços (Particionamento Espacial)

  • O Problema: Antigamente, se um modelo de IA precisava de uma GPU (o "forno" da cozinha), ele tomava o forno inteiro, mesmo que fosse pequeno. Se você tivesse 4 fornos, mas só precisasse de 1/4 de cada um para 4 tarefas pequenas, você ficaria com 3 fornos vazios e 1 lotado.
  • A Solução do JIGSAWSERVE: Ele usa uma tecnologia moderna (como o MIG da NVIDIA) que permite dividir um único forno grande em 7 fornos pequenos e isolados.
    • Imagine que você tem uma pizza gigante. Em vez de dar a pizza inteira para uma pessoa, você a corta em fatias. O JIGSAWSERVE corta a GPU em fatias e dá uma fatia para cada tarefa pequena. Assim, várias tarefas rodam ao mesmo tempo no mesmo hardware, sem se atrapalhar.

3. O Gerente que Vê o Mapa Completo (Orçamento Informado pelo Gráfico)

  • O Problema: Muitos sistemas olham apenas para uma tarefa de cada vez. Eles dizem: "Esta tarefa precisa de 10 minutos". Mas não sabem que, se essa tarefa atrasar 1 segundo, ela vai atrasar a próxima tarefa em 10 segundos, quebrando o prazo total.
  • A Solução do JIGSAWSERVE: Ele olha para o mapa inteiro (o gráfico de tarefas). Ele sabe que a etapa 1 é rápida, então pode gastar mais tempo na etapa 2. Ele distribui o "orçamento de tempo" e o "orçamento de energia" de forma inteligente ao longo de toda a cadeia, garantindo que o prato saia na hora certa.

O Resultado Mágico

O artigo mostra que, ao combinar essas três estratégias (escolher modelos leves, dividir a GPU em fatias e gerenciar o tempo global), o JIGSAWSERVE consegue:

  • Atender 11,3 vezes mais pedidos do que os sistemas anteriores mais próximos, usando o mesmo número de GPUs.
  • Usar apenas 43% da capacidade das GPUs disponíveis para fazer o mesmo trabalho que outros sistemas fazem com 100% de esforço.
  • Manter a qualidade (precisão) e o tempo de resposta (latência) dentro das regras, quase nunca falhando.

Resumo em uma frase

O JIGSAWSERVE é como um gerente de cozinha genial que, em vez de usar um forno gigante para fazer um sanduíche, divide o forno em 7 partes, contrata ajudantes rápidos para tarefas simples e organiza a linha de montagem para que 11 vezes mais clientes sejam atendidos ao mesmo tempo, sem que o prato chegue frio ou errado.

Isso significa que as empresas podem rodar mais inteligências artificiais complexas gastando menos energia e dinheiro, tornando a tecnologia mais acessível e eficiente para todos.