Token Management in Multi-Tenant AI Inference Platforms

Este artigo apresenta os "token pools", uma abstração de plano de controle para plataformas de inferência de IA multi-tenant que gerencia a capacidade como direitos expressos em unidades nativas de inferência, permitindo um equilíbrio dinâmico entre utilização de recursos e garantias de nível de serviço através de alocação prioritária e mecanismos de justiça baseados em dívida, sem modificar o runtime subjacente.

William J. Cunningham

Publicado 2026-03-03
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um restaurante de luxo (a plataforma de IA) que serve milhões de pratos diferentes (os pedidos de IA) para milhares de clientes ao mesmo tempo.

O problema é que a cozinha (os servidores de GPU) é limitada. Se todos os clientes pedirem pratos gigantes ao mesmo tempo, a cozinha entra em colapso, a comida demora horas para sair e ninguém fica feliz.

Até hoje, os restaurantes tentavam resolver isso de duas formas ruins:

  1. Mesas Reservadas (Endpoints Dedicados): Cada cliente tinha sua própria mesa e chef. Se o cliente não pedisse nada, a mesa ficava vazia e o chef parado, desperdiçando espaço.
  2. Limite de Pedidos por Minuto (Rate Limits): O garçom dizia: "Você só pode pedir 10 pratos por minuto". Mas isso não funcionava bem, porque um "prato pequeno" (uma pergunta curta) gasta pouca energia da cozinha, enquanto um "banquete" (uma pergunta longa e complexa) gasta a energia de dez pratos pequenos. O limite de "10 pedidos" não levava em conta o tamanho real do trabalho.

O artigo que você enviou apresenta uma solução inteligente chamada "Pools de Tokens" (ou "Piscinas de Tokens"). Vamos usar uma analogia para entender como funciona:

A Analogia do "Crédito de Energia"

Em vez de contar apenas "quantos pedidos" você faz, o sistema agora conta quanto "combustível" (tokens) cada pedido vai gastar na cozinha.

Imagine que a cozinha tem um tanque de combustível limitado. O sistema de "Pools de Tokens" funciona como um gerente de energia inteligente que distribui esse combustível antes mesmo de você entrar na cozinha.

1. As Três Regras do Gerente (Os Recursos)

O gerente olha para três coisas antes de deixar um pedido entrar:

  • Velocidade (Tokens por segundo): Quão rápido você quer que a comida saia?
  • Espaço na Geladeira (KV Cache): Quanta memória a receita precisa para ser preparada? (Alguns pratos exigem geladeiras gigantes).
  • Número de Cozinheiros (Concorrência): Quantos pratos podem ser feitos ao mesmo tempo na mesma panela?

2. Os Tipos de Clientes (Classes de Serviço)

O sistema trata os clientes de forma diferente, dependendo do que eles pagaram ou da importância do pedido:

  • Clientes VIP (Dedicados/Garantidos): Eles têm uma mesa reservada. Mesmo que a cozinha esteja cheia, o pedido deles nunca é cancelado. Eles têm prioridade absoluta.
  • Clientes Flexíveis (Elasticos): Eles têm um limite de consumo, mas podem pedir mais se sobrar espaço. Se a cozinha ficar cheia, eles podem ter que esperar um pouco, mas o sistema garante que, se eles esperaram muito, receberão um "cupom de desconto" (crédito) para serem atendidos mais rápido depois.
  • Clientes de Oportunidade (Spot/Preemptíveis): Eles só podem comer se sobrar comida. Se a cozinha ficar cheia, o pedido deles é cancelado imediatamente para dar lugar aos VIPs. É como comer sobras de buffet: se sobrar, ótimo; se não, você fica sem.

3. O Sistema de "Dívida" (Debt Mechanism)

Esta é a parte mais brilhante da ideia.
Imagine que o cliente "Flexível" teve que esperar muito porque a cozinha estava cheia. O sistema anota isso como uma dívida.

  • Quando a cozinha esvazia um pouco, o sistema olha para as "dívidas".
  • Quem deve mais (quem esperou mais) ganha prioridade para ser atendido primeiro, mesmo que não seja um VIP.
  • Isso garante que ninguém fique esperando para sempre. É como um sistema de justiça que diz: "Você sofreu muito ontem, hoje você passa na frente".

O Que Acontece na Prática?

O artigo fez dois testes em um laboratório (um pequeno servidor de IA):

  1. Teste de Proteção: Um cliente "barulhento" (com muitos pedidos baratos) tentou inundar o sistema.

    • Sem o novo sistema: Todos os clientes, inclusive os VIPs, ficaram com a comida demorando horas.
    • Com o novo sistema: O gerente bloqueou os pedidos baratos imediatamente. Os VIPs continuaram recebendo comida rápida (menos de 1,2 segundos), e os pedidos baratos foram rejeitados educadamente, pedindo para tentarem mais tarde.
  2. Teste de Justiça: Dois clientes flexíveis competiam por espaço. Um queria a comida agora (urgente), o outro podia esperar (não urgente).

    • O sistema deu prioridade ao urgente.
    • Mas, como o "não urgente" ficou esperando, ele acumulou "dívida".
    • Com o tempo, a dívida dele aumentou tanto que ele começou a ganhar prioridade sobre o urgente, garantindo que ele não fosse esquecido.

Resumo Simples

O artigo propõe mudar a forma como controlamos o acesso à Inteligência Artificial. Em vez de apenas dizer "pare de pedir", o sistema agora diz: "Quanto esse pedido vai custar de energia e quem tem direito a essa energia agora?".

É como ter um semáforo inteligente que não apenas fecha a rua para todos, mas decide quem passa com base no tamanho do carro, na urgência da viagem e em quem ficou parado no trânsito ontem. Isso garante que os carros de emergência (serviços críticos) sempre passem, enquanto os carros comuns (serviços flexíveis) compartilham o espaço de forma justa e dinâmica.

Em uma frase: É um sistema de gestão de filas para IA que é justo, rápido e impede que um único usuário "trave" o sistema para todos os outros.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →