Token Management in Multi-Tenant AI Inference Platforms

Il paper propone "token pools", un'astrazione di controllo che gestisce la capacità di inferenza AI in ambienti multi-tenant tramite unità native (token, cache KV, concorrenza) per garantire prestazioni e utilizzo delle risorse superiori rispetto ai tradizionali limiti di velocità, permettendo allo stesso tempo un'allocazione dinamica e equa del carico.

William J. Cunningham

Pubblicato 2026-03-03
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere il direttore di un ristorante molto esclusivo e affollato, dove i cuochi (le intelligenze artificiali) preparano piatti complessi su richiesta.

Il problema di questo ristorante è che non tutti i clienti sono uguali:

  1. Alcuni sono VIP che hanno prenotato un tavolo e vogliono il servizio perfetto, anche se c'è la folla.
  2. Altri sono clienti "spot" (come chi entra senza prenotazione) che accettano di aspettare o di essere cacciati se il locale è pieno.
  3. Altri ancora sono clienti "elastic" che vogliono mangiare bene, ma se c'è troppa gente, accettano di aspettare un po' di più, purché alla fine vengano serviti equamente.

Il problema attuale dei ristoranti AI (le piattaforme di inferenza) è che usano un sistema di gestione molto stupido:

  • Metodo A (Prenotazione fissa): Assegnano un tavolo e un cuoco a ogni cliente. Se il cliente VIP non mangia, quel cuoco sta fermo a guardare il muro. È uno spreco enorme.
  • Metodo B (Limiti rigidi): Dicono "Ogni cliente può ordinare massimo 5 piatti al minuto". Ma non sanno che ordinare 5 piccoli antipasti richiede meno lavoro che ordinare 1 enorme arrosto. Se un cliente ordina l'arrosto, intasa la cucina e blocca tutti gli altri, anche se ha rispettato il limite dei "5 piatti".

La soluzione proposta in questo articolo si chiama "Token Pools" (Piscine di Gettoni).

L'Analogia della "Piscina di Gettoni"

Immagina che invece di contare i "piatti" o i "clienti", il ristorante abbia una piscina di gettoni speciali che rappresentano l'energia necessaria per cucinare.

  1. I Gettoni sono la valuta reale: Non contano i piatti, ma quanto lavoro richiede il piatto.

    • Un antipasto costa 1 gettone.
    • Un arrosto lungo e complesso costa 50 gettoni.
    • Ogni cliente ha un "portafoglio" (una Entitlement) con un certo numero di gettoni garantiti.
  2. Il Portiere Intelligente (Admission Control):
    Quando un cliente arriva al bancone, il portiere non guarda solo se c'è un tavolo libero. Controlla il portafoglio del cliente:

    • "Hai abbastanza gettoni per questo arrosto?"
    • "Sei un VIP? Allora ti garantisco che i tuoi gettoni verranno usati subito."
    • "Sei un cliente spot? Se la piscina è piena, ti dico gentilmente 'Ritorna più tardi' (errore 429) invece di farti aspettare 20 minuti in fila."

    Il risultato: I VIP non subiscono mai ritardi. I clienti spot vengono cacciati prima di entrare in cucina, così la fila non si crea mai e la cucina lavora sempre al massimo della velocità.

La Magia della "Pensione di Debito" (Debt Mechanism)

C'è un secondo problema: cosa succede se un cliente VIP è stato cacciato o servito male per un po' di tempo?

Il sistema usa una Pensione di Debito:

  • Se un cliente "Elastico" viene servito lentamente perché c'era troppa gente, il sistema gli accumula un debito positivo.
  • Quando la folla si dirada, quel cliente non viene trattato come un normale, ma come un "creditor". Il sistema gli dice: "Scusa per prima, ora che c'è spazio, ti do la priorità per recuperare il tempo perso".
  • Questo crea un equilibrio: nessuno viene lasciato indietro per sempre. Se hai aspettato troppo, il sistema ti ripaga con priorità futura.

Come funziona nella vita reale (senza cambiare la cucina)

Il bello di questo sistema è che non serve ristrutturare la cucina (non serve cambiare i motori delle AI come vLLM o i server).

  • Si aggiunge solo un portiere intelligente all'ingresso (un livello di controllo software).
  • Questo portiere decide chi entra e chi no, basandosi sui gettoni e sulla priorità.
  • Una volta dentro, la cucina fa il suo lavoro come sempre.

I Risultati Sperimentali

Gli autori hanno provato questo sistema in un laboratorio:

  1. Protezione: Quando la folla era enorme, i clienti VIP hanno mantenuto un servizio rapidissimo (meno di 1,2 secondi), mentre senza questo sistema tutti sarebbero rimasti bloccati per 19 secondi.
  2. Equità: Quando la capacità era scarsa, il sistema ha dato priorità a chi aveva bisogno di risposte veloci (come un assistente di coding) rispetto a chi poteva aspettare (come un generatore di report), ma ha assicurato che chi aspettava troppo ricevesse priorità in seguito.

In sintesi

Il paper dice: "Smettete di contare i clienti o i piatti. Contate il lavoro reale (i token) che devono fare. Date a ogni cliente un budget di gettoni. Se la piscina è piena, dite 'no' a chi può aspettare, per proteggere chi non può. E se qualcuno ha aspettato troppo, ripagatelo con la priorità successiva."

È come trasformare un caos di code in un sistema di prenotazioni intelligente, dove ognuno sa esattamente cosa aspettarsi e nessuno spreca tempo o risorse.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →