Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Questo studio presenta una valutazione trasversale dell'inferenza di LLM su GPU AMD Instinct MI325X, dimostrando che l'ottimizzazione consapevole dell'architettura è fondamentale per massimizzare il throughput e la stabilità, evidenziando come modelli MoE+MLA e GQA richiedano configurazioni specifiche del runtime AITER e blocchi di cache diversi per raggiungere prestazioni competitive.

Athos Georgiou

Pubblicato Thu, 12 Ma
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

🚀 Il Grande Esperimento: Come far correre i Giganti dell'IA su macchine AMD

Immagina di dover organizzare una gara di corsa per quattro veicoli molto diversi:

  1. Un camioncino pesante (Llama-3.1-405B): Ha un motore enorme e potente, ma è tutto "denso" e pesante.
  2. Un elicottero veloce (DeepSeek V3.2): Ha un motore piccolo ma intelligente che cambia le pale al volo (architettura MoE+MLA).
  3. Un motore ibrido compatto (Qwen3-VL-235B): Un mix intelligente che usa solo la parte necessaria del motore e sa anche "vedere" le immagini.
  4. Un mostro da un trilione di ingranaggi (Kimi-K2.5): Il più grande di tutti, ma che ne usa solo una piccola parte alla volta.

L'obiettivo? Farli correre il più velocemente possibile su una nuova pista costruita da AMD (le loro schede grafiche MI325X), usando un sistema di gestione del traffico chiamato vLLM.

Ecco cosa hanno scoperto i ricercatori, spiegato con delle metafore quotidiane.

1. Non esiste una "chiave universale" (L'importanza dell'Architettura)

Prima di questa ricerca, molti pensavano che si potesse usare lo stesso set di istruzioni per far correre tutti i veicoli. Falso.

  • L'analogia: Immagina di dover parcheggiare un camioncino e un'auto sportiva nello stesso garage. Se usi le stesse regole per entrambi, il camioncino si schianterebbe o l'auto non entrerebbe.
  • La scoperta: I modelli che usano una tecnologia chiamata MLA (come DeepSeek e Kimi) sono come auto sportive che hanno bisogno di un parcheggio speciale: devono usare "blocchi" di memoria molto piccoli (dimensione 1) e non possono scaricare i bagagli su un camioncino esterno (non possono usare la memoria del computer per espandersi).
  • I modelli GQA (come Llama e Qwen), invece, sono come camioncini robusti: possono usare blocchi di memoria più grandi e, se il garage è pieno, possono scaricare i bagagli sul camioncino esterno per fare più spazio.
  • Conclusione: Devi conoscere il "tipo di veicolo" (l'architettura) per impostare le regole del traffico correttamente. Se sbagli, il sistema si blocca o va lentissimo.

2. Il "Motore Magico" (AITER)

AMD ha un software speciale chiamato AITER che funziona come un turbo per i motori.

  • Per i modelli "intelligenti" (MLA): Il turbo è obbligatorio. Senza di esso, l'elicottero (DeepSeek) volerebbe a passo d'uomo. Con il turbo, diventa un jet.
  • Per i modelli "classici" (GQA): Il turbo aiuta un po' (magari del 3-5%), ma non è fondamentale. Anzi, a volte il turbo rende il viaggio un po' più "tremolante" (meno stabile nelle misurazioni).
  • Il caso Kimi: Il mostro da un trilione di ingranaggi (Kimi-K2.5) è così speciale che il turbo AMD attuale non gli si adatta (è come mettere un motore di Formula 1 su un trattore). Quindi, per lui, il turbo va spento completamente, altrimenti si rompe.

3. Il vero collo di bottiglia: La "Strada", non il "Motore"

Uno dei risultati più sorprendenti è che, una volta che tutti i veicoli sono in pista, nessuno corre più veloce di una certa velocità, indipendentemente da quanto è potente il motore.

  • L'analogia: Immagina una strada a un solo senso di marcia molto larga. Anche se hai un'auto da 500 cavalli, se la strada è piena di auto, non puoi andare più veloce di quanto permetta il traffico.
  • La scoperta: Il limite non è la potenza di calcolo (i cavalli del motore), ma la larghezza della strada (la memoria). Quando ci sono troppe richieste contemporanee (circa 500 utenti), la strada si intasa e la velocità si stabilizza. Aggiungere più utenti dopo quel punto non aumenta la velocità, fa solo aspettare di più.
  • Questo vale per tutti e quattro i modelli, anche se uno è piccolo e l'altro è enorme.

4. Chi vince la gara? (I Risultati)

  • Il vincitore assoluto (in termini di velocità totale): Qwen3-VL. È un modello che "vede" le immagini. Ha vinto perché usa pochissimi ingranaggi attivi (22 miliardi su 235 totali) e sa usare bene la strada. Ha raggiunto una velocità incredibile: quasi 48.000 parole al secondo (inclusi i pixel delle immagini).
  • Il duello tra i giganti: Llama (il camioncino pesante) e DeepSeek (l'elicottero intelligente) hanno corso quasi alla stessa velocità, anche se DeepSeek usa 10 volte meno "ingranaggi attivi". Questo dimostra che l'intelligenza artificiale moderna non ha bisogno di essere "pesante" per essere veloce, se è ben architettata.
  • Il mostro Kimi: Nonostante sia il più grande (1 trilione di parametri), è stato messo in gara con solo metà delle ruote (4 GPU invece di 8) e senza turbo. Ha comunque funzionato perfettamente, gestendo 1.000 utenti contemporaneamente senza crashare. È una prova che i computer AMD possono gestire i modelli più grandi del mondo.

5. La stabilità è tutto

In una gara di 17.000 richieste, nessuna è fallita. Tutti gli utenti hanno ricevuto una risposta corretta. Questo è fondamentale per le aziende: non importa quanto è veloce il sistema se si blocca ogni due per tre. Qui, il sistema è stato solido come una roccia.

🏁 In Sintesi: Cosa ci insegna questo studio?

  1. Non esiste una soluzione unica: Non puoi usare le stesse impostazioni per tutti i modelli di IA. Devi adattarle come un sarto che cuce un abito su misura.
  2. La strada è più importante del motore: Per far correre l'IA velocemente, serve una "strada" (memoria) larga e veloce, non solo un motore potente.
  3. AMD è pronto: Le macchine AMD MI325X sono perfettamente in grado di gestire i modelli più grandi e complessi del mondo, anche se richiedono un po' di "manutenzione" specifica per ogni tipo di modello.
  4. L'efficienza conta: I modelli che usano solo una parte dei loro "cervelli" alla volta (architettura MoE) sono spesso più efficienti e veloci di quelli che usano tutto il cervello ogni volta.

In parole povere: L'IA del futuro non sarà solo più grande, sarà più intelligente nel modo in cui usa le risorse, e le macchine AMD sono pronte a ospitarla, a patto di sapere come guidarle.