Hardware-Software Co-design for 3D-DRAM-based LLM Serving Accelerator

Il paper presenta Helios, un acceleratore hardware-software basato su DRAM 3D e bonding ibrido che, attraverso una gestione dinamica della cache KV e un'esecuzione distribuita dell'attenzione, supera le limitazioni delle architetture NMP esistenti per offrire un servizio LLM più veloce ed energeticamente efficiente.

Cong Li, Yihan Yin, Chenhao Xue, Zhao Wang, Fujun Bai, Yixin Guo, Xiping Jiang, Qiang Wu, Yuan Xie, Guangyu Sun

Pubblicato 2026-03-06
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover gestire un gigantesco ristorante di intelligenza artificiale, dove i clienti (le persone che chiedono risposte a un chatbot) arrivano in modo imprevedibile: a volte sono pochi e ordinano piatti semplici, altre volte sono una folla che richiede ricette lunghissime e complesse.

Questo è il problema che affronta la ricerca "Helios", presentata da un team di ricercatori (tra cui l'Università di Pechino e HKUST). Ecco come funziona, spiegato in modo semplice.

1. Il Problema: Il Collo di Bottiglia della Memoria

Oggi, i modelli linguistici (come quelli che usi per scrivere email o creare storie) hanno due fasi:

  • La fase di "pensiero" (Prefill): Analizzano la tua domanda. È veloce e richiede molta potenza di calcolo.
  • La fase di "risposta" (Decoding): Scrivono la risposta parola per parola. Qui il problema è la memoria. Per scrivere ogni nuova parola, il modello deve "ricordare" tutto ciò che ha scritto prima. Questo ricordo si chiama KV Cache.

I computer attuali (come le GPU) sono bravissimi a calcolare, ma lenti a recuperare queste memorie. È come avere un cuoco velocissimo che però deve correre in un magazzino enorme e disordinato ogni volta che gli serve un ingrediente. Inoltre, i clienti arrivano in modo caotico: alcuni ordinano un panino (richiesta breve), altri un banchetto (richiesta lunga). I sistemi attuali sono rigidi: assegnano un "ripiano" fisso del magazzino a ogni cliente. Se il cliente finisce il panino, il ripiano rimane vuoto ma bloccato. Se il cliente vuole un banchetto, non c'è spazio e deve aspettare. Questo spreca spazio e tempo.

2. La Soluzione: Helios, il "Cucina-Magazzino" Intelligente

Gli autori propongono Helios, un nuovo acceleratore basato su una tecnologia chiamata Hybrid Bonding (unione ibrida).

Immagina Helios non come un cuoco e un magazzino separati, ma come una cucina dove i fornelli (i processori) sono costruiti direttamente sopra gli scaffali dei ripiani (la memoria). Non devi più correre avanti e indietro; l'ingrediente è già sotto il tuo dito.

Ma la vera magia non è solo la vicinanza, è come gestiscono gli ingredienti:

  • Il vecchio metodo (Rigido): Assegnavano un intero scaffale a un cliente, anche se il cliente ne usava solo un angolo. Se arrivava un altro cliente, lo scaffale era "pieno" anche se c'era spazio, perché era tutto bloccato.
  • Il metodo Helios (Flessibile): Usano un sistema a blocchi. Immagina che il magazzino sia fatto di mattoncini LEGO. Se un cliente ha una richiesta breve, Helios gli dà solo 2 mattoncini. Se un cliente ha una richiesta lunga, gli dà 100 mattoncini, sparsi ovunque nel magazzino, non tutti in un unico posto.
    • Vantaggio: Non c'è più spazio sprecato. Il magazzino è sempre pieno al 100% della sua capacità utile.
    • Vantaggio: Se un cliente finisce e lascia i mattoncini, questi tornano subito disponibili per il prossimo.

3. Come Collaborano i "Cuochi" (I Processori)

Helios ha molti piccoli cuochi (chiamati Processing Engines o PE) che lavorano insieme.
Invece di far lavorare ogni cuoco su un compito intero e isolato, Helios divide il lavoro in modo intelligente:

  • Se devi scrivere una frase lunga, la dividete in pezzi. Ogni cuoco scrive una parte, poi si passano i pezzi di carta (i dati) velocemente l'uno all'altro.
  • Usano una mappa intelligente per decidere quale cuoco prende quale pezzo di memoria. Non scelgono a caso, ma guardano chi è più vicino e chi ha meno lavoro, per evitare che un cuoco resti fermo mentre un altro è sommerso di lavoro.

4. I Risultati: Più Veloce ed Efficiente

Grazie a questo approccio "co-progettato" (dove hardware e software sono pensati insieme fin dal primo giorno), Helios ottiene risultati straordinari:

  • Velocità: È circa 3,25 volte più veloce dei sistemi attuali (come le GPU Nvidia) quando gestisce molte richieste contemporaneamente.
  • Risparmio Energetico: Consuma 3,36 volte meno energia per fare lo stesso lavoro.
  • Tempi di Attesa: Riduce drasticamente il tempo tra una parola e l'altra (anche del 72-76%), rendendo la conversazione molto più fluida per l'utente.

In Sintesi

Pensa a Helios come alla differenza tra un vecchio magazzino con scaffali fissi e un magazzino moderno automatizzato con robot che spostano le scatole dove servono.
Mentre i computer attuali si bloccano perché cercano di adattarsi a un sistema rigido, Helios è fluido: si adatta alla forma della richiesta, riempiendo ogni singolo centimetro di spazio disponibile e facendo lavorare tutti i processori in perfetta armonia. È un passo avanti fondamentale per rendere le intelligenze artificiali più veloci, economiche e capaci di gestire milioni di utenti contemporaneamente.