SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un ristorante molto affollato che serve diversi tipi di cucina: italiana, giapponese, messicana e cinese.

Il Problema: Il Ristorante "Scomodo"

Attualmente, i grandi modelli di intelligenza artificiale (LLM) funzionano come ristoranti dove ogni cucina ha il suo cuoco dedicato e la sua dispensa privata.

Fase di Preparazione (Prefill): Quando un cliente ordina, il cuoco legge la ricetta (il prompt) e prepara gli ingredienti. Questa fase è veloce e richiede molta forza bruta (calcolo).
Fase di Servizio (Decode): Poi il cuoco deve servire i piatti uno per uno, molto lentamente, controllando ogni singolo ingrediente (generazione dei token). Questa fase è lenta e richiede molta memoria (la dispensa).

Il problema: Se hai 100 clienti che vogliono la cucina giapponese e solo 2 che vogliono quella messicana, i cuochi giapponesi sono esausti e in fila, mentre i cuochi messicani stanno annoiati a guardare il muro. Non possono aiutarsi a vicenda perché ogni cuoco è "bloccato" sulla sua ricetta specifica. Inoltre, la fase di servizio (che è lenta) occupa spazio prezioso nella cucina, lasciando molti forni (GPU) inutilizzati.

La Soluzione: SUN (L'Intelligenza Condivisa)

Gli autori di questo paper, SUN (Shared Use of Next-token Prediction), hanno avuto un'idea geniale: "Perché ogni cucina deve avere il proprio cuoco esperto per la fase di servizio?"

Hanno diviso il lavoro in due parti:

Il Preparatore Specializzato (Prefill): Questo è il cuoco che conosce la ricetta specifica (matematica, codice, diritto). Ogni modello ha il suo preparatore unico.
Il Cameriere Universale (Decode): Questo è il cuore dell'idea. Invece di avere un cuoco diverso per ogni ricetta, tutti i preparatori specializzati consegnano i loro ingredienti a un unico, grandissimo Cameriere Universale che sa servire qualsiasi piatto, una volta che gli ingredienti sono pronti.

Come funziona magicamente?
Invece di addestrare un intero nuovo cuoco per ogni ricetta (che costa tantissimo), SUN addestra solo il "Preparatore" (la parte iniziale) per ogni compito specifico. Il "Cameriere Universale" (la parte finale) rimane congelato (fisso) e uguale per tutti.

Il Preparatore Matematico impara a preparare gli ingredienti in modo che il Cameriere Universale capisca perfettamente cosa fare.
Il Preparatore di Codice fa lo stesso.
Risultato? Tutti i clienti, indipendentemente da cosa ordinano, vengono serviti dallo stesso gruppo di camerieri super-efficienti.

I Vantaggi Reali

Risparmio di Spazio (GPU): Non servono più 4 cuochi per 4 cucine diverse. Con SUN, puoi ridurre il numero di camerieri (GPU) del 50% mantenendo lo stesso ritmo di servizio. È come se il ristorante potesse servire lo stesso numero di clienti con metà dello staff, perché nessuno sta fermo.
Velocità: Se un cliente arriva per la cucina giapponese mentre quella messicana è vuota, il Cameriere Universale può servire il cliente giapponese immediatamente, senza aspettare che un cuoco specifico si liberi.
Qualità: Nonostante condividano lo stesso cameriere, il cibo (la risposta dell'AI) è buono quanto se avessero un cuoco dedicato. L'addestramento intelligente del "Preparatore" garantisce che gli ingredienti siano perfetti per il Cameriere.

La Versione "Super Veloce": QSUN

Gli autori hanno anche creato una versione chiamata QSUN. Immagina che il Cameriere Universale indossi degli occhiali speciali (quantizzazione) che gli permettono di muoversi ancora più velocemente, anche se vede il mondo in "4 bit" invece che in alta definizione.

Di solito, quando si usano occhiali speciali, si perde un po' di qualità.
Ma con QSUN, il "Preparatore" si allena di nuovo un po' per adattarsi agli occhiali del cameriere.
Risultato: Il servizio è 45% più veloce e la qualità del cibo rimane quasi identica a quella originale.

In Sintesi

SUN è come trasformare un ristorante con tante cucine isolate e cuochi annoiati in un grande hub centrale dove:

Ogni specialista prepara gli ingredienti (Prefill).
Un unico team di camerieri super-organizzati serve tutti i piatti (Decode).
Si risparmia energia, si serve più velocemente e si gestiscono meglio le ore di punta (quando molti clienti chiedono la stessa cosa).

È un modo intelligente per far lavorare insieme l'intelligenza artificiale, rendendola più economica e veloce per tutti noi.

SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

Il Problema: Il Ristorante "Scomodo"

La Soluzione: SUN (L'Intelligenza Condivisa)

I Vantaggi Reali

La Versione "Super Veloce": QSUN

In Sintesi

1. Il Problema: Isolamento Inter-Modelli nel Serving Disaggregato

2. Metodologia: SUN (Shared Use of Next-token Prediction)

A. Decomposizione Prefill-Decode

B. Tuning Solo del Prefill (Prefill-Only Tuning)

C. Routing Agnostico al Modello

D. QSUN (Quantized SUN)

3. Risultati Sperimentali

4. Contributi Chiave

5. Significato e Impatto

SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

Il Problema: Il Ristorante "Scomodo"

La Soluzione: SUN (L'Intelligenza Condivisa)

I Vantaggi Reali

La Versione "Super Veloce": QSUN

In Sintesi

1. Il Problema: Isolamento Inter-Modelli nel Serving Disaggregato

2. Metodologia: SUN (Shared Use of Next-token Prediction)

A. Decomposizione Prefill-Decode

B. Tuning Solo del Prefill (Prefill-Only Tuning)

C. Routing Agnostico al Modello

D. QSUN (Quantized SUN)

3. Risultati Sperimentali

4. Contributi Chiave

5. Significato e Impatto

Articoli simili

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems