Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover costruire un'automobile. Fino a poco tempo fa, l'unico modo per farla andare più veloce era semplicemente aggiungere più motore e ingrandire il telaio. Nel mondo dell'Intelligenza Artificiale, questo significa creare modelli sempre più grandi, con più "cervelli" (parametri) e addestrandoli con più libri (dati). Questo ha funzionato benissimo: le macchine sono diventate intelligentissime.

Ma c'è un problema: queste macchine giganti sono diventate estremamente costose e lente da guidare. Immagina di dover pagare un pedaggio enorme ogni volta che vuoi far parlare la tua auto con te. Questo è il problema dell'inferenza (cioè quando il modello risponde alle tue domande).

Gli autori di questo paper (pubblicato alla conferenza ICLR 2026) si sono chiesti: "Non possiamo progettare un'auto che sia sia veloce che intelligente, senza doverla ingrandire all'infinito?"

Ecco la loro soluzione, spiegata in modo semplice:

1. Il Problema: La "Ricetta" Non È Perfetta

Fino ad ora, gli scienziati usavano una "ricetta" chiamata Legge di Scaling (basata su un lavoro famoso chiamato Chinchilla). Questa ricetta diceva: "Se vuoi un modello migliore, raddoppia i dati e raddoppia i parametri".
Ma questa ricetta ignorava un dettaglio fondamentale: la forma dell'auto.
Immagina due auto con lo stesso motore (stesso numero di parametri).

L'Auto A ha un motore potente ma un telaio pesante e aerodinamicamente pessimo.
L'Auto B ha lo stesso motore, ma un telaio leggero e aerodinamico.
L'Auto B andrà molto più veloce e consumerà meno, anche se il motore è identico.
Nel mondo delle AI, la "forma" è l'architettura: quanto spazio diamo alla parte logica (MLP) rispetto alla parte che capisce il contesto (Attenzione), e come organizziamo i "ragionamenti" (GQA).

2. La Scoperta: La Nuova "Bussola"

Gli autori hanno costruito oltre 200 modelli piccoli (dalle dimensioni di un'auto a 4 ruote a un furgoncino) per capire come la "forma" influenzi la velocità e l'intelligenza. Hanno scoperto tre cose fondamentali:

Il rapporto "Cervello vs. Memoria": Non serve dare tutto lo spazio al "cervello" (MLP). A volte, ridimensionare la parte che guarda il contesto (Attenzione) e dare più spazio alla logica rende il modello più veloce senza perdere intelligenza. È come togliere il bagagliaio inutile per alleggerire l'auto.
La dimensione nascosta: Cambiare la "profondità" dei pensieri (hidden size) ha un effetto a "U". Se è troppo piccola, l'auto non vede bene; se è troppo grande, diventa pesante. C'è una via di mezzo perfetta.
Il trucco del "Gruppo" (GQA): Immagina di avere 8 assistenti che leggono un libro. Se ogni assistente deve leggere una pagina diversa, ci mettono una vita. Se invece 8 assistenti leggono la stessa pagina insieme (GQA), finiscono prima. Questo trucco rende l'auto molto più veloce, quasi senza costo aggiuntivo.

3. La Soluzione: La "Legge Condizionale"

Invece di una ricetta fissa, hanno creato una Legge Condizionale. È come avere una mappa GPS intelligente che non ti dice solo "vai avanti", ma ti dice: "Se hai un motore di queste dimensioni, usa questo tipo di telaio e queste ruote per andare alla massima velocità".

Hanno creato un sistema che:

Prende il budget di addestramento (quanto tempo e soldi hai).
Cerca la forma perfetta (architettura) che massimizza la velocità di risposta mantenendo alta l'intelligenza.
Ti dà la ricetta esatta per costruire il modello.

4. I Risultati: La "Super Auto"

Hanno applicato questa nuova ricetta per costruire due nuove "auto" (modelli da 1 miliardo e 3 miliardi di parametri) chiamate Panda e Surefire.
Il confronto con le vecchie "auto" famose (come LLaMA-3.2) è stato schiacciante:

Velocità: Le nuove auto sono fino al 42% più veloci nel rispondere alle domande.
Intelligenza: Sono anche leggermente più intelligenti (circa il 2% in più di precisione).

In Sintesi

Questo paper ci insegna che non serve solo costruire modelli più grandi. Serve costruire modelli più intelligenti nella loro struttura. È come passare da un camioncino lento e ingombrante a una Ferrari: stessa potenza del motore, ma un design che fa la differenza tra un viaggio di 10 ore e uno di 2 ore.

Grazie a questo studio, in futuro potremo avere assistenti AI molto più veloci ed economici, che girano anche su computer più piccoli, senza sacrificare la loro capacità di ragionare.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Nonostante le leggi di scaling (scaling laws) abbiano dimostrato che aumentare i parametri e i dati di addestramento migliora le prestazioni dei Large Language Models (LLM), l'attenzione si è concentrata quasi esclusivamente sulla fase di addestramento. Questo approccio trascura le sfide pratiche del deployment su larga scala, dove il costo dell'inferenza è diventato il fattore dominante.

Le leggi di scaling esistenti (come Chinchilla) ottimizzano l'allocazione delle risorse tra parametri e token di addestramento, ma ignorano l'efficienza inferenziale. Inoltre, studi precedenti che tentavano di includere l'architettura si sono limitati a fattori come il rapporto aspetto (hidden size / numero di layer), fallendo nel catturare l'impatto completo di variabili critiche come:

La dimensione nascosta (hidden size, $d_{model}$ ).
Il rapporto tra parametri MLP e Attention (mlp-to-attention ratio, $r_{mlp/attn}$ ).
L'uso della Grouped-Query Attention (GQA).

Il paper si pone la domanda fondamentale: È possibile catturare esplicitamente il trade-off tra efficienza inferenziale e accuratezza dei LLM?

2. Metodologia

Gli autori propongono un approccio sistematico che combina l'analisi empirica di oltre 200 modelli con una nuova formulazione teorica.

A. Analisi delle Variabili Architetturali

Fissando il numero di layer e il budget totale di parametri non-embedding ( $N_{non-embed}$ ), gli autori hanno studiato l'impatto di:

Hidden Size ( $d_{model}$ ): Modificando il numero di teste di attenzione ( $n_{head}$ ) mantenendo costante la dimensione per testa ( $d_{head}$ ).
Rapporto MLP-to-Attention ( $r_{mlp/attn}$ ): Variando la dimensione intermedia del MLP rispetto ai parametri dell'attention.
GQA (Grouped-Query Attention): Analizzando come il raggruppamento delle chiavi e dei valori influisca sul throughput.

I risultati empirici mostrano che dimensioni nascoste più grandi e rapporti MLP-to-attention più elevati migliorano significativamente il throughput di inferenza (token/s), riducendo i FLOPs totali e il costo I/O del KV cache, senza necessariamente degradare l'accuratezza se calibrati correttamente.

B. Legge di Scaling Condizionale

Per prevedere le prestazioni di diverse architetture, gli autori estendono la legge di scaling di Chinchilla introducendo una legge di scaling condizionale. Invece di cercare una legge unificata complessa, propongono un approccio in due fasi:

Riferimento: Si ottiene la perdita ottima teorica $L_{opt}(N, D)$ dalla legge di Chinchilla standard.
Calibrazione: Si calibra la perdita delle varianti architetturali $L(d/\sqrt{N}, r | N, D)$ rispetto a questo riferimento.

Vengono proposte due formule di calibrazione (moltiplicativa e additiva) che modellano la relazione a "U" osservata tra perdita e le variabili architetturali:
$L(d/\sqrt{N}, r | N, D) = f(d/\sqrt{N}) \cdot g(r) \cdot L_{opt}(N, D)$
Dove le funzioni $f$ e $g$ catturano il comportamento non lineare (ottimo interno) della dimensione nascosta e del rapporto MLP/Attention.

C. Framework di Ricerca

Viene introdotto un algoritmo di ricerca (Algorithm 1) per identificare l'architettura ottimale:

Adattare la legge di scaling su modelli piccoli (80M - 297M parametri).
Risolvere un problema di ottimizzazione vincolata per massimizzare l'efficienza inferenziale ($IN(P)$) mantenendo la perdita di addestramento sotto una soglia accettabile ( $L_t$ ).
Eseguire una ricerca locale sul valore di GQA (poiché la relazione tra GQA e perdita non è continua e prevedibile come per le altre variabili).

3. Risultati Chiave

Il framework è stato validato addestrando modelli fino a 3 miliardi di parametri su 100 miliardi di token.

Validazione Predittiva: La legge di scaling condizionale mostra un'elevata accuratezza predittiva (basso MSE e alta correlazione di Spearman) quando si scala da modelli piccoli (80M-297M) a modelli più grandi (1B e 3B).
Panda-1B e Panda-3B: Modelli addestrati con le configurazioni architetturali ottimali previste dalla legge.
- Panda-1B supera il baseline LLaMA-3.2-1B del 2.1% di accuratezza media su 9 task downstream.
- Panda-3B supera il baseline LLaMA-3.2-3B dello 0.6%.
Modelli "Surefire" (Efficienza Ottimizzata): Utilizzando il framework di ricerca per massimizzare il throughput mantenendo la stessa accuratezza di LLaMA-3.2:
- Surefire-1B e Surefire-3B raggiungono un throughput di inferenza fino al 42% superiore rispetto alle controparti LLaMA-3.2 (su GPU A100 con vLLM).
- I risultati sono coerenti anche su hardware diverso (NVIDIA H200) e con diversi framework di inferenza (SGLang), confermando che i guadagni di efficienza sono trasversali.
Analisi dei FLOPs: L'analisi teorica conferma che aumentare $d_{model}$ e $r_{mlp/attn}$ riduce i FLOPs totali di inferenza, spiegando il miglioramento del throughput.

4. Contributi Principali

Nuova Legge di Scaling Condizionale: Estensione delle leggi di scaling per includere esplicitamente fattori architetturali critici ( $d_{model}$ , $r_{mlp/attn}$ , GQA), permettendo di prevedere non solo la perdita ma anche l'efficienza inferenziale.
Framework di Ricerca Architetturale: Un metodo pratico per trovare il punto di Pareto tra accuratezza ed efficienza, risolvendo il trade-off in modo sistematico invece che euristico.
Validazione Empirica su Scala: Dimostrazione che le architetture ottimizzate per l'efficienza non solo sono più veloci, ma possono anche essere più accurate rispetto ai modelli standard (come LLaMA-3.2) a parità di budget di addestramento.
Analisi Dettagliata di GQA: Dimostrazione che, a differenza di $d_{model}$ e $r_{mlp/attn}$ , la GQA ha una relazione non monotona con la perdita, giustificando l'uso di una ricerca locale invece di un'integrazione diretta nella legge di scaling continua.

5. Significato e Impatto

Questo lavoro segna un cambio di paradigma nella progettazione dei LLM: si passa da una visione focalizzata esclusivamente sulla scalabilità dei parametri a una visione holistica che bilancia accuratezza e costi operativi.

Riduzione dei Costi Operativi: I modelli ottimizzati (come Surefire) offrono un throughput significativamente superiore, riducendo i costi di inferenza per le applicazioni reali.
Guida per il Design Futuro: Fornisce linee guida concrete per i ricercatori e le aziende su come allocare i parametri (es. privilegiare un hidden size maggiore e un rapporto MLP/Attention più alto) per ottenere modelli più performanti ed economici.
Riproducibilità: Il paper offre un framework riproducibile e dati su oltre 200 configurazioni, facilitando la ricerca futura su modelli efficienti.

In sintesi, il paper dimostra che l'architettura del modello è un grado di libertà fondamentale per ottimizzare i LLM, e che le leggi di scaling, se arricchite con informazioni architetturali, possono guidare la creazione di modelli che sono sia più intelligenti che più economici da eseguire.