DiaBlo: Diagonal Blocks Are Sufficient For Finetuning

Il paper presenta DiaBlo, un metodo di fine-tuning efficiente che aggiorna solo i blocchi diagonali delle matrici di peso, offrendo una convergenza stabile e prestazioni competitive rispetto al fine-tuning completo e a LoRA, senza richiedere prodotti di matrici a basso rango o strategie di ottimizzazione personalizzate.

Selcuk Gurses, Aozhong Zhang, Yanxia Deng, Xun Dong, Xin Li, Naigang Wang, Penghang Yin, Zi Yang

Pubblicato 2026-03-04
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🧠 Il Problema: Addestrare un Gigante è Costoso

Immagina di avere un gigante (un modello di Intelligenza Artificiale come LLaMA) che sa già tutto su tutto: storia, scienza, codice, barzellette. Questo gigante è stato "istruito" con miliardi di libri.

Ora, vuoi insegnargli una cosa specifica, per esempio a scrivere codice Python o a rispondere a domande di matematica.

  • Il metodo vecchio (Full Fine-Tuning): È come prendere il gigante e fargli rifare tutti i suoi 7 miliardi di "muscoli" (i parametri) da capo. Funziona benissimo, ma è come se dovessi ricostruire l'intero corpo del gigante ogni volta che vuoi insegnargli un nuovo trucco. Richiede computer costosissimi, molta energia e molto tempo.
  • Il metodo attuale (LoRA): Per risparmiare, gli scienziati hanno inventato un trucco. Invece di rifare tutto il corpo, attaccano due piccoli "pezzi di nastro adesivo" (matrici a basso rango) che modificano il comportamento del gigante. È più veloce ed economico, ma a volte questi pezzi di nastro non si attaccano bene, richiedono trucchi speciali per incollarsi e talvolta il gigante impara male o si confonde.

💡 La Soluzione: DiaBlo (I Blocchi Diagonali)

Gli autori di questo paper hanno detto: "E se invece di incollare nastro adesivo, togliessimo semplicemente i vestiti al gigante in punti precisi e li cambiassimo?"

Hanno creato DiaBlo (Diagonal Blocks). Ecco come funziona con un'analogia semplice:

Immagina che la "mente" del gigante sia un enorme muro di mattoni (una griglia di numeri).

  1. Il metodo LoRA cerca di costruire una nuova struttura davanti al muro usando due assi di legno incrociati. È complicato da calcolare.
  2. Il metodo DiaBlo dice: "Ok, non costruiamo nulla davanti. Prendiamo solo i mattoni che formano una linea diagonale attraverso il muro (come una scala che sale dall'angolo in basso a sinistra a quello in alto a destra) e cambiamo solo quelli".

🎨 Perché è Geniale? (Le Analogie)

1. La "Fotocopia Selettiva"

Immagina di dover correggere un libro di testo enorme.

  • LoRA ti dice: "Prendi due foglietti di carta, scrivi delle formule matematiche sopra e incollali tra le pagine. Poi devi calcolare come questi foglietti interagiscono con il testo originale". È un lavoro di precisione che richiede un colla speciale.
  • DiaBlo ti dice: "Apri il libro. Guarda solo le pagine che formano una diagonale. Cancella quelle parole e scrivine di nuove direttamente sul libro. Niente foglietti, niente colla".
    Risultato: È molto più stabile. Non devi preoccuparti che il foglietto si stacchi o che la colla non faccia presa.

2. La "Ristrutturazione della Casa"

Pensa a una casa con 100 stanze (i parametri del modello).

  • Full Fine-Tuning: Demolisci e ricostruisci tutte le 100 stanze. Costosissimo.
  • LoRA: Costruisci un'aggiunta esterna (un portico) che cambia come si entra nelle stanze. A volte il portico è instabile se non lo costruisci con i giusti piani.
  • DiaBlo: Decidi di ristrutturare solo le stanze che formano una diagonale (la sala, la cucina, la camera da letto principale, ecc.). Sorprendentemente, basta cambiare queste stanze chiave per cambiare completamente il modo in cui la casa funziona, senza toccare le altre 80 stanze.

🚀 Cosa hanno scoperto?

  1. Funziona meglio (o uguale): Hanno provato DiaBlo su compiti difficili (ragionamento logico, matematica, scrittura di codice) e ha battuto o pareggiato i metodi attuali, usando meno "muscoli" attivi.
  2. È più stabile: Poiché non usa quel trucco complicato dei "due foglietti incollati" (moltiplicazione di matrici), il gigante impara in modo più sicuro. Non si "confonde" all'inizio dell'addestramento.
  3. È veloce: Non serve un supercomputer diverso. È veloce quanto i metodi attuali, ma senza i mal di testa della configurazione.
  4. Funziona anche con i "giganti compressi": Funziona anche se il gigante è stato compresso (quantizzato) per occupare meno spazio, cosa che con altri metodi è molto difficile.

🏁 In Conclusione

DiaBlo ci insegna che non serve sempre "aggiungere" cose complesse per migliorare un'intelligenza artificiale. A volte, basta essere selettivi.

Invece di cercare di modificare tutto il cervello del modello o di attaccare pezzi esterni complicati, basta toccare strategicamente i "blocchi diagonali" della sua mente. È come se scoprissimo che per cambiare il carattere di una persona, non serve riscrivere tutta la sua biografia, ma basta cambiare alcune parole chiave nelle sue conversazioni quotidiane.

È un metodo semplice, robusto ed efficace che rende l'addestramento dell'IA più accessibile a tutti.