Adaptive MLP Pruning for Large Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

🧠 Il "Taglio dei Capelli" per i Giganti dell'Intelligenza Artificiale

Immagina di avere un gigante (un modello di Intelligenza Artificiale chiamato "Vision Transformer") che è bravissimo a guardare le immagini e capire cosa c'è dentro. Questo gigante è così potente che può riconoscere un gatto, un'auto o un paesaggio con una precisione incredibile.

Ma c'è un problema: questo gigante è enorme.

È così pesante che richiede computer costosissimi per funzionare.
Consuma tanta energia quanto una piccola città.
È difficile da portare nello smartphone o su un drone.

Gli scienziati hanno scoperto che la parte più "pesante" di questo gigante è il suo cervello centrale (chiamato MLP), che occupa l'80% del suo peso totale. È come se il gigante avesse un cervello enorme, ma la maggior parte di quel cervello fosse solo "grasso" inutile che non fa nulla di importante.

Il paper propone un metodo chiamato AMP (Adaptive MLP Pruning), che possiamo tradurre come "Taglio Intelligente e Adattivo". Ecco come funziona, passo dopo passo, con delle metafore semplici:

1. Il Problema: Come capire cosa tagliare? 🤔

Prima, per decidere quali neuroni (le cellule del cervello) tagliare, gli scienziati usavano un metodo un po' "cieco".

Il vecchio metodo: Era come chiedere al gigante: "Hai riconosciuto il gatto? Se sì, tieni questo neurone. Se no, buttalo."
Il problema: Questo metodo ignorava tutto il resto. Se il gigante stava pensando anche a un cane o a un albero, quel pensiero veniva ignorato. Era come giudicare un cuoco solo perché ha bruciato un piatto, senza guardare quanto erano buoni gli altri.

La soluzione di questo paper (Entropia dell'Informazione):
Gli autori hanno inventato un nuovo modo di valutare. Invece di guardare solo la risposta "sì/no" su un'etichetta specifica, guardano tutti i pensieri del gigante.

L'analogia: Immagina di avere una stanza piena di persone che chiacchierano. Il vecchio metodo ascoltava solo una persona che urlava "GATTO!". Il nuovo metodo ascolta tutte le conversazioni nella stanza per capire chi è davvero importante e chi sta solo facendo rumore. In questo modo, capiscono meglio chi è il neurone "star" e chi è solo un "spettatore" inutile.

2. Il Taglio: Non un taglio fisso, ma "su misura" ✂️

Una volta capito chi è importante, bisogna decidere quanti neuroni tagliare.

Il vecchio metodo: Era come dire: "Tagliamo il 40% di tutti i neuroni, punto e basta!". Ma questo è stupido: alcuni neuroni sono super importanti, altri sono inutili. Tagliare a caso potrebbe ferire il gigante.
Il metodo AMP (Ricerca Binaria): Immagina di dover trovare il punto esatto in cui tagliare un panino per renderlo più leggero senza perdere il ripieno.
1. Si prova a tagliare un po'.
2. Si chiede al gigante: "Ti senti ancora bene? Capisci ancora le immagini?"
3. Se il gigante dice "Sì, sto bene!", si prova a tagliare ancora di più.
4. Se il gigante dice "Ouch, sto male!", si torna indietro e si taglia meno.
5. Si ripete questo gioco di "indovina quanto tagliare" finché non si trova il punto perfetto per ogni singolo pezzo del cervello.

In questo modo, il gigante non viene tagliato a caso, ma viene "scolpito" in modo perfetto, mantenendo solo ciò che serve.

3. La Riabilitazione: L'allenamento con il Maestro 🎓

Dopo aver tagliato via tutto quel "grasso", il gigante potrebbe sentirsi un po' debole o confuso.

La soluzione: Si usa una tecnica chiamata Distillazione della Conoscenza.
L'analogia: Il gigante originale (quello enorme e pesante) diventa il Maestro. Il gigante tagliato (ora più piccolo e veloce) diventa lo Studente.
Il Maestro guarda le immagini e dice allo Studente: "Guarda, quando vedo questo, penso così...". Lo Studente impara a pensare come il Maestro, ma usando molto meno cervello.
Grazie a questo, lo Studente diventa quasi bravo quanto il Maestro, ma è molto più leggero.

🚀 I Risultati: Cosa abbiamo guadagnato?

Grazie a questo metodo "Taglio Intelligente":

Dimensione ridotta: I modelli diventano circa il 40% più piccoli. È come togliere 40 kg a un atleta di peso massimo.
Velocità: Sono molto più veloci a lavorare (circa 1,5 volte più veloci).
Intelligenza: Il più bello è che non perdono quasi nulla della loro intelligenza. Se li fai allenare un po' con il Maestro, fanno esattamente le stesse cose del gigante originale, ma su un computer normale invece che su un supercomputer.
Versatilità: Funziona anche su modelli che non avevano le "istruzioni" complete (come DINOv2), perché il nuovo metodo non ha bisogno di etichette o dati segreti per funzionare.

In sintesi

Questo paper ci dice che non dobbiamo per forza avere computer enormi per avere intelligenza artificiale potente. Basta tagliare via il superfluo in modo intelligente, ascoltare tutti i "pensieri" del modello per capire cosa è importante, e far allenare il modello tagliato da quello originale. Il risultato? Un'intelligenza artificiale leggera, veloce e sempre brillante.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I grandi Transformer per la visione artificiale (Large Vision Transformers - ViT) hanno dimostrato eccellenti proprietà di scalabilità, migliorando le prestazioni all'aumentare della capacità del modello. Tuttavia, questo comporta un costo computazionale e di memoria proibitivo per il deployment su larga scala.
L'analisi della struttura di questi modelli rivela che i moduli MLP (Multilayer Perceptron) costituiscono la maggior parte dei parametri (ad esempio, nell'EVA-CLIP-E, gli MLP rappresentano l'81,1% dei parametri totali).
Le sfide principali identificate dagli autori sono:

Inefficienza dei metodi esistenti: I metodi di pruning basati su Taylor utilizzano tipicamente la cross-entropy one-hot per valutare l'importanza dei neuroni. Questo approccio ignora le previsioni su categorie diverse da quella etichettata, portando a una valutazione dell'importanza imprecisa.
Limitazioni di applicabilità: Molti modelli moderni (come DINOv2 o CLIP) non pubblicano tutti i pesi o le funzioni di perdita originali, rendendo difficile applicare metodi di pruning che dipendono da queste informazioni.
Rigidità: I metodi attuali spesso richiedono un rapporto di compressione predefinito, senza adattarsi alla ridondanza specifica di ciascun modulo.

2. Metodologia Proposta: AMP (Adaptive MLP Pruning)

Gli autori propongono un metodo chiamato Adaptive MLP Pruning (AMP) che riduce i parametri dei grandi ViT senza degradazione significativa delle prestazioni. Il processo si articola in tre fasi principali:

A. Valutazione dell'Importanza dei Neuroni (Criterio di Entropia dell'Informazione)

Invece di utilizzare la cross-entropy one-hot, il metodo introduce un criterio di entropia dell'informazione senza etichette (label-free).

Concetto: Si basa sull'espansione di Taylor per stimare la variazione della funzione obiettivo quando un neurone viene rimosso.
Innovazione: Poiché le probabilità di previsione originali potrebbero non essere disponibili (es. DINOv2), il metodo calcola una matrice di similarità tra le istanze (immagini) nel batch. Applicando una funzione softmax su questa matrice di similarità, si ottiene una distribuzione di probabilità che modella pienamente le previsioni del modello.
Vantaggio: Questo criterio non dipende dalla funzione di perdita originale o da moduli aggiuntivi (come l'encoder di testo in CLIP o la testa DINO), rendendolo applicabile a modelli i cui pesi non sono completamente open-source.

B. Pruning Adattivo (Algoritmo di Ricerca Binaria)

Una volta calcolati i punteggi di importanza per i neuroni nascosti degli MLP, il metodo non applica un taglio fisso.

Ranking: I neuroni sono ordinati in base al loro punteggio di importanza.
Ricerca Binaria: Viene utilizzato un algoritmo di ricerca binaria per determinare il numero ottimale di neuroni da rimuovere per ogni modulo MLP.
Criterio di Arresto: Durante la ricerca, si valuta l'entropia dell'informazione del modello pruned. Se la variazione di entropia rispetto al modello originale supera una soglia predefinita ( $\Delta E$ ), il numero di neuroni rimossi viene ridotto. Questo processo si ripete fino a raggiungere il limite di iterazioni o la dimensione minima, adattando dinamicamente la compressione in base alla ridondanza specifica di ogni strato.

C. Recupero delle Prestazioni (Knowledge Distillation)

Per recuperare le prestazioni perse a causa del pruning, viene utilizzata una tecnica di Knowledge Distillation.

Il modello originale funge da "insegnante" e il modello pruned da "studente".
Viene utilizzata una perdita di errore quadratico medio (MSE) sui token di classe ( $z_{cls}$ ) e sui token delle patch ( $z_{patch}$ ) dell'ultimo blocco transformer.
Poiché il pruning avviene solo sui neuroni nascosti degli MLP, le dimensioni di output rimangono invariate, permettendo una distillazione diretta senza moduli di allineamento aggiuntivi.

3. Contributi Chiave

Criterio di Entropia dell'Informazione: Un nuovo metodo per valutare l'importanza dei neuroni che utilizza la distribuzione completa delle previsioni (senza etichette), offrendo una maggiore accuratezza rispetto alla cross-entropy one-hot e permettendo il pruning di modelli con pesi parzialmente nascosti.
Pruning Adattivo: Un approccio che evita i rapporti di compressione predefiniti, utilizzando la ricerca binaria per adattare dinamicamente la riduzione dei neuroni in base alla ridondanza specifica di ciascun modulo MLP.
Prestazioni "Near-Lossless": Dimostrazione che è possibile ridurre circa il 40% dei parametri e delle FLOPs mantenendo le prestazioni quasi intatte, superando significativamente altri metodi di pruning quando non viene eseguita una ri-addestramento (finetuning).

4. Risultati Sperimentali

Il metodo è stato testato su modelli SOTA come CLIP (OpenCLIP-g, OpenCLIP-G) e DINOv2, nonché su EVA-CLIP.

Riduzione delle Risorse: Si ottiene una riduzione di circa il 40% sia nei parametri che nelle FLOPs, con un aumento della velocità di inferenza di circa 1.5x.
Prestazioni Zero-Shot:
- Senza finetuning (solo pruning): Il metodo supera di gran lunga le alternative (es. +42.7% di accuratezza su OpenCLIP-g rispetto ad altri metodi di pruning).
- Con Knowledge Distillation: I modelli pruned recuperano completamente le prestazioni, e in alcuni casi (es. OpenCLIP-g distillato) superano leggermente il modello originale.
Confronto con altri metodi: Su benchmark come ImageNet-1K, ImageNet-V2, ObjectNet e Flickr30K/COCO, AMP supera metodi basati su magnitudine, pruning casuale, e altri approcci basati su Taylor (SAViT, NViT).
Validazione su DINOv2: Il metodo funziona efficacemente anche su modelli puri di visione (DINOv2-g) dove i pesi di testa non sono disponibili, confermando l'utilità del criterio senza etichette.

5. Significato e Impatto

Questo lavoro è significativo perché affronta il collo di bottiglia principale dei grandi modelli di visione (i parametri degli MLP) con una soluzione che è sia teoricamente solida (miglioramento della valutazione dell'importanza) che praticamente versatile (applicabile a modelli chiusi o parzialmente aperti).
La capacità di ottenere una compressione adattiva senza richiedere la conoscenza della funzione di perdita originale o di moduli specifici apre nuove possibilità per il deployment efficiente di modelli foundation su dispositivi con risorse limitate. Gli autori pianificano di estendere questo approccio alla riduzione adattiva dei moduli di attenzione multi-testa e all'accelerazione dei Large Language Models (LLM).