Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un chef di lusso (la tua Intelligenza Artificiale o "Deep Neural Network") che prepara piatti incredibili, ma la sua cucina è minuscola e piena di attrezzi ingombranti. Se prova a cucinare tutto con gli strumenti più grandi e precisi, la cucina esplode per mancanza di spazio (il famoso errore "Out-Of-Memory").

Per risolvere il problema, dobbiamo usare strumenti più piccoli e leggeri (la Quantizzazione). Ma c'è un trucco: non possiamo usare strumenti piccoli per tutto, altrimenti il cibo viene male. Dobbiamo usare coltelli piccoli per le verdure (dove la precisione non è critica) e coltelli grandi per tagliare il manzo (dove serve precisione). Questo è il Mixed-Precision Quantization (MPQ): usare la dimensione giusta per ogni parte della rete.

Il problema storico è: chi decide quale coltello usare dove?

Il Problema: Gli Esperti Umani e la Ricerca Costosa

Fino ad oggi, c'erano due modi per risolvere questo:

Chiedere a un esperto umano: Un genio della matematica studiava la ricetta e diceva: "Usa 8 bit qui, 4 bit lì". Ma è lento, costoso e se cambi ricetta (architettura), devi ricominciare da capo.
Farlo imparare al computer: Si faceva "allenare" il computer per trovare la combinazione migliore. Ma questo richiedeva un'enorme quantità di energia e tempo, come se dovessi cucinare 10.000 volte per trovare la ricetta perfetta.

La Soluzione: TAP (Il Cuoco AI che Impara da Solo)

Gli autori di questo paper hanno inventato TAP (Training-free Automatic Proxy). Immagina TAP come un assistente culinario basato su un'intelligenza artificiale linguistica (LLM) che non ha bisogno di cucinare 10.000 volte per imparare.

Ecco come funziona, passo dopo passo, con delle metafore semplici:

1. Il Generatore di Idee (LLM)

Invece di far calcolare tutto a mano, diamo a un "cervello" linguistico (come ChatGPT, ma specializzato) un compito: "Scrivimi una regola matematica per capire quali parti della ricetta sono delicate e quali no".
Il cervello AI genera delle idee (chiamate "proxy"). Invece di solo testo, queste idee includono anche codice eseguibile. È come se l'AI non solo ti dicesse "usa il coltello piccolo", ma ti scrivesse il programma che lo fa automaticamente.

2. La Selezione Naturale (Evoluzione)

Non ci fidiamo della prima idea che esce. Creiamo una "palestra" dove queste idee competono:

Prendiamo 10 idee diverse.
Le testiamo su una ricetta reale (un'immagine da classificare).
Chi funziona meglio (mantiene il gusto del piatto pur usando meno spazio) vince.

3. Il Direttore di Orchestra (DPO)

Qui sta la vera magia. Normalmente, per migliorare un'AI, bisogna "addestrarla" (farle studiare milioni di esempi), il che è lento.
TAP usa un trucco intelligente chiamato DPO (Direct Preference Optimization).
Immagina un direttore d'orchestra che non suona uno strumento, ma decide quale musicista ascoltare.

Se l'idea "A" funziona meglio dell'idea "B", il direttore dice all'AI: "La prossima volta, ascolta di più il tipo di ragionamento che ha usato l'idea A".
L'AI non viene modificata (non viene riaddestrata). Viene solo detto: "Usa più spesso questo stile di pensiero".
Questo crea un ciclo di feedback: l'AI impara a generare regole migliori in pochi secondi, senza mai "sudare" (senza costosi calcoli di addestramento).

Perché è una Rivoluzione?

Nessun Addestramento: Non serve far "studiare" il modello per giorni. Funziona subito.
Pochi Esempi: Mentre i metodi vecchi avevano bisogno di 8.000 immagini per capire come impostare i coltelli, TAP ne ha bisogno di 16. È come se un cuoco esperto capisse il gusto di un piatto assaggiando solo un boccone.
Universale: Funziona su qualsiasi tipo di "cucina" (Reti neurali diverse), anche su quelle molto complesse come i Transformer (usati per l'analisi del linguaggio o le immagini avanzate).

In Sintesi

Prima, per comprimere un'AI, dovevi o avere un genio umano che ci lavorava per settimane, o far girare un supercomputer per giorni.
Ora, con TAP, hai un assistente AI che, in pochi secondi e con pochissimi dati, "ragiona" come un esperto, prova le sue idee, ascolta i consigli di un direttore intelligente e trova la combinazione perfetta per far girare l'AI su dispositivi piccoli (come i tuoi smartphone o i microchip) senza perdere qualità.

È come passare dal dover costruire un aereo a mano, pezzo per pezzo, a chiedere a un'IA di progettare l'aereo perfetto, testarlo in una simulazione istantanea e darti i piani pronti da costruire.

Each language version is independently generated for its own context, not a direct translation.

Titolo: Rivoluzionare la Quantizzazione a Precisione Mista: Verso la Scoperta Automatica di Proxy Senza Addestramento tramite Grandi Modelli Linguistici (LLM)

1. Il Problema

La Quantizzazione a Precisione Mista (MPQ) è fondamentale per distribuire le Reti Neurali Profonde (DNN) su dispositivi con risorse limitate (come MCU e NPU), risolvendo il collo di bottiglia della memoria (OOM). Tuttavia, le metodi esistenti presentano due limiti principali:

Metodi basati su ottimizzazione differenziabile: Richiedono costi computazionali elevati e tempi di addestramento lunghi, rendendoli poco pratici per il deployment reale.
Metodi "Training-free" (senza addestramento): Sebbene evitino i costi di addestramento, dipendono fortemente da euristiche manuali progettate da esperti umani (es. analisi della matrice Hessiana in HAWQ o statistiche peso-attivazione in OMPQ). Questi approcci richiedono:
- Enorme sforzo umano e conoscenza esperta per la progettazione dei proxy.
- Grandi set di dati di calibrazione (es. migliaia di campioni) e molte iterazioni di ottimizzazione.
- Difficoltà di adattamento a nuove architetture o vincoli hardware senza riprogettazione.

L'obiettivo è quindi trovare un modo per scoprire automaticamente proxy MPQ efficaci senza intervento umano, senza addestramento del modello e con costi di calibrazione minimi.

2. Metodologia: Il Framework TAP

Gli autori propongono TAP (Training-free Automatic Proxy), un framework innovativo guidato dai Large Language Models (LLM) che utilizza strategie di ricerca evolutiva per generare automaticamente proxy di quantizzazione.

Il sistema si basa su tre componenti principali:

Generatore di Candidati Proxy (LLM):
- L'LLM agisce come motore di generazione, sintetizzando nuovi proxy o ottimizzando quelli esistenti.
- Ogni proxy generato è una tupla $(T, C)$ $(T, C)$ composta da:
  - $T$ (Logica di ragionamento): Una descrizione in linguaggio naturale del principio sottostante (es. "la sensibilità è proporzionale ai FLOPs per canale").
  - $C$ (Codice eseguibile): Codice Python che calcola i punteggi di sensibilità e assegna le larghezze di bit.
- Il processo utilizza tre tipi di prompt per l'evoluzione: Inizializzazione (creazione ex-novo), Mutazione (ottimizzazione fine di un proxy esistente) e Crossover (fusione di logiche di due proxy genitori).
Valutatore di Fitness:
- Valuta la qualità di ogni proxy candidato su benchmark standard (es. ImageNet-1k).
- La funzione di fitness $\phi(f)$ $ϕ (f)$ combina due metriche:
  - La correlazione di Spearman tra i punteggi di sensibilità previsti dal proxy e l'errore di quantizzazione reale.
  - L'accuratezza Top-1 del modello quantizzato risultante.
- Questo valutatore fornisce il segnale di feedback necessario per guidare l'evoluzione.
Schedulatore Evolutivo basato su DPO (Direct Preference Optimization):
- Questo è il cuore innovativo del metodo. Invece di addestrare (fine-tuning) l'LLM, TAP utilizza un controller DPO leggero e non parametrico.
- Il controller riceve coppie di preferenze $(f_{prefer}, f_{disprefer})$ basate sui punteggi di fitness.
- Ricalcola dinamicamente le probabilità di selezione per i tre template di prompt (inizializzazione, mutazione, crossover) in base ai segnali di fitness.
- Vantaggio chiave: L'LLM rimane "congelato" (non vengono aggiornati i suoi pesi); il sistema impara solo quale strategia di prompt funziona meglio in quel momento, creando un ciclo di feedback consapevole del compito.

3. Contributi Chiave

Nuovo Paradigma di Progettazione: TAP è il primo framework che utilizza gli LLM per scoprire automaticamente proxy MPQ "training-free", eliminando la dipendenza da regole euristica manuali.
DPO come Selettore di Strategie: Introduce l'uso del DPO non per addestrare il modello, ma come controller di strategia per bilanciare dinamicamente i template di prompt, migliorando la stabilità e la qualità del ragionamento senza costi computazionali aggiuntivi di fine-tuning.
Efficienza e Generalizzazione: Il metodo richiede solo 16 campioni di calibrazione e 5 iterazioni per convergere, contro le migliaia di campioni e le centinaia di iterazioni richieste dai metodi precedenti (es. HAWQ-V2).

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su architetture mainstream (ResNet-18/50, MobileNetV2, ViT-B, DeiT-B, Swin-B) e dataset (CIFAR-10, ImageNet-1k, COCO).

Prestazioni di Stato dell'Arte (SOTA):
- Su ResNet-18 (ImageNet), TAP raggiunge il 72.63% di accuratezza Top-1, superando metodi training-free come EMQ (72.28%) e OMPQ (72.08%).
- Su ResNet-50, ottiene il 76.72%, superando EMQ e OMPQ.
- Su modelli Transformer (ViT-B, Swin-B), TAP supera significativamente le baseline PTQ esistenti, mantenendo alte prestazioni anche con alti tassi di compressione (82%).
Efficienza:
- Costo di Ricerca: TAP completa la ricerca in circa 0.42-0.43 ore GPU, molto meno rispetto ai metodi differenziabili (es. EdMIPS richiede 9.5 ore).
- Tempo di Inferenza del Proxy: La generazione del proxy e l'allocazione dei bit avvengono in meno di 0.1 secondi totali.
- Calibrazione: Funziona con soli 16 campioni, dimostrando una robustezza eccezionale rispetto ai metodi che ne richiedono migliaia.
Robustezza:
- Il framework è stato testato con diversi LLM (Deepseek, Qwen3, Grok 3) mostrando prestazioni coerenti, indicando che il metodo non dipende da un singolo modello linguistico specifico.
- I risultati sono stabili anche con variazioni dei dati di calibrazione e della dimensione della popolazione evolutiva.

5. Significato e Impatto

Il lavoro TAP rappresenta un cambio di paradigma nella quantizzazione delle reti neurali:

Democratizzazione: Rimuove la barriera dell'expertise umana necessaria per progettare proxy di quantizzazione complessi.
Scalabilità: Offre una soluzione scalabile che può adattarsi automaticamente a nuove architetture e vincoli hardware senza riprogettazione manuale.
Efficienza: Riduce drasticamente il costo computazionale e i dati necessari per la progettazione di strategie di quantizzazione, rendendo la MPQ accessibile anche in contesti con risorse limitate.
Sinergia AI-AI: Dimostra come gli LLM, combinati con tecniche di ottimizzazione preferenziale (DPO), possano essere utilizzati non solo per generare testo, ma per scoprire algoritmi matematici e logiche di sistema ottimali in modo autonomo.

In sintesi, TAP trasforma la progettazione della quantizzazione da un processo manuale, costoso e basato su tentativi ed errori, in un processo automatizzato, rapido e guidato dall'intelligenza artificiale, aprendo nuove prospettive per il deployment efficiente di modelli AI su edge devices.