Towards Calibrating Prompt Tuning of Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Il Problema: L'AI "Sicura ma Sbagliata"

Immagina di avere un assistente visivo super intelligente, chiamato CLIP. Questo assistente ha studiato milioni di foto e testi su internet. È bravissimo a riconoscere cose nuove senza dover essere riaddestrato da zero (come riconoscere un gatto o un'auto).

Tuttavia, quando gli chiediamo di specializzarsi in compiti specifici (ad esempio, distinguere solo tra diverse razze di cani), usiamo una tecnica chiamata "Prompt Tuning". È come se dessimo all'assistente un piccolo "promemoria" o un "filtro" da applicare alle sue conoscenze, senza toccare il suo cervello principale.

Il problema è questo:
Quando l'assistente usa questo filtro, diventa molto bravo a indovinare, ma perde il senso della realtà.

A volte è troppo sicuro di sé quando sbaglia (es. "Sono al 99% sicuro che questo sia un Golden Retriever", ma è un Lupo).
Altre volte è troppo insicuro quando ha ragione (es. "Sono solo al 40% sicuro che questo sia un Pastore Tedesco", anche se è proprio quello).

In termini tecnici, l'AI è mal calibrata. Per un'auto a guida autonoma o un medico, dire "sono sicuro" quando si sbaglia è pericoloso.

La Soluzione: Il "Regolatore di Fiducia"

Gli autori di questo studio hanno creato un nuovo metodo per "calibrare" questa fiducia. Immagina che il loro metodo sia come un regolatore di fiducia per l'AI, composto da due strumenti magici che lavorano insieme.

1. Il "Righello di Distanza" (Mean-Variance Margin)

Immagina che l'AI debba scegliere tra diverse opzioni su una linea.

Senza il regolatore: L'AI potrebbe mettere la sua scelta giusta troppo vicina a quella sbagliata (dubbio) o spingerla così lontano da sembrare assurda (sicurezza eccessiva).
Con il regolatore: Il primo strumento agisce come un righello. Costringe l'AI a mantenere una distanza "giusta" e costante tra la risposta corretta e quella sbagliata.
- Se l'AI è troppo insicura, il righello la spinge a separare meglio le risposte.
- Se l'AI è troppo sicura (e potrebbe sbagliare), il righello le dice: "Rallenta, non spingerti troppo in là".
- Risultato: L'AI impara a non avere picchi di sicurezza assurdi.

2. La "Bussola Semantica" (Text Moment-Matching)

Ora, immagina che le parole e le immagini vivano in una grande mappa mentale (uno spazio geometrico). Quando l'AI impara un nuovo compito, tende a distorcere questa mappa, facendo sì che cose simili si raggruppino in modo strano o che cose diverse si tocchino.

Il problema: Se la mappa si deforma, l'AI perde la sua capacità di capire cose nuove che non ha mai visto prima (generalizzazione).
La soluzione: Il secondo strumento agisce come una bussola. Controlla che la "forma" e la "distribuzione" delle parole nella nuova mappa rimangano simili a quelle originali. Non cambia dove sono le cose, ma assicura che la struttura della mappa non collassi.
- Risultato: L'AI rimane brava a riconoscere cose nuove (come un'auto che non ha mai visto prima) senza diventare confusa.

Come funziona tutto insieme?

Pensa a un chef che sta preparando un nuovo piatto:

Il Prompt Tuning è l'aggiunta di nuove spezie per adattare il piatto al gusto locale.
Il Righello assicura che il sapore non sia né troppo debole né troppo piccante (calibrazione della sicurezza).
La Bussola assicura che, anche con le nuove spezie, il piatto rimanga un "cibo" e non diventi qualcosa di strano e immangiabile (preservazione della struttura semantica).

I Risultati: Perché è importante?

Gli autori hanno testato questo metodo su 11 diversi dataset (dalle foto di fiori alle auto, fino alle texture dei tessuti) e su 7 metodi diversi di addestramento.

Prima: L'AI spesso diceva "Sono sicuro al 90%" quando aveva solo il 60% di probabilità di essere giusta.
Dopo: L'AI dice "Sono sicuro al 90%" quando ha davvero il 90% di probabilità di essere giusta.

In parole povere: L'AI è diventata più onesta. Non è solo più precisa, ma ci dice anche quanto può fidarsi delle sue risposte. Questo è fondamentale per applicazioni reali come:

Medicina: Un medico deve sapere se l'AI è sicura di una diagnosi o se sta solo "indovinando".
Auto a guida autonoma: Il sistema deve essere sicuro quando vede un ostacolo, ma deve ammettere di non sapere cosa sia se è una situazione strana, per evitare incidenti.

In sintesi

Questo paper ci insegna che non basta insegnare all'AI a essere brava (alta accuratezza); dobbiamo anche insegnarle a essere umile e precisa nella sua fiducia (calibrazione). Il loro metodo è come un "filtro di realtà" che si può applicare a qualsiasi AI visiva senza doverla ricostruire da zero, rendendola più sicura e affidabile per il mondo reale.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Miscalibrazione nel Prompt Tuning

I modelli Vision-Language (VLM) su larga scala, come CLIP, hanno rivoluzionato il riconoscimento di immagini a vocabolario aperto. Tecniche efficienti come il Prompt Tuning (ad es. CoOp, MaPLe) permettono di adattare questi modelli a compiti specifici modificando solo un piccolo sottoinsieme di parametri (i token del prompt), mantenendo i codificatori congelati.

Tuttavia, il paper identifica un problema critico spesso ignorato: la mancanza di calibrazione della confidenza.

Il fenomeno: Il Prompt Tuning tende a creare un "doppio problema di miscalibrazione":
1. Sottostima (Underconfidence) sulle classi base: Il modello è troppo incerto sulle classi su cui è stato addestrato, con margini tra le logit ridotti.
2. Sovrastima (Overconfidence) sulle classi nuove (novel): Il modello è eccessivamente sicuro quando classifica immagini di categorie mai viste durante l'addestramento, portando a errori ad alta confidenza.
Conseguenze: Questo rende le stime di incertezza inaffidabili, un rischio critico per applicazioni in settori sensibili come la guida autonoma o la diagnostica medica, dove un'alta confidenza errata può avere conseguenze gravi.
Limiti delle soluzioni esistenti: I metodi di calibrazione post-hoc (come la Temperature Scaling) o quelli che cercano di normalizzare le distribuzioni globali falliscono nel preservare la geometria semantica originale dello spazio di embedding di CLIP, necessaria per una generalizzazione robusta.

2. Metodologia Proposta: TCPT (Towards Calibrating Prompt Tuning)

Gli autori propongono un framework di regolarizzazione in fase di addestramento che migliora l'affidabilità predittiva preservando la geometria dello spazio di embedding pre-addestrato. L'approccio combina la perdita standard di entropia incrociata ( $L_{CE}$ ) con due regolarizzatori complementari:

A. Regolarizzazione del Margine Media-Varianza (Mean-Variance Margin Regularization)

Questa componente agisce sullo spazio delle logit per stabilizzare i margini decisionali.

Obiettivo: Massimizzare il margine medio tra la classe corretta e quella con il punteggio più alto tra le classi errate (per ridurre l'underconfidence sulle classi base) e minimizzare la varianza di questi margini nel batch (per evitare picchi di confidenza spuria sulle classi nuove).
Funzione di perdita:
$L_{Margin} = -\alpha \cdot \frac{1}{B}\sum m_i + \beta \cdot \text{Var}(m_1, \dots, m_B)$
Dove $m_i$ è il margine logit per il campione $i$ , e $\alpha, \beta$ sono iperparametri. Questo impedisce al modello di sviluppare confini decisionali erratici.

B. Perdita di Adattamento dei Momenti del Testo (Text Moment-Matching Loss)

Questa componente agisce sullo spazio degli embedding testuali per preservare la struttura semantica globale.

Obiettivo: Allineare i momenti statistici (primo e secondo ordine) degli embedding di testo adattati (prompt-tuned) con quelli degli embedding di testo congelati (zero-shot CLIP).
Meccanismo: Si calcolano la media ( $\mu$ ) e la covarianza ( $\Sigma$ ) degli embedding per un batch di classi. La perdita penalizza la divergenza tra le statistiche degli embedding adattati e quelli originali:
$L_{mom} = \|\mu_{\tilde{c}} - \mu_{c^0}\|_2^2 + \|\Sigma_{\tilde{c}} - \Sigma_{c^0}\|_F^2$
Vantaggio: A differenza di un allineamento rigido istanza-per-istanza, questo metodo preserva la struttura relativa delle classi e la dispersione semantica, permettendo l'adattamento al compito senza distorcere la geometria globale necessaria per la generalizzazione su classi nuove.

La funzione obiettivo totale è:
$L_{total} = L_{CE} + \lambda_{Margin} L_{Margin} + \lambda_{mom} L_{mom}$

3. Contributi Chiave

Identificazione del problema duale: Analisi sistematica che dimostra come il Prompt Tuning causi simultaneamente underconfidence sulle classi base e overconfidence su quelle nuove, un fenomeno non affrontato adeguatamente dalle tecniche precedenti.
Framework di regolarizzazione duale: Introduzione di un metodo che agisce simultaneamente sullo spazio delle logit (per la discriminabilità) e sullo spazio degli embedding (per la fedeltà semantica).
Agnosticismo e Plug-and-Play: Il metodo è indipendente dalla tecnica di Prompt Tuning sottostante (funziona con CoOp, MaPLe, KgCoOp, ecc.), non richiede modifiche architetturali e non aggiunge tempo di inferenza.
Miglioramento senza compromessi: Dimostrazione che è possibile migliorare drasticamente la calibrazione senza sacrificare l'accuratezza di classificazione.

4. Risultati Sperimentali

Il metodo è stato valutato su 11 dataset diversificati (da classificazione di oggetti a riconoscimento di texture, veicoli, piante e scene) e su 7 metodi di Prompt Tuning diversi.

Riduzione dell'Errore di Calibrazione (ECE):
- Su classi base: Il metodo riduce significativamente l'ECE. Ad esempio, su CoOp, l'ECE medio scende dal 6.35% al 2.93%.
- Su classi nuove: La riduzione è ancora più marcata, affrontando il problema dell'overconfidence. Su MaPLe, l'ECE medio sulle classi nuove scende dal 5.76% al 4.23%, superando tecniche post-hoc come DAC e ZS-Norm.
Robustezza: Il metodo mantiene basse prestazioni di errore di calibrazione anche in scenari few-shot estremi (4-8 shot) e su dataset con distribuzione fuori distribuzione (OOD) come ImageNet-A e ImageNet-R.
Analisi di Ablazione: L'uso combinato dei due regolarizzatori è superiore all'uso singolo o all'uso di allineamenti diretti ( $\ell_1$ ), confermando la sinergia tra la stabilizzazione dei margini e la preservazione della geometria.
Efficienza: Non vi è alcun aumento del tempo di addestramento o dell'uso di memoria GPU rispetto al baseline.

5. Significato e Impatto

Questo lavoro è fondamentale per l'adozione sicura dei VLM in scenari reali.

Affidabilità: Fornisce un meccanismo per ottenere stime di incertezza affidabili, cruciali per sistemi critici (es. medicina, guida autonoma) dove è necessario sapere quando il modello "non sa" qualcosa.
Generalizzazione: Risolve il compromesso tra specializzazione (adattamento al compito) e generalizzazione (preservazione delle capacità zero-shot), dimostrando che la calibrazione non deve essere sacrificata per l'accuratezza.
Futuro della Ricerca: Stabilisce un nuovo standard per l'adattamento dei modelli fondazionali, spostando l'attenzione dalla sola accuratezza alla qualità delle distribuzioni di probabilità predittive.

In sintesi, il paper propone una soluzione elegante ed efficace per "calibrare" i modelli VLM adattati, garantendo che la loro fiducia nelle previsioni sia allineata alla realtà, sia per le classi apprese che per quelle nuove.