Prompt Tuning for CLIP on the Pretrained Manifold

Each language version is independently generated for its own context, not a direct translation.

🎨 L'idea di base: Il "Genio" e il "Tutor"

Immagina di avere un genio (il modello CLIP) che ha letto milioni di libri e visto milioni di foto. Questo genio conosce il mondo in modo generale: sa che un "cane" ha quattro zampe e fa "bau", e che un "gatto" fa le fusa. È un esperto universale.

Ora, vuoi insegnargli a riconoscere una cosa molto specifica, per esempio, tre diverse razze di cani da corsa (un compito nuovo), ma hai solo pochissime foto a disposizione (diciamo 5 o 10 per ogni razza).

Se chiedi al genio di studiare queste poche foto e di cambiare completamente il suo modo di pensare per adattarsi a te, rischi due cose:

Dimentica tutto: Potrebbe dimenticare le regole generali che sapeva (es. "i cani hanno la coda") e iniziare a pensare che un cane sia un'auto perché nella tua foto c'è un'auto sullo sfondo.
Impara trucchi sbagliati: Potrebbe memorizzare un dettaglio inutile, tipo "tutti i cani nelle mie foto hanno un cappello rosso", e pensare che il cappello sia la parte importante per identificarli.

Questo è il problema che risolve il paper.

🌊 Il Problema: La "Deriva" (Manifold Drift)

Gli autori usano una parola complicata: Manifold. Immagina il "Manifold" come una grande mappa geografica dove il genio vive. Su questa mappa, tutti i concetti simili (come "cane", "gatto", "animale") sono vicini tra loro in modo logico e sicuro.

Quando provi ad adattare il modello con poche foto (Prompt Tuning), il modello tende a scappare dalla mappa.

Cosa succede: Invece di rimanere nella zona sicura dei "cani", il modello si sposta in una zona strana e pericolosa dove le regole non hanno più senso.
L'analogia: È come se un navigatore GPS, vedendo solo due strade, decidesse che la strada per Roma è in mezzo al mare perché lì c'era un'auto blu. Ha "deragliato" dalla mappa reale.

💡 La Soluzione: ManiPT (Il Tutor Cosciente)

Gli autori propongono un nuovo metodo chiamato ManiPT. Immagina ManiPT come un tutor severo ma gentile che tiene il genio per mano mentre studia le nuove foto.

Il tutor usa due trucchi magici:

1. La "Bussola di Coerenza" (Cosine Consistency)

Il tutor dice al genio: "Ogni volta che pensi a un cane, devi assicurarti che la tua idea assomigli molto a quella che avevi prima di studiare le nuove foto."

Come funziona: Il modello è costretto a guardare le sue vecchie conoscenze (quelle sicure) e a non allontanarsi troppo da esse. Se il modello prova a dire "Un cane è un'auto", il tutor gli dice: "No, aspetta, un cane è ancora molto simile a quello che sapevi prima".
L'effetto: Il modello non può scappare dalla mappa. Rimane nella zona sicura.

2. La "Correzione a Gradini" (Structural Bias)

Il tutor dice: "Non riscrivere tutto il libro. Fai solo piccole correzioni."

Come funziona: Invece di permettere al modello di buttare via le vecchie conoscenze e crearne di nuove da zero, ManiPT costringe il modello a aggiungere le nuove informazioni sopra quelle vecchie.
L'analogia: Immagina di avere un muro di mattoni (le conoscenze vecchie). Il modello non può abbatterlo per costruirne uno nuovo. Può solo aggiungere un piccolo strato di pittura o un nuovo mattone sopra. Questo garantisce che la struttura di base rimanga solida e che il modello non impari "trucchi" stupidi basati su poche foto.

🚀 Perché è importante? (I Risultati)

Grazie a questo metodo, il modello:

Non si confonde: Anche se ha poche foto, non impara trucchi stupidi (come il cappello rosso).
Si adatta meglio: Riesce a riconoscere nuovi tipi di cani o oggetti in situazioni diverse (es. foto sbiadite, disegni, foto da satellite) molto meglio dei metodi precedenti.
È veloce: Non serve un supercomputer enorme per farlo funzionare.

📝 In sintesi estrema

Immagina di dover insegnare a un esperto di cucina a fare un nuovo piatto con solo 3 ingredienti.

Metodo vecchio: L'esperto prova a inventare tutto da zero, dimentica le regole base della cucina e finisce per mettere la sabbia nel sugo perché "nel tuo esempio c'era della sabbia".
Metodo ManiPT: L'esperto usa le sue regole base (il "Manifold") come fondamento. Aggiunge solo un pizzico di nuovo sapore (il "Prompt") senza mai dimenticare che il sugo deve essere commestibile. Il tutor (ManiPT) gli tiene la mano per assicurarsi che non esca dalla cucina sicura.

Il risultato? Un piatto delizioso che funziona anche se provi a cucinarlo in una cucina diversa (un nuovo dataset).

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Deriva del Manifold e Overfitting

Il paper affronta una limitazione critica nell'adattamento dei modelli visione-linguaggio preaddestrati (VLM), come CLIP, a compiti downstream tramite Prompt Tuning.

Contesto: Il Prompt Tuning è efficiente in termini di parametri perché congela il backbone preaddestrato e apprende solo piccoli vettori di prompt. Tuttavia, in scenari con supervisione limitata (pochi dati o few-shot), questo approccio tende a sfruttare segnali discriminatori locali e spuri (es. sfondi, texture specifiche del dataset) per minimizzare l'errore di training.
Il Fenomeno di "Deriva" (Manifold Drift): L'ottimizzazione spinge le rappresentazioni apprese lontano dal manifold preaddestrato (la struttura geometrica intrinseca appresa da CLIP durante il preaddestramento su larga scala).
Conseguenze: Questa deriva geometrica porta a un overfitting sui dati di training specifici. Sebbene il modello possa separare bene le classi nel dominio di training, le rappresentazioni adattate perdono la capacità di generalizzare a classi non viste (unseen classes) o a distribuzioni diverse (trasferimento cross-dataset), poiché si allontanano dalle direzioni semantiche robuste supportate dal preaddestramento.

2. Metodologia: Il Framework ManiPT

Gli autori propongono ManiPT, un framework che esegue il prompt tuning mantenendo le rappresentazioni all'interno del manifold preaddestrato. La soluzione si basa su tre pilastri fondamentali:

A. Arricchimento della Conoscenza tramite LLM

Per fornire riferimenti semantici stabili, invece di usare semplici template testuali, il metodo utilizza un Large Language Model (LLM) per generare descrizioni ricche per ogni classe. Queste descrizioni vengono codificate in un "banco di feature testuali" che funge da prototipo semantico robusto, ancorando l'adattamento a conoscenze semantiche affidabili.

B. Vincoli di Coerenza Cosine (Cosine Consistency Constraints)

Per impedire la deriva geometrica, ManiPT impone vincoli di coerenza sia nella modalità visiva che in quella testuale:

Lato Visivo: Si calcola una perdita che massimizza la similarità coseno tra le feature visive adattate (con prompt) e le feature visive congelate del modello CLIP originale. Questo confina le feature adattate nel vicinato geometrico delle feature preaddestrate.
Lato Testuale: Si utilizza la similarità coseno tra le feature testuali generate dai prompt e i prototipi semantici derivati dall'LLM. Questo previene lo spostamento semantico delle descrizioni di classe.

C. Bias Strutturale (Structural Bias) e Correzione Incrementale

Mantenersi nel vicinato geometrico non è sufficiente, poiché potrebbero esistere ancora soluzioni locali basate su scorciatoie (shortcuts). ManiPT introduce un bias strutturale tramite una fusione additiva normalizzata:

Le feature finali per la classificazione non sono solo quelle del ramo dei prompt, ma la somma normalizzata delle feature congelate (CLIP) e delle feature adattate (Prompt).
Formula: $f = \frac{z_{frozen} + h_{prompt}}{\|z_{frozen} + h_{prompt}\|}$ .
Effetto: Questa architettura impone matematicamente che l'apprendimento avvenga come una correzione incrementale rispetto alla rappresentazione originale, guidando l'adattamento lungo direzioni trasferibili e sopprimendo la dipendenza da componenti di shortcut specifici del dataset.

3. Contributi Chiave

Identificazione della Deriva del Manifold: Gli autori formalizzano il concetto di "manifold drift" come fattore critico che limita la generalizzazione nel prompt tuning sotto supervisione limitata, proponendo una metrica quantitativa basata sulla PCA per misurarla.
Framework ManiPT: Introduzione di un metodo che combina vincoli di coerenza geometrica (cosine consistency) e un bias strutturale per forzare correzioni incrementali, garantendo che l'adattamento rimanga all'interno del manifold preaddestrato.
Garanzie Teoriche: Forniscono una prova teorica che, a parità di rischio empirico, ManiPT ottiene un limite superiore sul rischio di popolazione (generalization error) inferiore rispetto al prompt tuning standard, grazie alla riduzione della complessità locale e al controllo delle perturbazioni dei logit.
Analisi Completa: Dimostrazione che il metodo supera i baselines in quattro scenari critici: generalizzazione a classi non viste, classificazione few-shot, trasferimento cross-dataset e generalizzazione di dominio.

4. Risultati Sperimentali

Le sperimentazioni sono state condotte su 15 dataset (inclusi ImageNet, Caltech101, OxfordPets, ecc.) e varianti di ImageNet per la generalizzazione di dominio.

Generalizzazione Base-to-Novel: ManiPT ottiene la media più alta (82.09% di Harmonic Mean) su 11 dataset, superando metodi avanzati come CoOp, MaPLe e PromptSRC.
Trasferimento Cross-Dataset: Addestrato su ImageNet e testato su 10 altri dataset, ManiPT raggiunge il 68.04% di accuratezza media, superando di gran lunga i competitor.
Few-Shot Classification: In scenari con 1, 2, 4, 8 e 16 esempi, ManiPT mostra guadagni significativi, specialmente nei casi più critici (1-shot e 2-shot), dove l'overfitting è più probabile.
Generalizzazione di Dominio: Su varianti di ImageNet (es. Sketch, Adversarial), ManiPT mantiene una robustezza superiore, confermando che l'ancoraggio al backbone congelato filtra il rumore specifico del dominio.
Analisi della Deriva: Le misurazioni quantitative confermano che ManiPT mantiene un valore di "Manifold Drift" ( $\Delta$ ) vicino a zero, a differenza di altri metodi che mostrano una deriva significativa.

5. Significato e Impatto

Il lavoro di ManiPT offre una nuova prospettiva teorica e pratica sull'adattamento dei modelli foundation:

Cambiamento di Paradigma: Sposta il focus dal semplice aumento della plasticità dei prompt (che porta all'overfitting) al controllo geometrico dell'adattamento.
Soluzione all'Overfitting: Dimostra che l'overfitting in regime a pochi dati non è solo un problema di capacità del modello, ma di deviazione geometrica dalle rappresentazioni robuste apprese durante il preaddestramento.
Efficienza: Nonostante la fusione a due rami (dual-branch) introduca un leggero aumento di latenza rispetto ai metodi a singolo ramo, ManiPT rimane estremamente efficiente in termini di parametri (solo 0.25M parametri apprendibili) e tempo di training, rendendolo adatto per il deployment reale.
Implicazioni Future: Il metodo suggerisce che per adattamenti sicuri in scenari con dati limitati, è fondamentale preservare la struttura geometrica del manifold preaddestrato, utilizzando vincoli espliciti e bias strutturali per guidare l'ottimizzazione.

In sintesi, ManiPT risolve il dilemma tra adattabilità e stabilità nei VLM, garantendo che l'apprendimento su piccoli dataset avvenga come un raffinamento sicuro delle conoscenze preesistenti piuttosto che come una riscrittura rischiosa delle rappresentazioni.