Local-Global Prompt Learning via Sparse Optimal Transport

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un super-ricercatore (chiamiamolo CLIP) che ha letto milioni di libri e guardato milioni di foto. È bravissimo a capire di cosa parla un'immagine in generale: se vede un cane, sa che è un cane. Ma se gli chiedi di distinguere tra due razze di cani molto simili, o di notare un dettaglio specifico come una macchia particolare sul pelo, a volte si confonde perché guarda l'immagine "tutta insieme", come se fosse un quadro visto da lontano.

Gli scienziati hanno provato a insegnargli a fare meglio con pochi esempi (pochi campioni di addestramento), scrivendo delle "istruzioni" o prompt (come "una foto di un cane"). Ma c'era un problema: queste istruzioni guardavano l'immagine intera, perdendo i dettagli fini.

Altri ricercatori hanno provato a far guardare al super-ricercatore solo le parti importanti (gli occhi, le ali, le ruote), ma hanno fatto un errore: ogni istruzione guardava le parti a caso, e spesso tutte le istruzioni guardavano la stessa cosa, ignorando il resto. Era come se cinque detective investigassero un crimine, ma tutti guardassero solo la finestra, ignorando la porta e il pavimento.

La Soluzione: SOT-GLP (Il Detective Organizzato)

Gli autori di questo paper hanno creato un nuovo metodo chiamato SOT-GLP. Immaginalo come un capo squadra di detective molto organizzato. Ecco come funziona, passo dopo passo:

1. Due Squadre di Detective (Il ramo Globale e il Locale)

Il sistema ha due squadre che lavorano insieme:

La Squadra Globale: Guarda l'immagine intera. È brava a dire "Sì, questo è un animale" o "No, è un'auto". Mantiene la visione d'insieme.
La Squadra Locale: È specializzata nei dettagli. Non guarda tutto, ma si concentra solo sulle parti interessanti (le "macchie" salienti), ignorando il rumore di fondo (come l'erba o il cielo).

2. Il Problema del "Tutti alla stessa finestra"

Prima, ogni detective della squadra locale sceglieva la sua parte da guardare da solo. Risultato? Tutti guardavano lo stesso dettaglio (es. tutti guardavano la testa del cane), lasciando le zampe e la coda ignorate. Era uno spreco di energie.

3. La Magia del "Trasporto Ottimo" (L'Organizzatore)

Qui entra in gioco l'idea geniale del paper: Trasporto Ottimo.
Immagina di avere un gruppo di pezzi di puzzle (le parti dell'immagine) e un gruppo di detective (le istruzioni per ogni tipo di animale).
Invece di lasciare che ogni detective scelga a caso il pezzo che gli piace di più, l'organizzatore usa una regola matematica intelligente (chiamata Trasporto Ottimo) per distribuire equamente i pezzi.

Il detective 1 prende la testa.
Il detective 2 prende la coda.
Il detective 3 prende le zampe.

Nessuno si sovrappone, nessuno si perde. Ogni detective si specializza in una parte diversa, e insieme coprono tutto l'animale perfettamente. Questo si chiama partizione sparsa: si scelgono solo i pezzi importanti e si dividono in modo equilibrato.

4. Il Compromesso: Precisione vs. Sicurezza (Il "Filtro")

Gli scienziati hanno scoperto una cosa curiosa.

Se lasciano che i detective imparino a modificare leggermente i loro occhiali (un "proiettore" apprendibile), diventano super-bravi a riconoscere gli animali che hanno già visto (alta precisione sui dati noti).
Ma se tolgono questi occhiali modificati e lasciano che i detective usino la loro vista naturale (quella con cui sono nati), diventano molto più bravi a dire "Ehi, questo non è un animale che conosco!" quando vedono qualcosa di strano (rilevamento di cose fuori dal comune).

È come se un detective, se specializzato troppo su un caso specifico, diventasse cieco ai crimini strani. Se invece mantiene la sua vista naturale, è più sicuro nel dire "Questo non c'entra nulla".

In Sintesi

Questo metodo è come avere un team di detective che:

Guarda l'immagine da lontano per capire il contesto.
Si divide i dettagli importanti in modo equo (nessuno ruba il lavoro all'altro).
Può scegliere se essere un super-esperto di casi noti o un guardiano molto attento alle cose strane.

Il risultato? È il metodo più preciso finora per riconoscere oggetti con pochi esempi, e allo stesso tempo è il migliore nel capire quando qualcosa "non va" o non appartiene al gruppo. È un equilibrio perfetto tra vedere il quadro generale e notare i dettagli minuscoli.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'adattamento few-shot dei Modelli Vision-Language (VLM) come CLIP si basa tradizionalmente sull'apprendimento di prompt testuali che vengono allineati a un embedding globale dell'immagine (tipicamente il token [CLS]). Sebbene questo approccio riduca il divario di dominio, presenta due limiti fondamentali:

Perdita di dettagli fini: L'obiettivo di allineamento globale media su tutte le regioni spaziali, scartando caratteristiche locali critiche (parti di oggetti, texture, configurazioni spaziali) necessarie per discriminare categorie simili e rilevare campioni Out-of-Distribution (OOD).
Sovrapposizione e ridondanza: I metodi recenti che tentano di utilizzare caratteristiche locali spesso selezionano regioni indipendentemente per ogni prompt. Questo porta a una ridondanza delle caratteristiche locali (più prompt che si focalizzano sulle stesse aree) e a una specializzazione inefficace, limitando la capacità del modello di distinguere dettagli sottili.

2. Metodologia: SOT-GLP

Gli autori propongono SOT-GLP (Sparse Optimal Transport Guided Local-Global Prompt Learning), un framework che integra l'allineamento globale con una modellazione esplicita della struttura spaziale fine-granularità. L'architettura è composta da due rami complementari:

A. Architettura Dual-Branch

Ramo Globale: Mantiene l'allineamento immagine-testo standard di CLIP utilizzando il token [CLS] e prompt globali condivisi. Questo garantisce una generalizzazione robusta a livello di categoria e stabilizza l'adattamento.
Ramo Locale:
- Estrazione delle Feature: Utilizza un flusso parallelo di attenzione Value-Value (V-V) invece della classica attenzione Query-Key. L'attenzione V-V correla direttamente le rappresentazioni "valore", rafforzando le interazioni tra patch e producendo feature locali più discriminative e meno sensibili al rumore di sfondo.
- Prompt Locali: Vengono appresi prompt specifici per ogni classe ( $P^l_c$ ) per catturare attributi discriminativi unici (es. texture, parti specifiche).

B. Meccanismi Chiave

Sparsificazione Guidata dalla Saliency: Per evitare l'interferenza dello sfondo, il modello calcola una mappa di salienza per ogni classe e seleziona un insieme condiviso di $K$ patch più rilevanti (Top-K). Questo crea un "supporto comune" pulito.
Trasporto Ottimo Spars (Sparse Optimal Transport - OT):
- Invece di assegnare le patch ai prompt in modo indipendente, il metodo formula l'allineamento come un problema di Trasporto Ottimo bilanciato.
- Vengono impostati vincoli di margine uniformi: ogni prompt deve ricevere una massa di assegnazione comparabile.
- Questo meccanismo previene il collasso dei prompt (dove tutti i prompt si focalizzano sulla stessa patch dominante) e forza una partizione morbida delle patch tra i diversi prompt specifici per classe, garantendo una specializzazione diversificata.

C. Obiettivo di Addestramento

La funzione di perdita combina la perdita globale (cross-entropy standard) e la perdita locale (cross-entropy sui punteggi di similarità ottenuti tramite OT). Durante l'inferenza, i punteggi finali sono una somma pesata dei punteggi globali e locali.

3. Contributi Chiave

Assegnazione Ottimizzata delle Evidenze Locali: Introdurre un supporto di patch condiviso e un'allocazione bilanciata tramite OT risolve il problema della ridondanza e della sovrapposizione nei metodi di prompt learning locali.
Scoperta del Trade-off Accuratezza-Robustezza: Gli autori identificano un compromesso fondamentale nell'apprendimento dei prompt:
- L'uso di una proiezione locale apprendibile massimizza l'accuratezza in-distribution (few-shot).
- La rimozione di questa proiezione preserva la geometria nativa dello spazio delle feature pre-addestrato di CLIP, risultando in prestazioni di rilevamento OOD (Out-of-Distribution) state-of-the-art, pur mantenendo un'accuratezza quasi invariata.
Uso dell'Attenzione V-V: Sono i primi a riutilizzare l'attenzione Value-Value come flusso dedicato per l'estrazione di feature locali, migliorando la discriminazione senza degradare la semantica globale.

4. Risultati Sperimentali

Il metodo è stato valutato su 11 benchmark standard e per il rilevamento OOD.

Classificazione Few-Shot:
- Su 11 dataset con 16 shot (ViT-B/16), SOT-GLP raggiunge un'accuratezza media del 85.1%, superando tutti i metodi di prompt learning precedenti (inclusi GalLoP, PLOT, CoOp).
- I miglioramenti sono particolarmente evidenti su dataset che richiedono dettagli fini (es. Flowers102, DTD per le texture, UCF101 per le azioni).
Rilevamento Out-of-Distribution (OOD):
- La variante senza proiezione locale (SOT-GLP w/o proj.) ottiene prestazioni OOD eccezionali: 94.2% AUC e 23.8 FPR95, superando di gran lunga i modelli completamente adattati e i metodi basati su CLIP puro.
- Questo dimostra che preservare la geometria originale di CLIP è cruciale per la robustezza alle distribuzioni non viste.
Analisi di Ablazione:
- Rimuovere l'attenzione V-V riduce l'accuratezza media (confermando l'importanza delle feature locali).
- Rimuovere i prompt specifici per classe riduce le prestazioni su dataset fine-granularità, confermando la necessità di specializzazione.

5. Significato e Implicazioni

SOT-GLP rappresenta un avanzamento significativo nell'adattamento efficiente dei VLM.

Efficienza e Precisione: Dimostra che è possibile combinare la robustezza dell'allineamento globale con la precisione dell'allineamento locale senza i costi computazionali eccessivi o le ridondanze dei metodi densi precedenti.
Flessibilità Operativa: Offre ai praticanti una scelta configurabile: massimizzare l'accuratezza su categorie note (con proiezione) o massimizzare la sicurezza e la robustezza contro dati anomali (senza proiezione), risolvendo il dilemma tra adattamento e preservazione della conoscenza pre-addestrata.
Generalizzabilità: Il metodo funziona bene su domini diversificati (oggetti, scene, texture, azioni) senza bisogno di iperparametri specifici per dataset, rendendolo una soluzione robusta per applicazioni reali.

In sintesi, SOT-GLP risolve il problema della "cecità spaziale" dei prompt globali e della "confusione spaziale" dei prompt locali, fornendo un framework unificato che eccelle sia nella classificazione few-shot che nella sicurezza dei modelli (OOD detection).