Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un super-esperto (chiamiamolo "Il Visionario") che ha studiato milioni di libri e foto. Questo esperto è bravissimo a riconoscere cose che conosce: sa dire subito se una foto è di un "gatto", di un "cane" o di un "gatto selvatico".

Tuttavia, c'è un problema. Se mostri a questo esperto una foto di qualcosa che non ha mai visto prima, come un alieno o una tostapane volante, lui non dirà: "Non lo so!". No, lui sarà così sicuro di sé che proverà a indovinare, dicendo: "Ah, è un gatto!" o "È un cane!", anche se è palesemente sbagliato. Questo è pericoloso, specialmente se l'esperto guida un'auto a guida autonoma o fa una diagnosi medica.

Il compito di rilevare l'ignoto (chiamato in gergo tecnico Out-of-Distribution o OOD) è proprio questo: insegnare all'esperto a dire "Ehi, questa cosa non so cosa sia, non è né un gatto né un cane, è qualcosa di strano!".

Il Problema: La "Bussola" Sbagliata

Fino a poco tempo fa, i ricercatori cercavano di risolvere questo problema usando una strategia un po' strana. Immagina che il Visionario sia stato addestrato guardando coppie (una foto e la sua descrizione scritta). Per lui, la distanza tra una foto e la sua descrizione è la cosa più importante.

Ma i metodi precedenti, per insegnargli a riconoscere l'ignoto, facevano un confronto "interno":

Confrontavano la foto con altre foto.
Confrontavano le parole con altre parole.

È come se cercassimo di capire se due persone si somigliano guardando solo i loro vestiti (foto con foto) o solo le loro voci (parole con parole), ignorando il fatto che il Visionario è stato addestrato a collegare vestito e voce insieme. Questo crea una confusione: l'esperto usa una "bussola" sbagliata e finisce per sbagliare ancora di più.

La Soluzione: InterNeg (Il "Detective Coerente")

Gli autori di questo paper, guidati da Zhikang Xu e colleghi, hanno creato un nuovo metodo chiamato InterNeg. La loro idea è semplice ma geniale: "Usiamo sempre la stessa bussola che il Visionario ama", ovvero quella che collega foto e parole insieme.

Ecco come funziona, diviso in due passi creativi:

1. La Selezione delle "Parole Sbagliate" (Lato Testuale)

Per insegnare all'esperto cosa non è, dobbiamo dargli una lista di cose che sono l'opposto di quello che conosce.

Metodo vecchio: Prendeva parole a caso che sembravano diverse dalle parole conosciute.
Metodo InterNeg: Prende le foto delle cose che l'esperto conosce (es. un gatto), le trasforma in "parole" (o viceversa) e sceglie solo le parole che sono lontane sia dalla foto del gatto che dalla parola "gatto".
Analogia: Immagina di voler insegnare a un bambino a non confondere un "gatto" con un "sasso". Non gli mostri un sasso a caso. Gli mostri un sasso che, se lo guardi insieme alla foto di un gatto, fa dire al bambino: "Ehi, questi due non hanno nulla in comune!". InterNeg sceglie solo queste "parole sasso" perfette.

2. La "Trasformazione Magica" (Lato Visivo)

A volte, durante il test, l'esperto incontra una foto così strana che è quasi certo che sia un "alieno".

Metodo vecchio: Si fermava lì.
Metodo InterNeg: Prende quella foto strana, la "trasforma" magicamente in una descrizione testuale (usando una tecnica chiamata inversione di modalità) e la aggiunge alla lista delle cose "sbagliate" da evitare.
Analogia: È come se l'esperto vedesse un mostro strano, lo disegnasse su un foglio di carta (trasformandolo in testo) e dicesse: "Guarda, questo disegno è così diverso da un gatto che lo aggiungo alla lista dei 'non-gatti' per essere sicuro di non confonderlo mai più".

Perché è così bravo?

Il metodo InterNeg ha due superpoteri:

Coerenza: Non usa mai la "bussola" sbagliata. Usa sempre il collegamento tra foto e testo, proprio come l'esperto è stato addestrato a fare.
Adattabilità: Se incontra qualcosa di molto strano, lo trasforma in un nuovo esempio da imparare al volo, senza bisogno di riaddestrare tutto il sistema da zero.

I Risultati

I test hanno mostrato che questo metodo è il migliore al mondo (State-of-the-Art).

Su un banco di prova gigante (ImageNet), ha ridotto gli errori del 3,5% rispetto ai migliori metodi precedenti.
Su banchi di prova molto difficili (dove le cose strane sembrano quasi quelle normali), ha migliorato la precisione del 5,5%.

In Sintesi

Immagina di dover insegnare a un cane a non abbaiare a cose che non sono gatti.

I metodi vecchi gli mostravano foto di gatti e foto di cose strane, chiedendogli di confrontare le foto tra loro. Il cane si confondeva.
InterNeg prende la foto del gatto, la trasforma in un suono ("Miao"), prende la cosa strana, la trasforma in un suono ("Bip"), e dice al cane: "Se senti 'Miao' e 'Bip' insieme, non abbaiare, perché sono troppo diversi!".

È un approccio più intelligente, più coerente e che funziona meglio, permettendo all'intelligenza artificiale di essere più sicura e affidabile nel mondo reale, dove le cose impreviste accadono ogni giorno.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Incoerenza delle Distanze nei VLM per l'OOD Detection

L'obiettivo principale della ricerca è migliorare il rilevamento dei dati Out-of-Distribution (OOD), ovvero l'identificazione di campioni provenienti da classi sconosciute, un compito cruciale per l'implementazione sicura dei modelli di machine learning in scenari open-world.

Recentemente, i Vision-Language Models (VLM) come CLIP sono stati utilizzati per l'OOD detection grazie alle loro rappresentazioni multimodali. Tuttavia, il paper identifica un problema fondamentale nelle metodologie attuali (es. NegLabel, AdaNeg):

Incoerenza Intrinseca: I metodi esistenti selezionano testi negativi o confrontano immagini basandosi sulla distanza intra-modale (es. distanza testo-testo o immagine-immagine).
L'Obiettivo di Ottimizzazione: I VLM come CLIP sono invece ottimizzati tramite apprendimento contrastivo per massimizzare la distanza inter-modale (distanza tra immagine e testo corrispondente) e minimizzarla per le coppie non corrispondenti.
Conseguenza: Utilizzare una metrica di distanza intra-modale per la selezione dei negativi crea un disallineamento con l'obiettivo di ottimizzazione del modello. Questo porta a una performance subottimale e a errori di classificazione, dove immagini In-Distribution (ID) vengono erroneamente classificate come OOD (o viceversa) perché la distanza intra-modale tra un testo negativo e un'etichetta ID è grande, ma la loro distanza inter-modale rispetto all'immagine di test potrebbe essere piccola.

2. Metodologia: InterNeg

Per risolvere questo problema, gli autori propongono InterNeg, un framework semplice ma efficace che garantisce la coerenza della distanza inter-modale sia dal punto di vista testuale che visivo, senza richiedere l'addestramento su dati ID o dati extra.

Il metodo si articola in due componenti principali:

A. Selezione Guidata da Distanza Inter-Modale (Prospettiva Testuale)

Invece di selezionare testi negativi basandosi solo sulla loro dissimilarità semantica dalle etichette ID (distanza testo-testo), InterNeg introduce un criterio basato sulla distanza inter-modale:

Proxy Immagine ID: Si campionano alcune immagini ID per classe e se ne calcola la media delle embedding per creare "proxy immagine" ( $p_i$ ).
Distanza Base: Si calcola la distanza inter-modale di base tra il testo dell'etichetta ID ( $e_i$ ) e il suo proxy immagine ( $p_i$ ).
Selezione dei Negativi: Un testo candidato viene selezionato come negativo solo se la sua distanza inter-modale rispetto a tutti i proxy immagine ID è maggiore della distanza di base. Questo garantisce che i testi negativi siano effettivamente distanti nello spazio multimodale su cui CLIP è stato addestrato.

B. Inversione di Immagini OOD ad Alta Confidenza (Prospettiva Visuale)

Durante l'inferenza, il metodo sfrutta dinamicamente le immagini OOD identificate con alta confidenza per generare embedding di testo negativi aggiuntivi:

Identificazione: Le immagini con un punteggio OOD basso (alta confidenza di essere OOD) vengono selezionate.
Inversione di Modaltà (Modality Inversion): Queste immagini vengono "invertite" nello spazio testuale. Si ottimizza un insieme di token pseudo-testuali per minimizzare la distanza coseno tra l'embedding dell'immagine OOD e l'embedding del testo generato. Questo crea un embedding di testo negativo specifico per quell'immagine.
Filtraggio Dinamico: Poiché la soglia per identificare le immagini OOD può introdurre rumore, viene applicato un filtro: i nuovi embedding di testo generati vengono accettati solo se soddisfano il criterio di distanza inter-modale (simile al punto A).
Punteggio Finale: Il punteggio OOD finale viene calcolato considerando le etichette ID, i testi negativi selezionati e gli embedding di testo negativi extra generati dinamicamente.

3. Contributi Chiave

Identificazione del Problema: Gli autori sono i primi a evidenziare formalmente l'incoerenza tra l'uso di distanze intra-modali nei metodi OOD esistenti e l'obiettivo di ottimizzazione inter-modale dei VLM, spiegando come ciò porti a errori di classificazione (Max-OOD e Sum-OOD dominant).
Proposta InterNeg: Sviluppo di un metodo che allinea la selezione dei testi negativi e la generazione di embedding aggiuntivi con la distanza inter-modale, senza necessità di ri-addestramento del modello (Zero-Shot).
Robustezza e Semplicità: Il metodo non richiede dati ID per l'addestramento, ma utilizza solo un piccolo numero di immagini ID (proxy) per il calcolo delle distanze di base, rendendolo pratico per scenari reali.

4. Risultati Sperimentali

Il metodo è stato valutato su diversi benchmark, dimostrando prestazioni State-of-the-Art (SOTA):

Benchmark Four-OOD (ImageNet-1K):
- Riduzione del 3.47% nel tasso di Falsi Positivi al 95% (FPR95) rispetto ai metodi esistenti.
- Miglioramento dello 0.77% nell'AUROC.
- Supera significativamente metodi che richiedono addestramento su dati ID (es. LoCoOp, NegPrompt) e altri metodi Zero-Shot (es. NegLabel, AdaNeg).
Benchmark Near-OOD (OpenOOD):
- Questo scenario è più difficile poiché le classi OOD sono semanticamente simili a quelle ID.
- Miglioramento del 5.50% nell'AUROC.
- Riduzione del 2.09% nel FPR95.
- InterNeg diventa competitivo con i metodi che richiedono l'addestramento, pur rimanendo un approccio Zero-Shot.
Robustezza: Gli studi di ablazione confermano che entrambi i componenti (selezione testi e inversione immagini) sono essenziali. Il metodo mantiene alte prestazioni anche con dati sbilanciati (rapporti ID:OOD variabili) e su diverse architetture CLIP (ResNet, ViT).

5. Significato e Impatto

Il lavoro di InterNeg è significativo perché:

Corregge un errore paradigmatico: Sposta il focus dalla semplice espansione del vocabolario (aggiunta di testi negativi) alla corretta allineamento metrico con l'obiettivo di addestramento del modello VLM.
Efficienza: Dimostra che è possibile ottenere prestazioni superiori senza costi computazionali di addestramento, utilizzando solo inferenza e un minimo di dati di riferimento per i proxy.
Affidabilità in Open-World: Migliora la sicurezza dei sistemi di visione artificiale riducendo la probabilità che immagini sconosciute vengano classificate erroneamente come note, un requisito critico per applicazioni come la guida autonoma e la diagnosi medica.

In sintesi, InterNeg risolve il problema della "coerenza della distanza" nei VLM, fornendo un approccio robusto, semplice e altamente performante per il rilevamento di dati fuori distribuzione.