Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs

Il paper propone InterNeg, un framework innovativo che migliora il rilevamento di distribuzioni fuori dal dominio (OOD) nei modelli visione-linguaggio (VLM) risolvendo l'inconsistenza delle distanze intra-modalità attraverso una selezione coerente di testi negativi e la generazione dinamica di embedding testuali guidati dalla distanza inter-modalità, ottenendo risultati state-of-the-art su diversi benchmark.

Zhikang Xu, Qianqian Xu, Zitai Wang, Cong Hua, Sicong Li, Zhiyong Yang, Qingming Huang

Pubblicato 2026-03-12
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un super-esperto (chiamiamolo "Il Visionario") che ha studiato milioni di libri e foto. Questo esperto è bravissimo a riconoscere cose che conosce: sa dire subito se una foto è di un "gatto", di un "cane" o di un "gatto selvatico".

Tuttavia, c'è un problema. Se mostri a questo esperto una foto di qualcosa che non ha mai visto prima, come un alieno o una tostapane volante, lui non dirà: "Non lo so!". No, lui sarà così sicuro di sé che proverà a indovinare, dicendo: "Ah, è un gatto!" o "È un cane!", anche se è palesemente sbagliato. Questo è pericoloso, specialmente se l'esperto guida un'auto a guida autonoma o fa una diagnosi medica.

Il compito di rilevare l'ignoto (chiamato in gergo tecnico Out-of-Distribution o OOD) è proprio questo: insegnare all'esperto a dire "Ehi, questa cosa non so cosa sia, non è né un gatto né un cane, è qualcosa di strano!".

Il Problema: La "Bussola" Sbagliata

Fino a poco tempo fa, i ricercatori cercavano di risolvere questo problema usando una strategia un po' strana. Immagina che il Visionario sia stato addestrato guardando coppie (una foto e la sua descrizione scritta). Per lui, la distanza tra una foto e la sua descrizione è la cosa più importante.

Ma i metodi precedenti, per insegnargli a riconoscere l'ignoto, facevano un confronto "interno":

  • Confrontavano la foto con altre foto.
  • Confrontavano le parole con altre parole.

È come se cercassimo di capire se due persone si somigliano guardando solo i loro vestiti (foto con foto) o solo le loro voci (parole con parole), ignorando il fatto che il Visionario è stato addestrato a collegare vestito e voce insieme. Questo crea una confusione: l'esperto usa una "bussola" sbagliata e finisce per sbagliare ancora di più.

La Soluzione: InterNeg (Il "Detective Coerente")

Gli autori di questo paper, guidati da Zhikang Xu e colleghi, hanno creato un nuovo metodo chiamato InterNeg. La loro idea è semplice ma geniale: "Usiamo sempre la stessa bussola che il Visionario ama", ovvero quella che collega foto e parole insieme.

Ecco come funziona, diviso in due passi creativi:

1. La Selezione delle "Parole Sbagliate" (Lato Testuale)

Per insegnare all'esperto cosa non è, dobbiamo dargli una lista di cose che sono l'opposto di quello che conosce.

  • Metodo vecchio: Prendeva parole a caso che sembravano diverse dalle parole conosciute.
  • Metodo InterNeg: Prende le foto delle cose che l'esperto conosce (es. un gatto), le trasforma in "parole" (o viceversa) e sceglie solo le parole che sono lontane sia dalla foto del gatto che dalla parola "gatto".
  • Analogia: Immagina di voler insegnare a un bambino a non confondere un "gatto" con un "sasso". Non gli mostri un sasso a caso. Gli mostri un sasso che, se lo guardi insieme alla foto di un gatto, fa dire al bambino: "Ehi, questi due non hanno nulla in comune!". InterNeg sceglie solo queste "parole sasso" perfette.

2. La "Trasformazione Magica" (Lato Visivo)

A volte, durante il test, l'esperto incontra una foto così strana che è quasi certo che sia un "alieno".

  • Metodo vecchio: Si fermava lì.
  • Metodo InterNeg: Prende quella foto strana, la "trasforma" magicamente in una descrizione testuale (usando una tecnica chiamata inversione di modalità) e la aggiunge alla lista delle cose "sbagliate" da evitare.
  • Analogia: È come se l'esperto vedesse un mostro strano, lo disegnasse su un foglio di carta (trasformandolo in testo) e dicesse: "Guarda, questo disegno è così diverso da un gatto che lo aggiungo alla lista dei 'non-gatti' per essere sicuro di non confonderlo mai più".

Perché è così bravo?

Il metodo InterNeg ha due superpoteri:

  1. Coerenza: Non usa mai la "bussola" sbagliata. Usa sempre il collegamento tra foto e testo, proprio come l'esperto è stato addestrato a fare.
  2. Adattabilità: Se incontra qualcosa di molto strano, lo trasforma in un nuovo esempio da imparare al volo, senza bisogno di riaddestrare tutto il sistema da zero.

I Risultati

I test hanno mostrato che questo metodo è il migliore al mondo (State-of-the-Art).

  • Su un banco di prova gigante (ImageNet), ha ridotto gli errori del 3,5% rispetto ai migliori metodi precedenti.
  • Su banchi di prova molto difficili (dove le cose strane sembrano quasi quelle normali), ha migliorato la precisione del 5,5%.

In Sintesi

Immagina di dover insegnare a un cane a non abbaiare a cose che non sono gatti.

  • I metodi vecchi gli mostravano foto di gatti e foto di cose strane, chiedendogli di confrontare le foto tra loro. Il cane si confondeva.
  • InterNeg prende la foto del gatto, la trasforma in un suono ("Miao"), prende la cosa strana, la trasforma in un suono ("Bip"), e dice al cane: "Se senti 'Miao' e 'Bip' insieme, non abbaiare, perché sono troppo diversi!".

È un approccio più intelligente, più coerente e che funziona meglio, permettendo all'intelligenza artificiale di essere più sicura e affidabile nel mondo reale, dove le cose impreviste accadono ogni giorno.