From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Each language version is independently generated for its own context, not a direct translation.

Il Problema: L'Autista che vede solo ciò che ha studiato

Immagina di avere un autista robotico (un'intelligenza artificiale) che guida un'auto. Finora, questo robot è stato addestrato in una scuola di guida molto rigida. Gli hanno mostrato foto di auto, camion e biciclette. Se vede un'auto, dice "È un'auto!". Se vede un camion, dice "È un camion!".

Ma cosa succede se, mentre guida, incontra per la prima volta un unicorno o un drone che non gli hanno mai insegnato?

Il vecchio metodo (Chiuso): Il robot è confuso. Potrebbe dire "È un'auto!" (perché ha quattro ruote) e commettere un errore pericoloso, oppure ignorarlo completamente pensando che sia un'ombra.
Il metodo "Vocabolario Aperto" (OVD): È un passo avanti. Il robot ha un dizionario infinito. Se gli chiedi "Cerca un drone", lui cerca. Ma se non gli dai il nome esatto nel dizionario, non sa cosa cercare. Se vede un unicorno, potrebbe chiamarlo "cavallo" perché si assomiglia, oppure non vederlo affatto.

Il problema è che nel mondo reale (come guidare in città), le cose nuove appaiono continuamente e non possiamo aggiornare il dizionario del robot ogni secondo.

La Soluzione: Il "Detective" che impara sul campo

Gli autori di questo studio hanno creato un nuovo sistema che permette al robot di operare in un "Mondo Aperto". Non solo riconosce ciò che sa, ma scopre ciò che non conosce e impara a riconoscerlo per la prossima volta, senza dimenticare le vecchie conoscenze.

Hanno usato due trucchi magici (tecniche) per farlo:

1. OWEL: Il "Finto Ignorante" (Open World Embedding Learning)

Immagina che il robot abbia una mappa mentale delle cose che conosce (le "classi note"). Quando incontra qualcosa di sconosciuto, invece di cercare di indovinare il nome sbagliato, il sistema crea un "Finto Ignorante".

L'analogia: Pensa a un cerchio che contiene tutte le cose che il robot conosce (auto, cani, gatti). Al centro c'è il concetto generico di "Oggetto".
Il trucco: Il sistema prende il concetto di "Oggetto" e sottrae mentalmente tutto ciò che è già nel cerchio delle cose note. Il risultato è un nuovo "punto" nello spazio mentale che rappresenta tutto ciò che NON è nel cerchio.
Risultato: Quando il robot vede un unicorno, questo "Finto Ignorante" dice: "Ehi, questo non è né un'auto né un cane! È qualcosa di nuovo!". Invece di etichettarlo male, lo segna come "Sconosciuto" e lo impara per la volta successiva.

2. MSCAL: La "Lente Multi-Livello" (Multi-Scale Contrastive Anchor Learning)

A volte le cose nuove sembrano molto simili a quelle vecchie (un cane che assomiglia a un lupo). Il robot potrebbe confondersi.

L'analogia: Immagina di avere diversi gruppi di amici (le classi note). Ogni gruppo ha un "capogruppo" (un'ancora) con cui i membri si stringono forte.
Il trucco: Il sistema usa una lente che guarda l'immagine a diverse dimensioni (da vicino, da lontano, in dettaglio). Se un oggetto non si avvicina abbastanza al "capogruppo" di nessun gruppo noto, la lente lo segnala come "Intruso".
Risultato: Anche se un oggetto assomiglia a una cosa nota, se non si "incolla" perfettamente al suo gruppo, il sistema capisce che è un intruso e lo segnala, evitando di dire "È un cane" quando in realtà è un lupo.

Perché è rivoluzionario?

Non dimentica mai: I vecchi sistemi, quando imparavano una cosa nuova, spesso dimenticavano le cose vecchie (come se avessi la memoria corta). Questo sistema impara le nuove cose "congelando" le vecchie conoscenze e aggiungendo solo nuovi pezzi al puzzle.
Funziona senza riaddestramento: Non serve fermare l'auto e riaddestrare il motore ogni volta che appare un nuovo veicolo. Il sistema si adatta in tempo reale.
Mantiene la magia del "Zero-Shot": Il robot mantiene la sua capacità di capire parole nuove (grazie al dizionario) ma aggiunge la capacità di vedere cose che non ha mai sentito nominare.

In sintesi

Prima, i robot vedevano il mondo come un muso di un puzzle dove mancavano pezzi: se un pezzo non c'era, il robot lo ignorava o lo metteva nel posto sbagliato.
Ora, con questo nuovo metodo, il robot ha una mappa dinamica. Se trova un pezzo nuovo, lo riconosce come "nuovo", lo mette nella mappa e impara a usarlo per il futuro, senza cancellare la mappa di prima. È come insegnare a un bambino a guidare: non gli diciamo solo "questo è un semaforo", ma gli insegniamo a dire "questo è qualcosa di nuovo, fermiamoci e guardiamolo meglio".

Questo è fondamentale per le auto a guida autonoma: non possiamo prevedere ogni singolo oggetto che incontreranno sulla strada, ma possiamo insegnar loro a riconoscere l'ignoto e a non farsi ingannare.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'articolo affronta le limitazioni attuali dei modelli di rilevamento degli oggetti, che operano tipicamente sotto l'ipotesi di insieme chiuso (closed-set), ovvero possono rilevare solo le categorie predefinite durante l'addestramento.

Open Vocabulary Object Detection (OVD): I recenti modelli OVD (basati su pre-addestramento visione-linguaggio come CLIP) possono rilevare oggetti definiti da un vocabolario potenzialmente illimitato. Tuttavia, dipendono fortemente da prompt testuali precisi forniti da un "oracolo". In scenari reali (es. guida autonoma), questo è insufficiente.
Limiti dell'OVD:
- NOOD (Near-Out-of-Distribution): Gli oggetti con caratteristiche simili alle classi note ma non presenti nel prompt vengono spesso classificati erroneamente come classi note.
- FOOD (Far-Out-of-Distribution): Gli oggetti molto diversi dalle classi note vengono ignorati completamente.
Open World Object Detection (OWOD): L'obiettivo è rilevare sia oggetti noti che sconosciuti e apprendere incrementalemente nuove classi senza dimenticare le conoscenze precedenti (catastrophic forgetting). Le soluzioni attuali spesso richiedono strategie di replay (memorizzare dati passati), che sono inefficienti in termini di risorse, o hanno una bassa capacità di scoprire oggetti sconosciuti.

2. Metodologia Proposta

Gli autori propongono un framework unificato che permette ai modelli OVD di operare in ambienti "open world" identificando e apprendendo incrementalemente oggetti mai visti prima, mantenendo le capacità zero-shot originali. Il sistema si basa su tre componenti principali:

A. Open World Embedding Learning (OWEL)

Obiettivo: Apprendere nuove classi e rilevare oggetti FOOD (Far-Out-of-Distribution) senza fine-tuning dell'intero modello.
Meccanismo: Invece di addestrare l'intero encoder, il metodo ottimizza solo gli embedding delle classi (pesi parametrizzati).
- Le classi note vengono inizializzate con gli embedding testuali di CLIP.
- Quando nuove classi vengono introdotte, gli embedding delle classi precedenti vengono congelati e solo i nuovi vengono addestrati, evitando il catastrophic forgetting.
Pseudo Unknown Embedding: Per rilevare oggetti FOOD, il sistema costruisce dinamicamente un embedding "pseudo-sconosciuto" ( $w_U$ $w_{U}$ ).
- Si parte da un embedding generico per "oggettività" (es. la parola "object").
- Si sottrae la media degli embedding delle classi note ( $\bar{w}$ ) per spostare il focus verso le classi sconosciute: $w_U = w_0 - \alpha \frac{\bar{w}}{||\bar{w}||}$ .
- Questo permette di rilevare oggetti che non corrispondono a nessuna classe nota.

B. Multi-Scale Contrastive Anchor Learning (MSCAL)

Obiettivo: Identificare e rifiutare oggetti NOOD (Near-Out-of-Distribution) che vengono erroneamente classificati come noti.
Meccanismo:
- Per ogni classe nota $i$ , viene addestrato un modulo specifico che mappa le feature pyramid in uno spazio di rappresentazione specifico per quella classe.
- Viene utilizzato un Contrastive Learning multi-scala: le feature positive della classe $i$ vengono avvicinate a un "ancora" (anchor) specifica $\mu_i$ , mentre le feature di altre classi e dello sfondo vengono allontanate.
- Inferenza: Viene calcolato un punteggio OOD (Out-of-Distribution) basato sulla distanza dall'ancora. Se un'area ha un punteggio OOD alto rispetto a tutte le classi note, viene etichettata come oggetto sconosciuto o rifiutata, riducendo la confusione tra noti e ignoti.

C. Architettura Generale

Il modello utilizza YOLO-World come base.

L'encoder delle immagini estrae feature multi-scala.
Il neck (RepVL-PAN) fonde feature visive e testuali.
La testa di rilevamento predice bounding box e classi basandosi sulla similarità coseno tra feature e embedding testuali (noti + pseudo-sconosciuto).
Il modulo MSCAL genera mappe di score OOD per filtrare le false rilevazioni.

3. Contributi Chiave

Framework Unificato: Unisce l'apprendimento del vocabolario aperto (OVD) e l'apprendimento nel mondo aperto (OWOD) in un'unica architettura, permettendo l'identificazione di oggetti sconosciuti e l'apprendimento incrementale.
OWEL: Un metodo per apprendere nuove classi e rilevare oggetti FOOD senza fine-tuning completo del modello e senza necessità di exemplar replay (memorizzazione di dati passati), preservando le capacità zero-shot.
MSCAL: Una tecnica di apprendimento contrastivo multi-scala che riduce la confusione tra classi note e sconosciute (NOOD) raggruppando le embedding note attorno ad ancore specifiche.
Nuovo Benchmark: Introduzione di nu-OWODB, un benchmark basato su nuScenes specifico per la guida autonoma, che simula scenari reali complessi con classi sbilanciate e condizioni variabili.

4. Risultati Sperimentali

Il metodo è stato valutato su benchmark standard (M-OWODB, S-OWODB) e sul nuovo benchmark di guida autonoma (nu-OWODB), oltre a mantenere le prestazioni su LVIS per la valutazione OVD zero-shot.

Prestazioni su OWOD: Il metodo supera lo stato dell'arte (SOTA) in modo significativo, specialmente nella U-Recall (recall delle classi sconosciute). Su M-OWODB e S-OWODB, raggiunge un U-Recall molto superiore rispetto a metodi precedenti (es. ORE, OW-DETR, PROB).
Guida Autonoma (nu-OWODB): Su questo benchmark realistico, il metodo supera i SOTA fino al 40% nel rilevamento di oggetti sconosciuti, nonostante il divario di dominio tra i dati di pre-addestramento e le scene stradali reali.
Mantenimento delle Capacità Zero-Shot: Poiché solo gli embedding testuali e i moduli MSCAL vengono ottimizzati (i pesi del modello OVD rimangono congelati), il modello mantiene le sue prestazioni originali di rilevamento open-vocabulary su dataset come LVIS.
Efficienza: Non richiede il replay di dati passati, riducendo l'uso di memoria e risorse computazionali rispetto ai metodi incrementali tradizionali.

5. Significato e Impatto

Questo lavoro rappresenta un passo fondamentale verso l'implementazione di sistemi di visione artificiale sicuri e robusti per applicazioni critiche come la guida autonoma.

Sicurezza: Risolve il problema pericoloso per cui i modelli attuali ignorano o classificano erroneamente oggetti imprevisti (es. un animale raro o un ostacolo insolito sulla strada).
Scalabilità: La capacità di apprendere nuove classi senza riaddestrare l'intero modello o conservare grandi quantità di dati storici rende il sistema praticabile per aggiornamenti continui in scenari reali.
Unificazione: Dimostra che le capacità di comprensione del linguaggio naturale (OVD) possono essere estese efficacemente alla gestione dell'incertezza e dell'ignoto (OWOD) attraverso un'ottimizzazione intelligente degli embedding e meccanismi di contrasto.

In sintesi, il paper propone una soluzione elegante ed efficiente per trasformare i rilevatori di oggetti da sistemi rigidi a sistemi adattivi in grado di operare in un mondo aperto e dinamico.