Interpretable Zero-shot Referring Expression Comprehension with Query-driven Scene Graphs

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere in una stanza piena di oggetti e qualcuno ti chiede: "Portami quel vaso strano che contiene i fiori rossi".

Se sei un umano, non guardi solo il vaso. Guardi la stanza, vedi che ci sono tre vasi, noti che uno è rosso, uno è blu e uno ha una forma strana. Vedi anche che il vaso rosso contiene fiori. Il tuo cervello mette insieme questi indizi (posizione, colore, contenuto) per trovare l'oggetto giusto.

I computer, invece, spesso fanno fatica. I modelli attuali (come CLIP) sono come persone che guardano la foto e cercano di indovinare basandosi solo su una "sensazione" generale: "Questo sembra un vaso, forse è quello?". Spesso si confondono se ci sono troppi oggetti o se la richiesta è complessa.

SGREC è il nuovo metodo proposto dagli autori per risolvere questo problema. Ecco come funziona, passo dopo passo, con delle metafore:

1. Il Problema: Il "Cecchino" che non vede il quadro completo

I vecchi metodi provano a collegare direttamente la frase ("vaso strano") all'immagine. È come cercare di indovinare chi è il colpevole in un crimine guardando solo una foto sfocata e leggendo una descrizione vaga. Spesso sbagliano perché non capiscono le relazioni: "Quale vaso è quello strano? Quale contiene i fiori?".

2. La Soluzione: SGREC (Il Detective con la Mappa)

SGREC non cerca di indovinare direttamente. Invece, agisce come un detective molto organizzato che segue tre passaggi magici:

Passo 1: Il Setaccio Intelligente (Grounding)

Prima di tutto, il sistema legge la tua richiesta ("vaso strano"). Invece di cercare solo la parola "vaso", usa un'intelligenza artificiale (un LLM) per capire il soggetto della frase.

Metafora: Immagina di avere un filtro magico. Se chiedi "il bambino a sinistra", il sistema non cerca solo "bambino", ma capisce che deve guardare anche "sinistra" e "bambino". Se la richiesta è ambigua (es. "la cosa strana"), il sistema chiede all'AI: "Secondo te, a cosa si riferisce questa frase?" e ottiene una risposta più precisa (es. "un vaso").
Poi, scansiona l'immagine e seleziona solo gli oggetti che potrebbero essere quelli giusti, scartando tutto il resto.

Passo 2: La Creazione della Mappa (Scene Graph)

Qui avviene la magia. Il sistema non si limita a guardare l'immagine. Prende gli oggetti selezionati e crea una mappa strutturata (chiamata "Scene Graph").
Immagina di prendere un foglio di carta e scrivere una lista dettagliata per ogni oggetto, come se stessi descrivendo la scena a un amico cieco:

Oggetto 1: "Vaso rosso, alto, contiene fiori rossi. Si trova a sinistra."
Oggetto 2: "Vaso blu, basso, vuoto. Si trova a destra."
Relazione: "Il vaso rosso contiene i fiori."

Invece di dare al computer solo l'immagine, gli dai questa lista di istruzioni testuali. È come trasformare un quadro astratto in un elenco di fatti chiari e ordinati.

Passo 3: Il Ragionatore (LLM)

Ora che ha la mappa (la lista di fatti), passa il compito a un "super-intelligente" (un Large Language Model, come un Chatbot molto avanzato).

Metafora: È come se dessi la tua richiesta ("Voglio il vaso strano con i fiori") a un detective umano che ha davanti la tua lista di appunti dettagliata. Il detective legge la lista, confronta le descrizioni e dice: "Ah, l'oggetto numero 1 corrisponde perfettamente! È quello strano e contiene i fiori".
Il sistema non solo ti dice quale è l'oggetto, ma ti spiega anche perché l'ha scelto, rendendo tutto trasparente e comprensibile.

Perché è così speciale?

Non serve imparare (Zero-Shot): Questo sistema non ha bisogno di essere addestrato su migliaia di esempi specifici. Funziona subito su qualsiasi immagine nuova, perché usa la logica e il linguaggio per capire, non la memoria.
Capisce le relazioni: Mentre i vecchi modelli vedono solo "oggetti", SGREC vede "storie". Capisce che un vaso contiene fiori o che un bambino è accanto a un cane.
È spiegabile: Se sbaglia, puoi leggere la sua "mappa" e capire dove ha fatto confusione. Non è una scatola nera misteriosa.

In sintesi

SGREC è come trasformare il compito di "trovare un oggetto in una foto" da un gioco di indovinelli visivi confusi in un esercizio di logica e lettura.
Invece di far guardare al computer la foto e sperare che capisca, gli diciamo: "Ecco la foto, ecco una lista dettagliata di cosa c'è e come sono collegati. Ora, basandoti su questa lista, dimmi quale oggetto corrisponde alla tua richiesta".

Il risultato? Il computer diventa molto più bravo a capire le sfumature, a seguire le istruzioni complesse e a trovare l'oggetto giusto anche in scene molto affollate, proprio come farebbe un umano attento.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Riferimento a Espressioni (REC) Zero-Shot

Il Referring Expression Comprehension (REC) è il compito di localizzare un oggetto specifico in un'immagine basandosi su una query testuale naturale (es. "il vaso rosso con fiori").
La sfida principale affrontata in questo lavoro è il setting Zero-Shot, ovvero la capacità del modello di localizzare oggetti senza aver mai visto dati di addestramento specifici per il task di REC.

Limitazioni degli approcci attuali: I modelli Vision-Language (VLM) esistenti, come CLIP, tendono a misurare la similarità delle feature tra testo e regioni dell'immagine. Tuttavia, faticano a catturare dettagli visivi fini e, soprattutto, a comprendere le relazioni complesse tra oggetti (spaziali, semantiche, di interazione).
Limitazioni degli LLM: I Large Language Models (LLM) eccellono nel ragionamento semantico, ma non possono "vedere" direttamente le immagini o estrarre feature visive grezze per inferire la posizione di un oggetto.
Obiettivo: Colmare il divario tra la comprensione visiva di basso livello e il ragionamento semantico di alto livello senza addestramento supervisionato.

2. Metodologia: SGREC (Scene Graph Referring Expression Comprehension)

Gli autori propongono SGREC, un framework interpretabile che utilizza Scene Graphs guidati dalla query come intermediari strutturati tra l'immagine e l'LLM. Il processo si articola in tre fasi principali (illustrate nella Figura 3 del paper):

Fase 1: Grounding degli Oggetti (Object Grounding)

Prima di costruire il grafo, il sistema deve identificare quali oggetti nell'immagine sono rilevanti per la query.

Estrazione: Si estraggono i sostantivi dalla query, si prevedono le categorie degli oggetti e si inferisce il "soggetto" della query (es. trasformare "la cosa a sinistra" in "cane" o "tavolo" usando un VLM).
Selezione: Gli oggetti rilevanti vengono selezionati confrontando le etichette dei box rilevati (da un detector pre-addestrato come VinVL) con i termini estratti dalla query, utilizzando la similarità coseno tra embedding word2vec.

Fase 2: Generazione dello Scene Graph (Scene Graph Generation)

Viene costruito un grafo strutturato $SG = (V, E)$ dove i nodi sono gli oggetti e gli archi le relazioni. Per ogni oggetto rilevato, il sistema genera tre tipi di informazioni:

Informazioni Spaziali: Coordinate del bounding box $(x1, y1, x2, y2)$ . A differenza di metodi precedenti che usano moduli spaziali fissi, SGREC passa le coordinate grezze all'LLM, permettendogli di calcolare relazioni spaziali (es. "sinistra", "sopra") tramite ragionamento numerico.
Didascalie degli Oggetti (Object Captions): Utilizzando un VLM (LLaVA), viene generata una descrizione testuale ricca per ogni oggetto, includendo attributi (colore, materiale), azioni e contesto, superando i limiti dei descrittori di attributi predefiniti.
Interazioni (Relazioni): Vengono predette le relazioni tra coppie di oggetti (es. "contiene", "sopra") generando tripletti relazionali. Per ridurre l'ambiguità in scene affollate, le coppie di oggetti vengono evidenziate visivamente (con box rossi e blu) prima di essere passate al VLM per la predizione della relazione.

Fase 3: Inferenza con LLM

Lo Scene Graph generato (in formato JSON strutturato) e la query originale vengono inseriti come prompt in un LLM.

L'LLM analizza la struttura del grafo, le coordinate, le didascalie e le relazioni per dedurre quale oggetto corrisponde alla query.
Il modello restituisce l'ID dell'oggetto target e una spiegazione dettagliata del ragionamento, garantendo l'interpretabilità del processo.

3. Contributi Chiave

Nuovo Framework Zero-Shot: SGREC è il primo metodo a integrare Scene Graphs e LLM per il REC zero-shot, evitando l'addestramento su dati specifici del task.
Modulo di Generazione di Scene Graphs Guidato dalla Query: Un modulo innovativo che cattura informazioni spaziali, didascalie dettagliate e interazioni semantiche, fornendo un input strutturato e ricco per il ragionamento dell'LLM.
Interpretabilità: A differenza dei metodi "black-box" basati su similarità di feature, SGREC fornisce spiegazioni testuali passo-passo sul perché un oggetto è stato selezionato.
Prestazioni SOTA: Dimostrazione empirica che il ragionamento strutturato su grafi supera l'approccio diretto CLIP-based, anche con modelli LLM di dimensioni inferiori rispetto a quelli usati in pipeline multi-stadio complesse.

4. Risultati Sperimentali

Il metodo è stato valutato sui benchmark standard RefCOCO, RefCOCO+ e RefCOCOg.

Prestazioni Zero-Shot: SGREC ha ottenuto le migliori prestazioni (Top-1 Accuracy) nella maggior parte delle divisioni:
- RefCOCO val: 66.78%
- RefCOCO+ testB: 53.43%
- RefCOCOg val: 73.28%
- Ha superato metodi basati su CLIP (come ReCLIP, RedCircle) e approcci più complessi come ViperGPT ed EAGR, spesso utilizzando modelli LLM più piccoli (es. Qwen-72B o LLaVA-72B) ma con un ragionamento più strutturato.
Confronto con metodi Supervisionati: SGREC ha raggiunto prestazioni paragonabili a metodi fully-supervised (come LGRAN) su RefCOCOg, nonostante non abbia visto dati di addestramento per il task.
Ablation Study:
- L'uso combinato di sostantivi, categorie previste e soggetti inferiti ha migliorato significativamente la selezione degli oggetti.
- L'inclusione di didascalie (captions) e interazioni nello Scene Graph ha portato a guadagni sostanziali, specialmente su query complesse (RefCOCO+ e RefCOCOg).
- L'uso di LLM più grandi ha migliorato le prestazioni, confermando che la capacità di ragionamento linguistico è cruciale per interpretare il grafo.

5. Significato e Impatto

Questo lavoro è significativo perché:

Supera il "Bag-of-Words" dei VLM: Dimostra che la semplice similarità tra testo e immagine non è sufficiente per il REC complesso; è necessaria una rappresentazione strutturata delle relazioni.
Abilita il Ragionamento Visivo negli LLM: Trasforma il problema di localizzazione visiva in un compito di ragionamento testuale, sfruttando le capacità innate degli LLM di comprendere relazioni spaziali e semantiche quando forniti con dati strutturati (JSON/Scene Graph).
Interpretabilità: Fornisce un livello di trasparenza fondamentale per applicazioni reali, mostrando come il modello arriva alla decisione, non solo cosa decide.
Robustezza: Il metodo dimostra di funzionare bene anche in scene dense e con query ambigue o a lunga coda (long-tail), superando molte limitazioni dei metodi attuali.

In sintesi, SGREC rappresenta un avanzamento fondamentale nel campo della visione artificiale e del linguaggio naturale, dimostrando che l'uso di rappresentazioni intermedie strutturate (Scene Graphs) permette agli LLM di comprendere e localizzare oggetti in immagini con precisione zero-shot, senza bisogno di costosi addestramenti supervisionati.