DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Each language version is independently generated for its own context, not a direct translation.

🧥 Il Problema: Cercare un "Abito Perfetto" in un Armadio Caotico

Immagina di avere un armadio pieno di migliaia di magliette (il database di immagini). Tu hai una foto di una maglietta rossa che ti piace (immagine di riferimento), ma vuoi cambiarla: vuoi che sia blu, con le maniche corte e con una stampa di gatti neri (testo di modifica).

Il tuo obiettivo è trovare la maglietta perfetta che rispetti tutte queste regole.

Il problema è che i metodi attuali per fare questa ricerca (chiamati Composed Image Retrieval o CIR) sono un po' "stupidi". Funzionano così:

Prendono la tua richiesta.
Confrontano la tua richiesta con tutte le magliette dell'armadio.
Dicono: "Questa è l'unica maglietta giusta (la positiva). Tutte le altre sono sbagliate (le negative)."

Dove sbagliano?

Sopprimono le cose utili: Se c'è una maglietta blu ma con le maniche lunghe, il sistema la tratta come "totalmente sbagliata" e la spinge via, anche se è molto simile a quello che vuoi. È come se il negoziante ti dicesse: "Non ti piace la maglietta blu? Allora guarda solo quella rossa".
Si confondono: Se chiedi "maglietta blu" e "maglietta verde", il sistema finisce per mettere queste due richieste nello stesso angolo dell'armadio, confondendole. Risultato? Ti mostra magliette verdi quando volevi quelle blu.

💡 La Soluzione: DQE-CIR (Il "Detective" Intelligente)

Gli autori di questo paper, Geon Park e colleghi, hanno creato un nuovo metodo chiamato DQE-CIR. Immagina DQE-CIR come un detective molto attento che non si accontenta di risposte generiche, ma capisce esattamente cosa vuoi.

Ecco come funziona, diviso in due trucchi magici:

1. Il "Peso delle Attributi" (Le Lenti Magiche)

Immagina che la tua richiesta ("maglietta blu, maniche corte") sia una ricetta.

I vecchi metodi mescolano tutti gli ingredienti alla stessa velocità.
DQE-CIR ha delle lenti speciali (pesi apprendibili). Se dici "BLU", il detective mette subito una lente che ingrandisce il colore blu e ignora il resto. Se dici "MANICHE CORTE", mette una lente che si concentra solo sulle maniche.
Risultato: Il sistema capisce che il "blu" è più importante in questo momento e crea una "ricetta" (un'immagine mentale) molto più precisa, distinguendola da altre ricette simili.

2. La "Caccia al Negativo Giusto" (Non tutti i nemici sono uguali)

Qui sta il trucco più geniale.

Il vecchio metodo: Prende tutte le magliette sbagliate e le usa come "nemici" per insegnare al sistema. Ma molte sono troppo facili (es. una scarpa invece di una maglietta) o troppo confuse (una maglietta rossa quando volevi il blu).
Il metodo DQE-CIR: Dice: "Aspetta, non voglio allenarmi con i nemici facili (scarpe) né con quelli troppo simili (magliette rosse che non hanno le maniche corte)".
Cerca invece i "nemici della zona media". Immagina una zona grigia: magliette che sono quasi giuste (es. blu ma con maniche lunghe).
- Queste sono le negative informative.
- Il sistema si allena specificamente a distinguere la maglietta perfetta da quella quasi perfetta.
- È come un allenatore sportivo che non ti fa correre contro un bambino (troppo facile) né contro un campione olimpico (troppo difficile), ma contro un avversario del tuo stesso livello per farti migliorare davvero.

🏆 Perché è meglio? (I Risultati)

Grazie a questi due trucchi, DQE-CIR ha dimostrato di essere molto più bravo in due cose:

Non perde le cose utili: Non scarta più le magliette che hanno alcuni degli attributi giusti (evita la "soppressione della rilevanza").
Non si confonde: Sa distinguere perfettamente tra "maglietta blu" e "maglietta verde" (evita la "confusione semantica").

Hanno testato questo sistema su due grandi "armadi" digitali (FashionIQ e CIRR) e ha vinto contro tutti gli altri metodi esistenti, trovando la maglietta giusta anche quando la richiesta era molto specifica e dettagliata.

🎯 In Sintesi

Pensa a DQE-CIR come a un assistente di shopping super-intelligente:

Non ti dice solo "ecco la maglietta giusta".
Capisce esattamente quale parte della tua richiesta è importante (colore? forma?).
Si allena confrontando le scelte giuste con quelle quasi giuste, per affinare il suo occhio.
Alla fine, ti trova esattamente quello che cerchi, anche se l'armadio è pieno di cose simili.

È un passo avanti verso un'intelligenza artificiale che non solo "vede" le immagini, ma le capisce nel dettaglio, proprio come farebbe un essere umano.

Each language version is independently generated for its own context, not a direct translation.

Titolo

DQE-CIR: Embedding di Query Distintivi tramite Pesi di Attributo Apprendibili e Campionamento Negativo Relativo al Target nella Ricerca di Immagini Composte (CIR).

1. Il Problema

La Ricerca di Immagini Composte (Composed Image Retrieval - CIR) ha l'obiettivo di recuperare un'immagine target combinando un'immagine di riferimento e un testo di modifica che specifica il cambiamento desiderato (es. "cambia il colore in verde e rendi a maniche corte").

Nonostante i progressi recenti, i metodi esistenti basati sull'apprendimento contrastivo presentano due limitazioni fondamentali:

Soppressione della Rilevanza (Relevance Suppression): I framework contrastivi trattano l'immagine target come l'unica "positiva" e tutte le altre come "negative". Questo porta a penalizzare ingiustamente immagini semanticamente correlate che soddisfano parzialmente gli attributi richiesti (es. un shirt verde ma a maniche lunghe), spingendole erroneamente lontano nello spazio di embedding.
Confusione Semantica (Semantic Confusion): Le rappresentazioni di query con modifiche diverse tendono a collassare in regioni sovrapposte dello spazio di embedding. Il modello fatica a distinguere modifiche sottili (es. colore o lunghezza delle maniche), riducendo la discriminatività fine-grained.

2. Metodologia: DQE-CIR

Gli autori propongono DQE-CIR, un framework progettato per creare embedding di query più distintivi e sensibili agli attributi, mitigando i problemi sopra citati. Il sistema si basa su BLIP-2 come backbone vision-language e introduce tre componenti chiave:

A. Pesi di Attributo Apprendibili (Learnable Attribute Weights)

Per migliorare l'allineamento tra testo e visione, il modello non tratta tutti gli attributi allo stesso modo.

Estrae sott-query specifiche per attributi (es. colore, forma) dall'output dell'attenzione del Q-Former di BLIP-2.
Introduce pesi scalari apprendibili ( $w_{color}$ , $w_{shape}$ ) che modulano dinamicamente il contributo di queste caratteristiche specifiche nell'embedding finale della query composta ( $q^*$ ).
Equazione: $q^* = q + w_{color} \cdot q_{color} + w_{shape} \cdot q_{shape}$ .
Questo permette al modello di enfatizzare gli attributi critici per la modifica richiesta, migliorando la precisione del recupero.

B. Campionamento Negativo Relativo al Target (Target Relative Negative Sampling - TRNS)

Invece di considerare tutte le immagini non-target come negative, DQE-CIR costruisce una distribuzione di similarità relativa.

Calcola un $\Delta$ -score per ogni candidato: $\Delta S_j = S_{tar} - S_j$ , dove $S_{tar}$ è la similarità con il target e $S_j$ con il candidato.
Definisce una "Mid-Zone" (zona intermedia) basata su un intervallo $[\alpha, \beta]$ di $\Delta S$ .
Logica:
- Esclude i negativi "facili" (dove $\Delta S$ è molto alto, cioè immagini molto diverse).
- Esclude i "falsi negativi" (dove $\Delta S$ è vicino a zero, cioè immagini semanticamente rilevanti ma non target).
- Seleziona un singolo negativo informativo dalla Mid-Zone per l'addestramento.

C. Apprendimento di Ranking a Coppia Singola (Single-Negative Pairwise Learning)

Utilizzando il negativo selezionato dalla Mid-Zone, il modello adotta un obiettivo di apprendimento pairwise:

Loss di Ranking: Massimizza il margine tra la similarità del target e quella del negativo selezionato ( $L_{main} = \max(0, m - S_{tar} + S_{neg})$ ).
Loss di Divergenza KL: Allinea la distribuzione predetta con quella target.
Loss Ausiliarie: Vengono applicate loss di margine specifiche anche per le sott-query di colore e forma.
Obiettivo Totale: $L_{total} = L_{KL} + \lambda_{rank}L_{main} + w_{color}L_{color} + w_{shape}L_{shape}$ .

3. Contributi Chiave

Framework DQE-CIR: Un nuovo approccio che costruisce embedding di query distintivi e sensibili agli attributi, risolvendo i problemi di soppressione della rilevanza e confusione semantica.
Strategia TRNS: Una strategia innovativa di selezione dei negativi che identifica una "zona intermedia" di campioni informativi, evitando sia i negativi troppo facili che i falsi negativi rilevanti.
Pesi di Attributo Dinamici: Un meccanismo che permette al modello di adattare l'importanza degli attributi visivi (colore, forma) in base al testo di modifica.
Validazione Sperimentale: Dimostrazione che l'uso di campioni negativi relativi al target e l'apprendimento pairwise migliorano significativamente la robustezza e l'accuratezza del recupero.

4. Risultati Sperimentali

Il metodo è stato valutato su benchmark standard (FashionIQ, CIRR) e in setting zero-shot (CIRCO), superando lo stato dell'arte (SOTA) in diverse metriche.

FashionIQ (Recall@10/50): DQE-CIR ha ottenuto i migliori risultati in tutte le categorie (Dress, Shirt, Toptee). Ad esempio, su "Dress" ha raggiunto un Recall@10 del 48.47% contro il 46.80% del precedente SOTA (QuRe).
CIRR (Recall@K e Recallsubset@K): Il modello ha mostrato miglioramenti sia nel ranking globale che nella discriminazione fine-grained all'interno di sottoinsiemi visivamente simili.
- Recall@1: 54.05% (vs 52.22% di QuRe).
- Recallsubset@1: 80.14% (vs 78.51% di QuRe).
- Punteggio medio complessivo: 82.16.
Zero-Shot (CIRCO): In assenza di addestramento specifico sul dataset, DQE-CIR ha ottenuto il miglior mAP@50 (28.13), dimostrando una forte capacità di generalizzazione.
Analisi Qualitativa: Le visualizzazioni mostrano che DQE-CIR riesce a recuperare immagini che soddisfano tutti gli attributi richiesti simultaneamente (es. colore, maniche e pattern), mentre i metodi basali spesso recuperano immagini che soddisfano solo parzialmente la query.
Visualizzazione dell'Attenzione: Le mappe di attenzione incrociata confermano che il modello si focalizza sulle regioni visive rilevanti (es. le maniche o il colore specifico) piuttosto che sull'intera immagine.

5. Significato e Impatto

Questo lavoro è significativo perché sposta il paradigma della CIR dall'apprendimento contrastivo "grezzo" (tutto o niente) a un approccio più sfumato e informato.

Risoluzione del problema dei Falsi Negativi: Identificando e rimuovendo i negativi semanticamente rilevanti ma non target, il modello impara a distinguere meglio le sfumature senza "punire" le immagini parzialmente corrette.
Miglioramento Fine-Grained: La capacità di pesare dinamicamente gli attributi permette un controllo molto più preciso sulle modifiche richieste dall'utente, cruciale per applicazioni reali come la ricerca di moda, la raccomandazione di prodotti e la gestione dei contenuti.
Robustezza: La strategia di campionamento TRNS rende il training più stabile e focalizzato su campioni informativi, portando a spazi di embedding più distintivi e separabili.

In sintesi, DQE-CIR rappresenta un avanzamento sostanziale nella capacità dei sistemi di recupero di immagini di comprendere e applicare modifiche complesse e sottili, offrendo una soluzione unificata ed efficace per la ricerca di immagini sensibile agli attributi.