DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está em uma loja de roupas gigante, mas em vez de procurar apenas por "camisetas", você quer algo muito específico: "Uma camiseta azul, de manga curta, com um gato preto estampado".

A maioria dos sistemas de busca atuais funciona como um vendedor meio desatento. Você mostra uma foto de uma camiseta rosa e diz "quero a azul". O vendedor olha para todas as camisetas da loja. Ele sabe que a camiseta azul é a que você quer, mas ele também empurra para longe todas as outras camisetas, mesmo as que são azuis e têm mangas curtas, mas talvez tenham um gato branco em vez de preto. Para o vendedor, se não for exatamente a foto que você tem na mão, é "errado". Isso faz com que boas opções sejam ignoradas e o sistema fique confuso.

O artigo que você enviou, chamado DQE-CIR, propõe uma solução inteligente para esse problema. Vamos explicar como funciona usando analogias do dia a dia:

1. O Problema: O "Vendedor Confuso"

Os métodos antigos de busca por imagem combinada (imagem + texto) têm dois defeitos principais:

Supressão de Relevância: Eles tratam qualquer coisa que não seja a resposta perfeita como "inimiga". Se você quer uma camiseta azul, e o sistema vê uma camiseta verde-azulada (que é quase o que você quer), ele a pune, achando que ela é inútil. Isso faz com que resultados bons sumam.
Confusão Semântica: Como eles não prestam atenção nos detalhes, uma busca por "camiseta azul" e outra por "camiseta verde" acabam ficando muito parecidas na "memória" do computador. É como se o vendedor não soubesse a diferença entre azul e verde.

2. A Solução: O "Detetive Especialista" (DQE-CIR)

Os autores criaram um novo sistema que age como um detetive muito atento. Ele usa duas ferramentas principais:

A. Pesos de Atributo Aprendíveis (O "Filtro de Prioridade")

Imagine que você está dando uma ordem para um assistente. Em vez de tratar todas as palavras da mesma forma, o sistema aprende a dar peso (importância) para o que é crucial.

Se você diz "camiseta azul", o sistema aumenta o volume da palavra "azul" e diminui o da palavra "camiseta" (que já sabemos que é uma camiseta).
Analogia: É como se você tivesse um equalizador de som. O sistema sabe que, para encontrar a roupa certa, o botão de "cor" e o botão de "forma" precisam estar no máximo, enquanto o resto fica mais baixo. Isso ajuda a criar uma "impressão digital" única para a sua busca, separando-a de outras buscas parecidas.

B. Amostragem de Negativos Relativos ao Alvo (O "Treinamento com o Vizinho")

Aqui está a parte mais genial. Os sistemas antigos treinam o modelo mostrando a foto certa e dizendo: "Isso é o certo, tudo o resto é errado". O problema é que "tudo o resto" inclui coisas que são quase certas (como a camiseta verde-azulada).

O DQE-CIR muda a estratégia:

Ele olha para a foto certa (o alvo).
Ele olha para todas as outras fotos.
Em vez de jogar todas as outras fotos fora, ele procura as fotos que estão na "Zona Média".
- Zona Fácil: Fotos que são totalmente diferentes (ex: um cachorro). O sistema ignora, pois é óbvio que não é a resposta.
- Zona Falsa: Fotos que são quase a resposta, mas erram um detalhe crucial (ex: a camiseta verde-azulada). O sistema aprende a não punir essas fotos como "inimigas mortais", mas sim como "vizinhos que precisam de ajuste".
- Zona Média (Onde a mágica acontece): Fotos que são muito parecidas, mas não são a resposta exata. O sistema escolhe uma dessas para treinar.

Analogia do Treinamento:
Imagine que você está treinando um atleta para correr 100 metros.

Método Antigo: Você corre contra uma tartaruga (fácil) e contra um carro (impossível). O atleta não aprende nada de útil.
Método DQE-CIR: Você escolhe um corredor que é quase tão rápido quanto o atleta, mas um pouquinho mais lento. O atleta precisa se esforçar para vencer esse "vizinho". É nesse esforço que ele fica realmente rápido e preciso.

3. O Resultado: Precisão Cirúrgica

Com essas duas ferramentas, o sistema consegue:

Entender que "azul" é diferente de "verde", mesmo que as cores sejam parecidas.
Não descartar fotos que são quase perfeitas, mas sim usá-las para refinar a busca.
Encontrar a imagem exata que você pediu, mesmo em meio a milhares de opções visualmente similares.

Resumo em uma frase

O DQE-CIR é como transformar um vendedor de loja que ignora quase tudo em um detetive especialista que sabe exatamente quais detalhes (cor, forma, quantidade) são importantes e treina com os "vizinhos" mais parecidos para não cometer erros bobos, garantindo que você encontre exatamente a imagem que imaginou.

Os testes mostraram que esse método funciona muito melhor do que os anteriores, tanto para encontrar roupas específicas quanto para cenários mais complexos, como encontrar um animal com uma cor diferente ou um objeto com uma quantidade específica.

Each language version is independently generated for its own context, not a direct translation.

Título: DQE-CIR: Incorporações de Consulta Distintivas através de Pesos de Atributo Aprendíveis e Amostragem de Negativos Relativos ao Alvo na Recuperação de Imagens Compostas

1. O Problema

A Recuperação de Imagens Compostas (CIR - Composed Image Retrieval) tem como objetivo recuperar uma imagem-alvo a partir de uma consulta que combina uma imagem de referência e um texto de modificação (ex: "uma camiseta vermelha" + "mude para azul").

O artigo identifica duas limitações críticas nos métodos existentes baseados em aprendizado contrastivo:

Supressão de Relevância (Relevance Suppression): Em abordagens tradicionais, apenas a imagem-alvo é tratada como positiva, e todas as outras são negativas. Isso penaliza erroneamente imagens que possuem atributos relevantes (ex: uma camiseta azul com mangas longas, quando o alvo é azul com mangas curtas), empurrando-as para longe no espaço de incorporação, mesmo que sejam semanticamente úteis.
Confusão Semântica (Semantic Confusion): Diferentes intenções de modificação (ex: mudar a cor vs. mudar o tamanho) tendem a colapsar em regiões sobrepostas do espaço de incorporação. Isso reduz a capacidade do modelo de distinguir modificações sutis e finas, como cor ou comprimento de manga.

2. Metodologia Proposta: DQE-CIR

Os autores propõem o DQE-CIR, um framework projetado para criar incorporações de consulta (query embeddings) mais distintivas e sensíveis a atributos. O método baseia-se no backbone BLIP-2 e introduz três componentes principais:

A. Pesos de Atributo Aprendíveis (Learnable Attribute Weights)

Mecanismo: O modelo utiliza o Q-Former do BLIP-2 para extrair tokens de consulta. Para enfatizar características visuais específicas, o sistema extrai sub-consultas focadas em atributos (ex: q_color e q_shape) baseadas nos termos do texto de modificação.
Fórmula: A incorporação final da consulta ( $q^*$ ) é uma combinação da incorporação base ( $q$ ) ponderada por pesos escalares aprendíveis ( $w$ ):
$q^* = q + w_{color} \cdot q_{color} + w_{shape} \cdot q_{shape}$
Objetivo: Permitir que o modelo adapte dinamicamente a importância de atributos específicos (cor, forma) conforme a intenção da consulta, melhorando o alinhamento entre linguagem e visão.

B. Amostragem de Negativos Relativos ao Alvo (Target Relative Negative Sampling - TRNS)

Conceito: Em vez de tratar todas as imagens não-alvo como negativas, o TRNS calcula um escore $\Delta$ para cada candidato, definido como a diferença entre a similaridade com a imagem-alvo ( $s_{tar}$ ) e a similaridade com o candidato ( $s_j$ ):
$\Delta S_j = s_{tar} - s_j$
Zona Média (Mid-Zone): O método define uma faixa de valores $\Delta S$ $Δ S$ (zona média) que exclui:
- Negativos fáceis: Imagens muito diferentes do alvo ( $\Delta S$ muito alto).
- Falsos negativos: Imagens semanticamente relevantes que não são o alvo exato, mas são penalizadas erroneamente ( $\Delta S$ muito baixo).
Seleção: Apenas imagens que caem nesta "zona média" (semelhantes o suficiente para serem informativas, mas distintas o suficiente para não serem falsos negativos) são selecionadas para o treinamento.

C. Aprendizado de Ranking com Pares de Único Negativo (Single-Negative Pairwise Learning)

Estratégia: Diferente do aprendizado contrastivo padrão que compara um positivo contra muitos negativos, o DQE-CIR seleciona um único negativo da zona média para cada consulta.
Função de Perda: O modelo otimiza uma perda de ranking em pares (margem) entre a imagem-alvo e esse negativo selecionado, além de uma perda de divergência KL para distribuições de probabilidade.
Benefício: Isso força o modelo a aprender uma ordem de preferência clara e distinta, reduzindo a confusão semântica e evitando a supressão de relevância.

3. Principais Contribuições

Framework DQE-CIR: Uma nova arquitetura que constrói incorporações de consulta distintivas e sensíveis a atributos através de pesos aprendíveis e consultas auxiliares.
Estratégia TRNS: Uma nova estratégia de seleção de negativos que identifica uma "zona média" relativa ao alvo, eliminando falsos negativos e negativos fáceis, focando o treinamento em amostras semanticamente informativas e desafiadoras.
Aprendizado de Ranking Pares: A aplicação de um objetivo de aprendizado de par único (um positivo vs. um negativo selecionado) para fortalecer a margem de ranking e a distinção de atributos finos.
Validação Abrangente: Demonstração de superioridade em benchmarks padrão (FashionIQ, CIRR) e em cenários zero-shot (CIRCO), superando o estado da arte (SOTA).

4. Resultados Experimentais

O modelo foi avaliado em FashionIQ (foco em moda e atributos finos) e CIRR (cenários do mundo real e variações visuais), além de CIRCO para avaliação zero-shot.

FashionIQ: O DQE-CIR alcançou o melhor desempenho em todas as categorias (Vestido, Camisa, Top) e métricas (Recall@10 e Recall@50), superando o QuRe (o melhor anterior) em cerca de 2 a 2,5 pontos.
- Exemplo: No conjunto de dados "Dress", alcançou Recall@10 de 48.47 (vs. 46.80 do QuRe).
CIRR: Demonstrou ganhos significativos tanto na precisão global de ranking quanto na discriminação em subconjuntos de imagens visualmente similares (Recall_subset).
- Exemplo: Recall@1 global de 54.05 e Recall_subset@1 de 80.14, superando consistentemente o QuRe e o SPRC.
Zero-Shot (CIRCO): Sem treinamento específico no conjunto de dados, o DQE-CIR obteve o maior mAP (Mean Average Precision) em todas as configurações, indicando forte generalização.
Análise Qualitativa: Visualizações de atenção cruzada mostram que o modelo foca corretamente nas regiões relevantes (ex: mangas, padrões de gato) em vez de distribuir a atenção por toda a imagem, confirmando o alinhamento semântico preciso.

5. Significado e Impacto

O DQE-CIR representa um avanço significativo na Recuperação de Imagens Compostas ao abordar diretamente as falhas fundamentais dos métodos baseados em contraste puro.

Solução para Falsos Negativos: Ao introduzir a amostragem relativa ao alvo, o método mitiga o problema de penalizar imagens que são parcialmente relevantes, um erro comum em sistemas anteriores que prejudica a satisfação do usuário em cenários reais onde múltiplos resultados relevantes são esperados.
Precisão em Atributos Finos: A capacidade de distinguir modificações sutis (como cor ou quantidade) é crucial para aplicações práticas como busca de moda, recomendação de produtos e gerenciamento de conteúdo.
Eficiência e Robustez: A estratégia de usar um único negativo informativo por iteração, combinada com pesos de atributo adaptativos, resulta em um espaço de incorporação mais estruturado e distintivo, validado tanto em cenários supervisionados quanto zero-shot.

Em resumo, o trabalho propõe uma mudança de paradigma de "todos os não-alvos são negativos" para uma abordagem mais matizada e relativa, resultando em sistemas de recuperação de imagem mais inteligentes, precisos e robustos.