PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está decorando a sua sala. Você pega uma foto de um sofá que gosta, outra de uma parede com uma cor específica e diz para um assistente de IA: "Use este sofá, mas troque a cor da parede para azul e deixe o estilo mais moderno."

Isso é o que chamamos de Recuperação de Imagem Composta (CIR). A ideia é misturar uma imagem de referência com um texto para encontrar algo novo.

O problema é que, até agora, os testes para ver se essas IAs são boas eram como um jogo de "achar o tesouro" muito fácil:

Eles só tinham uma resposta certa (e na vida real, existem muitas).
Eles não puniam a IA se ela trouxesse coisas erradas que pareciam certas (falsos positivos).
Eles não testavam se a IA entendia a mesma coisa se você mudasse levemente as palavras.

Os autores deste paper, do Pinterest, criaram um novo "campo de provas" chamado PinPoint para resolver isso. Vamos explicar como funciona usando analogias simples:

1. O PinPoint: O "Exame de Direção" Realista

Antes, os testes de IA eram como dirigir em uma pista vazia com apenas um destino marcado. O PinPoint é como colocar a IA no trânsito real de São Paulo:

Múltiplos Destinos Corretos: Se você pede "um vestido vermelho", não existe apenas um vestido vermelho no mundo. O PinPoint tem, em média, 9 vestidos vermelhos diferentes que são todos respostas corretas para a mesma pergunta.
Armadilhas Visuais (Negativos Explícitos): O teste inclui "armadilhas". Imagine que você pediu um "sapato vermelho de couro". O teste coloca na frente da IA um "sapato vermelho de tecido" ou uma "bolsa vermelha". Se a IA escolher a bolsa, ela falhou. O PinPoint mede quantas vezes a IA cai nessas armadilhas.
Muitas Maneiras de Pedir: O mesmo pedido é feito de 6 formas diferentes (ex: "mude para azul", "quero a cor azul", "faça ficar azul"). Se a IA só entende uma frase e falha nas outras, ela não é robusta.
Imagens Múltiplas: Às vezes, você quer combinar duas fotos de referência (ex: "pegue a cor desta camisa e o corte daquela calça"). O PinPoint testa se a IA consegue fazer essa "mistura" complexa.

2. O Que Eles Descobriram? (As Surpresas)

Eles testaram mais de 20 modelos de IA diferentes e descobriram coisas preocupantes:

O Problema do "Quase Certo": As melhores IAs conseguiam encontrar a resposta certa, mas também traziam muitas coisas erradas que pareciam certas. É como um garçom que traz o prato que você pediu, mas junto com 9 pratos que você não pediu. Elas erram em evitar o "ruído".
A Sensibilidade às Palavras: Se você mudasse levemente a frase, a performance da IA caía drasticamente (até 25%). Isso sugere que elas estão "decoreba" (decorando o teste) em vez de realmente entender o que você quer.
O Pesadelo de Duas Imagens: Quando você pede para combinar duas fotos, a performance das IAs cai entre 40% a 70%. Elas têm muita dificuldade em entender como misturar duas referências visuais.

3. A Solução Mágica (Sem Treinamento)

O grande trunfo do paper não foi apenas apontar os problemas, mas oferecer um "remédio" rápido.

Eles criaram um método chamado Reranking (Reclassificação) sem Treinamento.

A Analogia: Imagine que a IA principal é um caçador de tesouros que é rápido, mas às vezes traz pedras no lugar de ouro. O novo método é um especialista em joias (um modelo de IA muito inteligente, um MLLM) que fica parado na porta.
Como funciona: O caçador traz 10 itens. O especialista olha cada um e diz: "Isso é ouro? Sim. Isso é pedra? Não." Ele reorganiza a lista, garantindo que o melhor item fique no topo.
O Resultado: Isso melhorou a precisão de todos os modelos testados, sem precisar reensiná-los do zero. É como dar um "filtro de qualidade" extra que qualquer sistema pode usar.

4. Conclusão Simples

O PinPoint é um novo padrão de qualidade. Ele nos diz que, embora as IAs de busca visual estejam ficando boas, elas ainda:

Têm dificuldade em dizer "não" para coisas que parecem certas, mas estão erradas.
São frágeis com a linguagem (mude a frase, e elas se perdem).
Não conseguem misturar bem várias imagens.

O paper mostra que, para chegarmos a uma IA que entenda o mundo visual como um humano, precisamos de testes mais rigorosos (como o PinPoint) e de sistemas que não apenas "achem" a resposta, mas que saibam filtrar o que é irrelevante. A solução de "reclassificação" é um passo importante nessa direção, funcionando como um filtro de segurança que pode ser adicionado a qualquer sistema existente.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

A Recuperação de Imagens Compostas (CIR - Composed Image Retrieval) permite que os usuários combinem uma imagem de referência com instruções em linguagem natural para buscar resultados específicos (ex: "pegue este vestido, mas em vermelho"). Embora o campo tenha avançado, os benchmarks existentes (como CIRR, FashionIQ e CIRCO) apresentam limitações fundamentais que não refletem cenários reais de busca:

Falta de Negativos Explícitos: Os benchmarks atuais focam em Recall (se o resultado relevante está no Top-K), ignorando Falsos Positivos. Um sistema pode retornar 2 imagens relevantes e 8 irrelevantes visualmente similares (distratores) e ainda obter uma pontuação perfeita de Recall@10.
Resposta Única (Ground-Truth Único): Assumem que existe apenas uma resposta correta por consulta, ignorando a multiplicidade inerente à correspondência multimodal (vários vestidos vermelhos podem ser válidos).
Falta de Robustez Linguística: Não testam se o modelo é robusto a diferentes formulações da mesma intenção (paráfrases).
Incapacidade de Raciocínio Multi-Imagem: A maioria dos benchmarks não suporta consultas compostas por múltiplas imagens de referência, uma necessidade comum em aplicações reais (ex: combinar um vestido e um par de sapatos).
Viés e Equidade: Falta de metadados demográficos para avaliar a justiça dos resultados.

2. Metodologia: O Dataset PinPoint

Os autores introduzem o PinPoint, um benchmark em escala real desenhado para preencher essas lacunas. O dataset foi construído com as seguintes características:

Escala e Diversidade: 7.635 consultas cobrindo 23 categorias diversas (Moda, Beleza, Decoração, etc.) e 329.000 julgamentos de relevância verificados por humanos.
Anotação de Múltiplas Respostas: Cada consulta possui, em média, 9.1 respostas positivas (ground truths) e 32.8 negativos explícitos (distratores visualmente similares, mas semanticamente incorretos).
Geração de Instruções e Paráfrases:
- Instruções geradas via LLMs (GPT-5, Claude, Gemini) e validadas por humanos, cobrindo 5 tipos de intenção: Explorar, Trocar, Negação, Ajuste de Contexto e Complementar.
- 6 variações de paráfrase por consulta para testar a robustez linguística.
Consultas Multi-Imagem: 13,4% das consultas exigem a combinação de múltiplas imagens de referência.
Metadados Demográficos: Uso da escala Monk Skin Tone para permitir análises de viés e equidade.
Pipeline de Construção: Envolveu filtragem automática, geração por múltiplos LLMs, consenso entre modelos e verificação humana rigorosa para garantir a qualidade e reduzir viés.

3. Contribuições Principais

Novo Benchmark (PinPoint): O primeiro dataset CIR de grande escala com negativos explícitos, múltiplos ground truths, suporte a multi-imagem e testes de paráfrase.
Protocolos de Avaliação Avançados: Introdução de novas métricas, incluindo:
- $\Delta$ mAP@10: Mede a queda de desempenho quando negativos explícitos são adicionados (indicando sensibilidade a falsos positivos).
- Recall Negativo: Frequência de falsos positivos no Top-10.
- Sensibilidade Linguística: Variação de desempenho entre diferentes paráfrases da mesma consulta.
Método de Reranking sem Treinamento: Proposta de uma técnica de reranking baseada em Modelos de Linguagem Multimodal (MLLMs) prontos para uso (off-the-shelf), que melhora a precisão sem necessidade de re-treinar o modelo base.
Avaliação Abrangente: Análise de mais de 20 modelos através de 4 paradigmas diferentes (CLIPs gerais, métodos específicos de CIR, métodos baseados em proxy e geração de texto).

4. Resultados e Análise

A avaliação de 20+ modelos revelou três falhas críticas invisíveis nos benchmarks anteriores:

Alta Taxa de Falsos Positivos: Mesmo os melhores métodos (com mAP@10 de 28,5%) retornam resultados irrelevantes (negativos explícitos) 9% das vezes. Modelos especializados em CIR tendem a ter melhor mAP, mas pioram no controle de falsos positivos em comparação com bases CLIP genéricas.
Fragilidade Linguística: Os melhores modelos exibem uma variação de desempenho de 25,1% entre diferentes paráfrases da mesma consulta, sugerindo overfitting a padrões específicos de instrução em vez de aprendizado robusto.
Desempenho Ruim em Multi-Imagem: Consultas com múltiplas imagens de referência performam 40% a 70% pior do que consultas de imagem única em todos os métodos testados. O melhor modelo atingiu apenas 0,067 mAP@10 neste cenário.

Sobre o Reranking com MLLM:

A aplicação de um reranker baseado em MLLM (Qwen2.5-VL-7B) sem treinamento melhorou consistentemente o desempenho de todos os métodos.
O modelo MMRet-MLLM-S1 + Reranking alcançou o estado da arte (mAP@10 de 29,0%) e reduziu significativamente a taxa de falsos positivos.
Limitação do Reranking: Embora melhore a precisão, o reranking aumentou a sensibilidade linguística em alguns casos e não resolveu o problema de desempenho em consultas multi-imagem.

5. Significado e Conclusão

O trabalho PinPoint redefine o padrão de avaliação para Recuperação de Imagens Compostas ao demonstrar que:

A otimização apenas para Recall ou mAP em benchmarks antigos esconde falhas críticas de segurança (falsos positivos) e robustez.
Existe uma lacuna significativa na capacidade dos modelos atuais de raciocinar sobre múltiplas imagens e generalizar para variações linguísticas.
Soluções de reranking baseadas em MLLMs são intervenções eficazes e imediatas para melhorar a precisão e reduzir falsos positivos, mas não substituem a necessidade de arquiteturas fundamentais mais robustas e dados de treinamento mais diversificados.

O dataset e o código foram liberados publicamente para permitir que a comunidade desenvolva sistemas de busca visual que sejam não apenas precisos, mas também robustos, justos e capazes de lidar com a complexidade do mundo real.

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

1. O PinPoint: O "Exame de Direção" Realista

2. O Que Eles Descobriram? (As Surpresas)

3. A Solução Mágica (Sem Treinamento)

4. Conclusão Simples

1. O Problema

2. Metodologia: O Dataset PinPoint

3. Contribuições Principais

4. Resultados e Análise

5. Significado e Conclusão

Mais como este

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics