Interpretable Zero-shot Referring Expression Comprehension with Query-driven Scene Graphs

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está em um museu muito grande e cheio de quadros. Um amigo, que não pode ver os quadros, te manda uma mensagem de texto dizendo: "Encontre para mim aquele vaso estranho que tem um formato de 8 e está ao lado de uma flor azul."

O desafio é que você nunca viu esse vaso antes (é um "zero-shot", ou seja, sem treino prévio) e o museu tem milhares de objetos. Como você acha o certo?

Aqui está a explicação da pesquisa SGREC, traduzida para uma linguagem simples e cheia de analogias:

O Problema: Os "Robôs" que não entendem o contexto

Antes dessa pesquisa, os computadores tentavam resolver isso de duas formas, mas ambas tinham falhas:

O "Comparador de Fotos" (Modelos como CLIP): Imagine um robô que só olha para a foto do vaso e para a frase do seu amigo. Ele tenta ver se a "cor" da frase combina com a "cor" da foto. O problema? Ele é meio "burro" para detalhes. Se você pedir o "vaso estranho", ele pode achar qualquer vaso, porque não entende o que é "estranho" ou como os objetos se relacionam (quem está ao lado de quem).
O "Especialista em Texto" (Modelos de Linguagem como o ChatGPT): Imagine um professor de literatura que lê a frase e sabe tudo sobre vasos. O problema é que ele é "cego". Ele nunca viu a foto, então não consegue imaginar onde o vaso está no quadro.

A Solução: O "Detetive com Mapa" (SGREC)

Os autores criaram um novo método chamado SGREC. Eles decidiram unir as duas habilidades criando um intermediário inteligente: um Mapa de Cena (Scene Graph).

Pense no SGREC como um detetive que segue três passos mágicos:

Passo 1: O Filtro de "Quem Importa"

O detetive recebe a mensagem do amigo ("vaso estranho..."). Em vez de olhar para todos os objetos da foto, ele usa uma ferramenta para extrair as palavras-chave: "vaso", "flor", "azul".
Ele então varre a foto e diz: "Ok, ignoro as pessoas, ignoro as cadeiras. Só vou prestar atenção nos vasos e nas flores, porque é disso que o amigo está falando."

Passo 2: Criando o "Mapa da Mina" (O Grafo de Cena)

Aqui está a mágica. O detetive não apenas aponta para os objetos; ele cria uma descrição estruturada de tudo o que vê, como se fosse uma lista de ingredientes para um bolo, mas com regras de como eles se encaixam.

Ele gera três tipos de informações para cada objeto relevante:

O Endereço (Coordenadas): "O vaso está na posição X, Y, Z da foto." (Isso ajuda a entender "esquerda", "direita", "em cima").
A Descrição (Legendas): Em vez de apenas dizer "vaso", ele usa uma IA para descrever: "Um vaso vermelho com um formato de 8, feito de cerâmica".
As Relações (Interações): Ele conecta os pontos: "O vaso está ao lado da flor azul" ou "A flor está dentro do vaso".

Imagine que, em vez de entregar a foto bruta para o computador, você entrega a ele uma história escrita sobre a foto: "Havia um vaso vermelho (ID 1) que estava à esquerda de uma flor azul (ID 2). O vaso tinha formato de 8..."

Passo 3: O Juiz Final (O Cérebro de Linguagem)

Agora, o detetive pega essa "história escrita" (o mapa estruturado) e a frase do amigo, e entrega para um Gênio da Linguagem (um Modelo de Linguagem Grande, ou LLM).

Como o Gênio só precisa ler texto (e não analisar pixels complexos), ele é muito bom em raciocínio lógico. Ele lê: "O amigo quer o vaso com formato de 8 ao lado da flor azul". Ele olha para a história que você escreveu: "O vaso ID 1 é vermelho, formato 8, e está ao lado da flor ID 2".

Resultado: O Gênio aponta: "É o ID 1!". E ainda explica o porquê: "Escolhi o ID 1 porque a descrição diz que ele tem formato de 8 e está ao lado da flor azul, exatamente como pedido."

Por que isso é genial?

Interpretabilidade: Diferente de outros sistemas que dão uma resposta e pronto, o SGREC nos mostra o "raciocínio". Ele nos diz por que escolheu aquele objeto, baseando-se na história que criou.
Sem Treino Específico: Você não precisa ensinar o computador com milhares de exemplos de "vasos estranhos". Você só precisa que ele saiba ler e entender o mapa que você criou.
Precisão: Ao transformar a imagem em uma história lógica, o computador consegue entender nuances como "segundo da esquerda" ou "mais alto", coisas que os modelos antigos falhavam.

Resumo em uma frase

O SGREC é como transformar uma foto complexa em um roteiro de filme detalhado e pedir para um ator experiente (a Inteligência Artificial) ler o roteiro e dizer exatamente qual personagem (objeto) a plateia (o usuário) está procurando.

Os testes mostraram que esse método é o melhor do mundo atual para encontrar objetos em fotos sem precisar de treinos específicos, superando até mesmo modelos que foram treinados com milhões de dados.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema: Compreensão de Expressões Referenciais Zero-Shot (Zero-shot REC)

A Compreensão de Expressões Referenciais (REC) é a tarefa de localizar um objeto específico em uma imagem com base em uma consulta em linguagem natural (ex: "o cachorro preto sentado à esquerda").

O desafio central abordado neste trabalho é o cenário Zero-shot, onde o modelo deve realizar essa tarefa sem dados de treinamento específicos para a tarefa.

Limitações dos Modelos Atuais:
- VLMs (Modelos Visão-Linguagem) como o CLIP: Tendem a medir apenas a similaridade de características entre texto e regiões da imagem. Eles falham em capturar detalhes visuais finos e, crucialmente, não conseguem modelar relações contextuais complexas (ex: "à esquerda de", "segurando").
- LLMs (Grandes Modelos de Linguagem): Possuem forte raciocínio semântico, mas não conseguem "ver" ou abstrair diretamente características visuais em semântica textual sem uma ponte adequada.
A Necessidade: É necessário um método que una a compreensão visual detalhada com o raciocínio lógico de alto nível, sem depender de ajuste fino (fine-tuning) massivo em dados rotulados.

2. Metodologia: O Framework SGREC

Os autores propõem o SGREC, um framework interpretável que utiliza Grafos de Cena Orientados por Consulta (Query-driven Scene Graphs) como intermediários estruturados entre a imagem e o LLM. O processo é dividido em três etapas principais:

Etapa 1: Ancoragem de Objetos (Object Grounding)

O objetivo é identificar quais objetos na imagem são relevantes para a consulta.

Extração de Nomes: O sistema extrai substantivos da consulta, prevê categorias (usando embeddings word2vec para similaridade semântica) e infere o "sujeito" da consulta.
Inferência de Sujeito: Utiliza um VLM (como LLaVA) para interpretar consultas ambíguas (ex: se a consulta é "a coisa à esquerda", o modelo infere que o sujeito é "cadeira" ou "pessoa" baseado na imagem).
Seleção: Objetos detectados são filtrados com base na similaridade entre seus rótulos de classe e os termos extraídos da consulta.

Etapa 2: Geração de Grafo de Cena (Scene Graph Generation)

Esta é a inovação central. Em vez de apenas alinhar embeddings, o sistema constrói uma representação textual estruturada do cenário visual. O grafo de cena ($SG$) contém:

Nós (Objetos): Cada objeto relevante possui:
- Coordenadas Espaciais: Bounding boxes $(x1, y1, x2, y2)$ para permitir raciocínio espacial (ex: calcular qual objeto está mais à esquerda).
- Atributos: Cores, materiais, estados (extraídos do detector).
- Legendas (Captions): O VLM gera uma descrição textual rica e detalhada para cada região recortada da imagem, capturando nuances visuais que atributos simples perdem.
Arestas (Interações): O sistema prevê relações entre pares de objetos (ex: "copo sobre mesa"). Para evitar ruído, apenas pares com sobreposição significativa são enviados ao VLM para prever a relação específica.
Formato: Todo o grafo é serializado em JSON, servindo como entrada estruturada para o LLM.

Etapa 3: Inferência com LLM

O LLM recebe a consulta original e o grafo de cena em formato JSON.
O modelo é instruído a selecionar o ID do objeto que melhor corresponde à consulta.
Interpretabilidade: O LLM não apenas retorna o ID, mas também fornece uma explicação detalhada de sua decisão, justificando por que aquele objeto foi escolhido com base nas coordenadas, legendas e relações fornecidas no grafo.

3. Contribuições Principais

Novo Framework Zero-shot: Integração de Grafos de Cena e LLMs para compreensão visual completa, eliminando a necessidade de dados de treinamento específicos para REC.
Módulo de Geração de Grafos Orientado por Consulta: Um mecanismo que captura informações espaciais, legendas de objetos e interações implícitas, criando uma representação estruturada que "traduz" a visão para a linguagem do LLM.
Interpretabilidade: O processo de inferência é transparente, pois o LLM explica seu raciocínio com base nos dados estruturados do grafo, permitindo entender falhas e acertos.
Desempenho SOTA: Demonstra que a modelagem relacional estruturada supera o simples escalonamento de modelos ou o uso de prompts visuais diretos.

4. Resultados Experimentais

O SGREC foi avaliado nos benchmarks padrão RefCOCO, RefCOCO+ e RefCOCOg.

Desempenho Geral: O método alcançou o estado da arte (SOTA) na maioria das divisões (splits) sem nenhum ajuste fino (zero-shot).
- RefCOCO val: 66,78%
- RefCOCO+ testB: 53,43%
- RefCOCOg val: 73,28%
Comparação:
- Superou métodos baseados em CLIP (como ReCLIP, RedCircle) e outros modelos zero-shot (como ZeroshotREC, GroundVLP) por margens significativas (ex: +10% em RefCOCOg).
- Desempenho comparável a métodos totalmente supervisionados (como LGRAN e Grounding-DINO treinados), apesar de não usar dados de treinamento de REC.
Análise de Ablação:
- A adição de legendas de objetos (captions) e interações (relações) ao grafo de cena trouxe ganhos substanciais, especialmente em consultas complexas que dependem de aparência e contexto.
- Modelos LLM maiores (ex: Qwen-72B) performaram melhor, mas o ganho principal veio da estrutura do grafo, não apenas do tamanho do modelo.
Robustez: O modelo manteve bom desempenho em cenas densas e generalizou bem para substantivos de baixa frequência (long-tail).

5. Significado e Impacto

O trabalho SGREC é significativo por várias razões:

Ponte Visão-Linguagem Estruturada: Resolve o problema de "alucinação" ou falta de contexto dos VLMs puros ao forçar a construção de uma representação intermediária (o grafo de cena) que o LLM pode raciocinar logicamente.
Eficiência de Dados: Demonstra que é possível atingir desempenho de nível supervisionado em tarefas de localização complexa sem a necessidade de coletar e rotular milhares de pares "imagem-consulta", o que é caro e demorado.
Interpretabilidade: Ao exigir que o modelo explique sua escolha baseada em coordenadas e descrições textuais, o sistema torna-se mais confiável e auditável para aplicações do mundo real (como navegação robótica ou sistemas de assistência).
Direção Futura: Sugere que a combinação de detecção de objetos, geração de descrições ricas e raciocínio em grafos estruturados é um caminho mais promissor para a compreensão visual zero-shot do que apenas o aumento da escala de modelos de fundação (foundation models).

Em resumo, o SGREC transforma a tarefa de localização visual em um problema de raciocínio textual estruturado, permitindo que modelos de linguagem existentes compreendam e localizem objetos com alta precisão e explicabilidade, sem treinamento específico.